업계 뉴스레터
전문가가 전하는 최신 AI 트렌드
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
LLM 벤치마크는 대규모 언어 모델(LLM)의 성능을 평가하기 위한 표준화된 프레임워크입니다. 이러한 벤치마크는 샘플 데이터, 특정 스킬에 대해 LLM을 테스트하기 위한 일련의 질문 또는 작업, 성능 평가를 위한 메트릭 및 점수 책정 메커니즘으로 구성됩니다.
모델은 코딩, 상식, 추론 등의 기능을 기반으로 벤치마킹됩니다. 그 밖의 기능으로는 기계 번역, 질문 답변, 텍스트 요약을 포함한 자연어 처리 등이 있습니다.
LLM 벤치마크는 모델을 개발하고 개선하는 데 중요한 역할을 합니다. 벤치마크는 모델이 우수한 영역, 개선이 필요한 영역을 강조하는 정량적 측정값을 통해 LLM의 학습 진행 상황을 보여줍니다.
그리고 이는 미세 조정 프로세스에 대한 지침이 되어 LLM 연구자와 개발자가 자연어 처리 및 AI 분야를 발전시키는 데 도움이 됩니다. 또한 LLM 벤치마크는 다양한 모델을 객관적으로 비교하여 소프트웨어 개발자와 조직이 자신의 필요에 더 적합한 모델을 선택할 수 있도록 정보를 제공합니다.
LLM 벤치마크의 작동 방식은 간단합니다. LLM이 수행해야 하는 작업을 제공하고, 특정 메트릭에 따라 모델 성능을 평가하고, 해당 메트릭에 따라 점수를 산출합니다. 각 단계의 자세한 작동 방식은 다음과 같습니다.
LLM 벤치마크에는 코딩 문제, 대용량 문서, 수학 문제, 실제 대화, 과학 문제 등 샘플 데이터가 이미 준비되어 있습니다. 또한 상식적 추론, 문제 해결, 질의 응답, 요약 생성 및 번역 등 다양한 작업도 준비되어 있습니다. 이러한 작업은 모두 테스트를 시작할 때 모델에 제공됩니다.
벤치마크를 실행하면 다음 세 가지 접근 방식 중 하나로 모델에 도입됩니다.
퓨샷: LLM에 작업을 수행하라는 프롬프트를 보내기 전에 해당 작업을 수행하는 방법을 보여주는 몇 가지 예제가 제공됩니다. 이를 통해 부족한 데이터를 학습할 수 있는 모델의 능력을 확인할 수 있습니다.
제로샷: LLM은 사전에 예제를 보지 못한 상태에서 작업을 완료하라는 프롬프트를 받습니다. 이를 통해 새로운 개념을 이해하고 새로운 시나리오에 적응하는 모델의 능력을 확인할 수 있습니다.
미세 조정: 벤치마크에서 사용하는 것과 유사한 데이터 세트로 모델을 학습시킵니다. 목표는 벤치마크와 관련된 작업에 대한 LLM의 명령을 강화하고 해당 특정 작업에서 성능을 최적화하는 것입니다.
테스트가 완료되면 LLM 벤치마크는 모델의 결과가 예상 솔루션 또는 표준 답안과 얼마나 유사한지 계산한 다음 0에서 100 사이의 점수를 생성합니다.
업계 뉴스레터
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
벤치마크는 LLM의 성능을 평가하기 위해 다양한 메트릭을 적용합니다. 다음은 몇 가지 일반적인 메트릭입니다.
정확도 또는 정밀도란 올바른 예측의 비율을 계산한 것을 말합니다.
재현율은 민감도라고도 하며, 실제 정확한 예측인 참 긍정(True Positive)의 수를 정량화합니다.
F1 점수는 정확도와 재현율을 모두 하나의 지표로 통합합니다. 거짓 긍정(False Positive) 또는 거짓 부정(False Negative)의 균형을 맞추기 위해 두 측정값의 가중치를 동일하게 고려합니다. F1 점수의 범위는 0부터 1까지이며, 1은 우수한 재현율과 정밀도를 나타냅니다.
정확한 일치는 LLM이 정확히 일치하는 예측의 비율로, 번역 및 질문에 대한 답변에 중요한 기준이 됩니다.
난해도는 모델의 예측 능력이 얼마나 좋은지를 측정합니다. LLM의 난해도 점수가 낮을수록 작업 이해도가 높다는 것을 의미합니다.
번역 품질 평가(BLEU)는 LLM의 예측 번역과 사람이 생성한 번역 간에 일치하는 n-gram(n개의 인접한 텍스트 기호 시퀀스)을 계산하여 기계 번역을 평가합니다.
요약 품질 평가(ROUGE)는 텍스트 요약을 평가하며 여러 유형이 있습니다. 예를 들어, ROUGE-N은 요약에 대해 BLEU와 유사한 계산을 수행하는 반면, ROUGE-L은 예측된 요약과 사람이 생성한 요약 사이의 최장 공통 부분 수열을 계산합니다.
보다 포괄적이고 강력한 평가를 위해 일반적으로 이러한 정량적 메트릭 중 하나 이상을 결합합니다.
한편, 사람에 의한 평가에는 일관성, 관련성 및 의미론적 의미와 같은 정성적 메트릭이 포함됩니다. 사람이 직접 LLM을 검토하고 점수를 매기는 것은 보다 정교한 평가가 될 수 있지만, 노동 집약적이고 주관적이며 시간이 많이 소요될 수 있습니다. 따라서 정량적 메트릭과 정성적 메트릭의 균형이 필요합니다.
벤치마크는 LLM 성능의 확실한 지표이기는 하지만 모델이 실제 환경에서 얼마나 잘 작동할지 예측할 수는 없습니다. 다음은 LLM 벤치마크의 몇 가지 제약 조건입니다.
모델이 특정 벤치마크에서 가능한 최고 점수에 도달하면 해당 벤치마크를 더 어려운 작업으로 업데이트해야 유용한 척도로 사용할 수 있습니다.
LLM 벤치마크는 주로 광범위한 주제와 다양한 작업에서 파생된 샘플 데이터를 사용하기 때문에 엣지 시나리오, 전문 영역 또는 특정 사용 사례에 적합한 메트릭이 아닐 수 있습니다.
LLM 벤치마크는 모델의 현재 기술만 테스트할 수 있습니다. 따라서 LLM이 발전하고 새로운 기능이 등장하면 새로운 벤치마크를 만들어야 할 것입니다.
LLM이 벤치마크와 동일한 데이터 세트로 학습되면 과대적합이 발생할 수 있습니다. 즉, 모델이 테스트 데이터에서는 좋은 성능을 발휘하지만 실제 데이터에서는 그렇지 않을 수 있습니다. 이로 인해 LLM의 실제 능력을 반영하지 않는 점수가 나올 수 있습니다.
LLM 리더보드는 다양한 벤치마크를 기반으로 LLM의 순위를 게시합니다. 리더보드는 수많은 LLM을 추적하고 성능을 비교할 수 있는 방법을 제공합니다. LLM 리더보드는 특히 어떤 모델을 사용할지 결정할 때 유용합니다.
각 벤치마크에는 일반적으로 자체 리더보드가 있지만 독립적인 LLM 리더보드도 존재합니다. 예를 들어 Hugging Face에는 여러 리더보드 모음이 있는데, 그 중 하나는 ARC, HellaSwag, MMLU, GSM8K, TruthfulQA, Winogrande 벤치마크를 기반으로 여러 오픈 소스 모델의 순위를 매기는 개방형 LLM 리더보드입니다.
연구자들은 LLM 벤치마크를 다음 두 가지 측면에 따라 분류합니다.1
평가 기준: LLM 평가 지표는 실제 결과나 인간의 선호도일 수 있습니다. 실제 값은 사실로 가정된 정보를 의미하며,인간 선호도는 실제 사용 현황을 반영한 선택입니다.
프롬프트의 출처: 프롬프트는 정적 소스나 실시간 소스에서 가져올 수 있습니다. 정적 프롬프트에는 사전 정의된 질문이 포함되어 있는 반면, 실시간 프롬프트에는 대화형 환경에서 만들어진 질문이 포함되어 있습니다.
벤치마크는 이러한 범주 중 하나 이상에 속할 수 있습니다. 널리 사용되는 벤치마크의 작동 방식들은 다음과 같습니다:
ARC는 7,000개 이상의 초등학교 자연과학 문제를 통해 LLM의 질문 답변 및 추론 능력을 측정합니다. 이 문제들은 쉬운 문제와 어려운 문제로 나뉩니다. 점수 책정은 간단합니다. 모델이 정답을 맞히면 각 정답에 대해 1점을 부여하며, 모델이 여러 답을 제공했으며 그 중 하나가 정답인 경우 1/N점을 부여합니다.2
Chatbot Arena는 두 개의 익명 챗봇을 서로 경쟁시키는 오픈 벤치마크 플랫폼입니다. 사용자가 '아레나'에서 두 챗봇과 무작위로 실제 대화를 나눈 후 어느 쪽이 더 마음에 드는지 투표하면 모델의 정체가 공개됩니다. 이렇게 크라우드소싱된 두 챗봇의 쌍별 비교 데이터는 통계적 방법을 통해 점수를 추정하고 다양한 LLM에 대한 대략적인 순위를 생성하는 데 사용됩니다. 샘플링 알고리즘도 모델을 페어링하는 데 사용됩니다.1
GSM8K는 LLM의 수학적 추론 능력을 테스트합니다. 8,500개의 초등학교 수학 단어 문제로 구성된 코퍼스가 있으며, 풀이는 수학적 표현 대신 자연어 형태로 수집됩니다. AI 검증자는 모델 풀이를 평가하도록 훈련됩니다.3
HellaSwag는 '더 어려운 결말, 더 긴 문맥, 적대적 생성을 기반으로 한 상황별 로우샷 활동(Harder Endings, Longer contexts and Low-shot Activities for Situations With Adversarial Generations)'의 줄임말입니다. 이 벤치마크는 상식적인 추론과 자연어 추론에 중점을 두고 있습니다. 모델은 여러 가지 가능한 어미 중에서 선택하여 문장을 완성하는 과제를 수행합니다. 이 결과에는 사실적이지만 기만적인 오답을 생성하는 알고리즘인 적대적 필터링을 통해 생성된 오답이 포함됩니다. HellaSwag는 퓨샷과 제로샷 범주 모두에 대해 정확도를 평가합니다.4
HumanEval은 코드 생성, 특히 기능적 정확성 측면에서 LLM의 성능을 평가합니다. 모델에는 풀어야 할 프로그래밍 문제가 주어지며, 이에 대한 단위 테스트 통과 여부에 따라 평가가 진행됩니다. 이는 인간 소프트웨어 개발자가 특정 단위 테스트 통과를 기준으로 해당 코드가 올바른지 테스트하는 것과 유사합니다. HumanEval 벤치마크는 자체 평가 메트릭인 pass@k를 사용하는데, 이는 코딩 문제에 대해 생성된 k개의 코드 솔루션 중 하나 이상이 해당 문제의 단위 테스트를 통과할 확률입니다.5
MMLU는 LLM의 지식의 폭, 자연어 이해의 깊이, 습득한 지식을 바탕으로 한 문제 해결 능력을 평가하는 벤치마크입니다. MMLU의 데이터 세트는 57개 주제에 걸쳐 15,000개 이상의 객관식 일반 지식 문제로 구성되어 있습니다. 평가는 퓨샷 및 제로샷 설정으로만 이루어집니다. MMLU 벤치마크는 각 과목에서 모델의 정확도를 점수화한 다음 해당 점수의 평균을 산출하여 최종 점수를 매깁니다.6
대부분이 기본 Python 문제(Mostly Basic Python Problems)라고도 알려진 MBPP는 또 다른 코드 생성 벤치마크입니다. 900개 이상의 코딩 작업으로 구성된 코퍼스를 보유하고 있습니다. HumanEval과 유사하게 일련의 테스트 케이스 통과 여부를 기반으로 기능적 정확성을 평가하며, 평가는 퓨샷 및 미세 조정된 설정에서 이루어집니다. MBPP는 두 가지 메트릭, 즉 모델의 모든 샘플이 해결한 문제의 비율과 각 작업을 해결한 샘플의 비율을 사용합니다.7
Chatbot Arena의 연구원들은 LLM이 대화에 얼마나 잘 참여하고 지침을 얼마나 잘 따르는지 테스트하기 위해 MT-Bench도 만들었습니다. 이 데이터 세트는 개방형 다회차 질문으로 구성되어 있으며 코딩, 추출, 지식 I(STEM), 지식 II(인문 및 사회과학), 수학, 추론, 역할극, 작문 등 8개 영역에서 각각 10문항씩 출제됩니다. MT-Bench는 GPT-4 LLM을 사용하여 다른 LLM의 응답을 평가합니다.8
HumanEval과 마찬가지로 SWE-bench는 문제 해결에 중점을 두고 LLM의 코드 생성 능력을 테스트합니다. 모델은 특정 코드 베이스에서 버그를 수정하거나 기능 요청을 처리하는 작업을 수행합니다. 벤치마크의 평가 메트릭은 해결된 작업 인스턴스의 비율입니다.9
대규모 언어 모델은 할루시네이션이 발생하여 부정확한 아웃풋을 초래하는 경향이 있습니다. TruthfulQA 벤치마크는 질문에 대한 진실한 답변을 생성하는 LLM의 능력을 측정하여 할루시네이션 문제를 해결하는 것을 목표로 합니다. 이 데이터 세트에는 38개 주제에 걸쳐 800개 이상의 질문이 포함되어 있습니다. TruthfulQA는 정보성과 진실성에 대한 사람의 판단을 예측하기 위해 사람의 평가와 BLEU 및 ROUGE 메트릭에 따라 미세 조정된 GPT-3 LLM을 함께 사용합니다.10
Winogrande는 LLM의 상식적인 추론 능력을 평가합니다. 적대적 필터링을 사용하는 44,000개의 크라우드소싱 문제로 구성된 방대한 데이터 세트를 갖춘 오리지널 WSC(Winograd Schema Challenge) 벤치마크를 기반으로 합니다. 점수는 정확도를 기준으로 매겨집니다.11
watsonx 포트폴리오의 IBM 파운데이션 모델 라이브러리에 대해 자세히 알아보고 비즈니스를 위한 생성형 AI를 자신 있게 확장하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.