새 모델이 특정 벤치마크에서 부정 행위를 했나요? 어떤 벤치마크가 가장 좋을까요? 그리고 각 벤치마크가 서로 다른 작업의 성능을 측정할 때 “최고”는 무엇을 의미할까요?
이러한 질문 때문에 IBM의 수석 연구 과학자인 Marina Danilevsky와 같은 전문가는 모델 평가에 신중하게 접근합니다. "벤치마크에서 좋은 성과를 낸다는 것은 바로 그 벤치마크에서 좋은 성과를 낸다는 것입니다."라고 그녀는 IBM Think에 말합니다. 그녀는 투명성이 핵심이라고 말합니다. "특정 벤치마크로는 테스트할 수 없는 많은 부분을 인정해야 합니다. 그래야 다음 벤치마크에서 이러한 허점을 해결할 수 있습니다."
단일의 만능 벤치마크를 추구하는 것과는 달리, 새로운 솔루션은 사용자에게 제어권을 넘기고 있습니다. 오픈 소스 AI 플랫폼 Hugging Face의 한 팀이 최근 YourBench라는 오픈소스 도구를 출시했습니다. 이 도구는 기업과 개발자들이 자체 데이터를 활용해 모델 성능을 평가할 수 있는 맞춤형 벤치마크를 만들 수 있게 해줍니다. IBM Think 인터뷰에서 Hugging Face 연구원인 Sumuk Shashidhar는 대부분의 벤치마크가 '일반적인 역량'을 테스트한다고 말합니다. "실생활의 많은 사용 사례에서 가장 중요한 것은 모델이 특정 작업을 얼마나 잘 수행하는지입니다."라고 그는 말합니다.
실제 애플리케이션에 대한 벤치마크의 유용성을 높이기 위해 YourBench는 사용자가 제공한 문서에서 직접 도메인 맞춤형 벤치마크를 저렴하고 문서에 수동으로 주석을 달 필요 없이 자동으로 생성한다고 Shashidhar는 말합니다. 특히 연구진은 총 추론 비용 15달러 미만으로 7개의 다양한 MMLU, 즉 대규모 다중 작업 언어 이해 하위 집합을 복제하고 상대적인 모델 성능 순위를 유지하면서 YourBench의 효율성을 입증했습니다. MMLU는 언어 모델이 다양한 주제에 걸쳐 지식을 얼마나 잘 이해하고 적용하는지 평가하는 데 사용됩니다.
IBM과 같은 일부 회사에서는 이미 YourBench와 유사한 사용자 지정 벤치마크 생성기를 개발했습니다. "훈련이나 평가를 위한 합성 데이터를 생성하기 위해 자체 개발한 파이프라인이 생각납니다."라고 Danilevsky는 말합니다. "합성 데이터 생성은 쉽습니다. 좋은 합성 데이터이 만드는 것은 어려운 일입니다."라고 그녀는 말합니다. "YourBench가 MMLU 하위 집합에 효과적이긴 하지만, 그렇다고 해서 제가 던지는 모든 것을 잘 처리할 수 있는 것은 아닙니다."
인기가 급상승한 또 다른 대안은 크라우드소싱 벤치마크인 챗봇 아레나(CA)입니다. 챗봇 아레나에서는 엄격한 수학이나 언어 테스트 대신 사용자가 질문을 하고 익명의 AI 모델 두 개로부터 답변을 받은 후 어느 쪽이 더 나은지 평가할 수 있습니다.
버클리 캘리포니아 대학교 대학원생 두 명이 시작한 CA는 이제 모든 주요 AI 플레이어의 모델에 조기 액세스하여 애호가들이 서로 봇과 대결하여 "긴장감을 조성하고 모델 평가를 게임화할 수 있습니다."라고 CA 공동 창립자 Anastasios Angelopoulos는 IBM Think 인터뷰에서 말합니다. AI 모델을 위한 빌보드 핫 100과 같은 CA 리더보드에는 현재까지 200만 표가 넘는 표를 받았습니다.
Angelopoulos는 새 모델을 면밀히 추적하고 있기 때문에 DeepSeek-R1의 인기가 급상승했을 때 많은 사람들보다 놀라지 않았습니다. "오픈 소스 모델이 한동안 따라잡고 있었기 때문에 DeepSeek는 이러한 추세를 확인했을 뿐입니다."
설립자들은 기존 벤치마크에 대한 불만을 해소하기 위해 챗봇 아레나를 만들었습니다. Angelopoulos는 "벤치마크는 정적이어서 특정 모델은 특정 벤치마크에서 매우 우수하다"는 점이 도전 중 하나라고 말합니다. 결과적으로 모델이 학습 데이터를 너무 잘 학습하는 '데이터 과적합'의 위험이 있다고 그는 말합니다. 그는 챗봇 아레나의 장점은 데이터가 실시간으로 제공된다는 점이라고 덧붙입니다. "데이터를 과적합할 수 없습니다. 오염되거나 오래되지 않습니다."
Danilevsky는 "챗봇 아레나 순위표 집계는 그 자체로는 실행이 불가능합니다."라고 말합니다. "많은 실제 애플리케이션에서는 모델에 대해 '좋아요'와 '싫어요'를 넘어 미묘한 피드백을 제공해야 합니다." 그럼에도 불구하고 이 컨셉은 매우 인기가 있다고 그녀는 인정합니다. "사람들이 주어진 모델에 어떻게, 왜 반응하는지 조금 더 이해하고 싶습니다. 여기에 추가 메타데이터가 있으면 정말 유용할 것입니다."
Angelopoulos조차도 "실제 사용은 벤치마크와 다른 것을 측정하는 것"이라고 믿습니다. 그는 OpenAI의 GPT-4.5 모델을 예로 들었습니다. "많은 질적 벤치마크에서 좋은 성과를 거두지는 못했지만 사람들은 좋아했습니다. 모델의 분위기를 측정하려면 다른 도구가 필요합니다."
