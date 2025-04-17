새 모델이 특정 벤치마크에서 부정 행위를 했나요? 어떤 벤치마크가 가장 좋을까요? 그리고 각 벤치마크가 서로 다른 작업의 성능을 측정할 때 “최고”는 무엇을 의미할까요?

이러한 질문 때문에 IBM의 수석 연구 과학자인 Marina Danilevsky와 같은 전문가는 모델 평가에 신중하게 접근합니다. "벤치마크에서 좋은 성과를 낸다는 것은 바로 그 벤치마크에서 좋은 성과를 낸다는 것입니다."라고 그녀는 IBM Think에 말합니다. 그녀는 투명성이 핵심이라고 말합니다. "특정 벤치마크로는 테스트할 수 없는 많은 부분을 인정해야 합니다. 그래야 다음 벤치마크에서 이러한 허점을 해결할 수 있습니다."

단일의 만능 벤치마크를 추구하는 것과는 달리, 새로운 솔루션은 사용자에게 제어권을 넘기고 있습니다. 오픈 소스 AI 플랫폼 Hugging Face의 한 팀이 최근 YourBench라는 오픈소스 도구를 출시했습니다. 이 도구는 기업과 개발자들이 자체 데이터를 활용해 모델 성능을 평가할 수 있는 맞춤형 벤치마크를 만들 수 있게 해줍니다. IBM Think 인터뷰에서 Hugging Face 연구원인 Sumuk Shashidhar는 대부분의 벤치마크가 '일반적인 역량'을 테스트한다고 말합니다. "실생활의 많은 사용 사례에서 가장 중요한 것은 모델이 특정 작업을 얼마나 잘 수행하는지입니다."라고 그는 말합니다.

실제 애플리케이션에 대한 벤치마크의 유용성을 높이기 위해 YourBench는 사용자가 제공한 문서에서 직접 도메인 맞춤형 벤치마크를 저렴하고 문서에 수동으로 주석을 달 필요 없이 자동으로 생성한다고 Shashidhar는 말합니다. 특히 연구진은 총 추론 비용 15달러 미만으로 7개의 다양한 MMLU, 즉 대규모 다중 작업 언어 이해 하위 집합을 복제하고 상대적인 모델 성능 순위를 유지하면서 YourBench의 효율성을 입증했습니다. MMLU는 언어 모델이 다양한 주제에 걸쳐 지식을 얼마나 잘 이해하고 적용하는지 평가하는 데 사용됩니다.