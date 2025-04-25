AI 역량이 너무 빠르게 고도화되면서 이를 측정하는 도구의 발전 속도를 꾸준히 앞지르고 있어 벤치마크는 이제 핵심 논쟁이 되었습니다.

IBM Think와의 인터뷰에서 보고서 공동 저자인 Vanessa Parli는 “매년 알고리즘들이 벤치마크 전반에서 어떤 성능을 보이는지 살펴보고 있으며 매년 그 벤치마크를 능가하는 모습을 보입니다.”라고 말합니다. "올해도 마찬가지로 최신 벤치마크에서 이러한 현상이 나타나고 있습니다."

보고서에 따르면 연구진은 2023년 고도화된 AI 시스템의 한계를 평가하기 위해 MMMU, GPQA, SWE-bench 등의 새로운 벤치마크를 도입했다고 언급했습니다. 보고서에 따르면 불과 1년 만에 MMMU, GPQA 및 SWE-bench에서 점수가 각각 18.8, 48.9, 67.3 퍼센트포인트 상승하며 성능이 크게 향상되었습니다.

이로 인해 연구 커뮤니티 내에서 LLM 벤치마크의 실제 의미와 가치에 대한 모호함이 제기되고 있습니다. Parli는 "우리는 올바른 것을 측정하고 있는가? 벤치마크가 왜곡되거나 편향된 것은 아닌가? 그리고 과학계는 모델을 어떻게 평가해야 하는가?"와 같은 중요한 질문을 제기합니다.

Ash Minhas는 벤치마킹의 미래가 어떤 모습일지에 대해서도 질문을 던집니다. 그는 IBM Think와의 인터뷰에서 “벤치마킹은 어디서 멈출까요? 튜링 테스트는 끊임없이 이동하는 목표물이 되어야 할까요? 인류의 마지막 시험은 정말 마지막 시험일까요?”라고 묻습니다.

한편 전문가들은 과적합의 위험성을 경고합니다. 과적합이란 AI 모델이 특정 벤치마크 테스트에서는 매우 뛰어난 성능을 보이도록 학습되지만 실제 환경에서 접하지 못한 새로운 데이터에는 일반화하지 못하는 현상을 말합니다. 그는 “단지 모델이 벤치마크를 통과하도록 훈련하고 있는 것 아닐까요?”라고 덧붙입니다. “MMMU는 훌륭한 벤치마크이지만 그 이유가 모델이 벤치마크에 맞춰 어떻게 반응해야 하는지를 알고 있기 때문일까요?”

Minhas는 또한 진보의 열정과 추진력이 윤리, 공정성, 편향에 대한 고려보다 우선시될 수 있다고 경고합니다.