AIの機能が急速に進歩し、その測定に使用されるツールを常に上回っている現在、ベンチマークが議論の中心になっています。

「毎年、私たちはこれらのアルゴリズムがベンチマーク全体でどのように機能しているかを調べていますが、毎年、ベンチマークを上回っているように見えます」と、レポート作成者の1人のVanessa Parli氏はIBM Thinkとのインタビューで述べています。「同様に、今年も新しいベンチマークで同様のことが起こっています」。

報告書では、2023年に研究者たちが先進的なAIシステムの限界を試そうとMMMU、GPQA、SWE-benchといった新しいベンチマークを導入したことが指摘されています。そのわずか1年後、性能が急激に増加し、レポートによると、MMMU、GPQA、SWEベンチのスコアはそれぞれ18.8、48.9、67.3％上昇しました。

これにより、研究界でのLLMベンチマークの真の意味と価値が不明確になっています。Parli氏は、考慮すべきクリティカルな問いを投げかけています。「私たちは正しいものを測定しているのでしょうか？これらのベンチマークは損なわれているのでしょうか？科学界はモデルをどのように評価すべきなのでしょうか？」

Ash Minhasは、先を見据えて、ベンチマークの未来がどうなるかについても慰問を抱いています。「どこで終わるのでしょう？」とIBM Thinkのインタビューで尋ねています。「チューリング・テストは常に動くゴールポストでなければならないのでしょうか？人類にとって最後の試験は、本当に最後の試験なのでしょうか？」

一方、専門家は、AIモデルが特定のベンチマーク・テストでは非常に優れたパフォーマンスを発揮するように学習したにもかかわらず、現実世界のアプリケーションでは新しい未知のデータに対しては一般化できない可能性がある現象の過剰適合のリスクについて警告しています。「ベンチマークに合格するためにモデルをトレーニングしただけなのでしょうか？」と彼は付け加えています。「MMMUは優れたベンチマークですが、それはモデルがベンチマークへの対応方法を知っているからでしょうか？」

Minhasはまた、倫理や公平性、偏見を気にすることよりも、進歩の興奮と勢いが優先される可能性があると警告しています。