新しいモデルは特定のベンチマークで正しく機能していますか？どのベンチマークが最適ですか？そして、各ベンチマークが異なるタスクの性能を測定する場合、「最適」とは何を意味するのでしょうか？
こうした疑問から、IBMのシニア・リサーチ・サイエンティスト、Marina Danilevskyのような専門家はモデル評価に慎重に取り組んでいます。「あるベンチマークで好成績を収めるということは、その特定のベンチマークで好成績を収めるということに他なりません」と彼女はIBM Thinkで語ります。透明性が鍵だと彼女は言います。「特定のベンチマークがテストしない多くのことを認識し、次のベンチマークでそれらの穴の一部に対処できるようにする必要があります。」
唯一の絶対的なベンチマークを求める動きとは対照的に、新しいソリューションではユーザーが主導権を握るようになってきています。オープンソースAIプラットフォーム、Hugging Faceのチームは最近、企業や開発者が自社のデータを使ってカスタムベンチマークを作成してモデルのパフォーマンスを評価できるオープンソースツールYourBenchを立ち上げました。IBM Thinkのインタビューで、Hugging Face研究員のSumuk Shashidhar氏は、ほとんどのベンチマークで「一般的な機能」をテストします。「現実の多くのユースケースにおいて最も重要なのは、モデルが特定のタスクをどれだけうまく実行するかということです」と彼は言います。
実際のアプリケーションでのベンチマークの有用性を高めるために、YourBenchは、ユーザーが提供する文書から直接、ドメインに合わせたベンチマークを自動的に生成します。それは、安価で、文書に手作業で注釈を付ける必要もありません。」とSashidhar氏は言います。具体的には、研究者たちは7つの多様なMMLU（大規模マルチタスク言語理解）のサブセットを総推論コスト15米ドル未満で再現しつつ、相対的なモデル性能ランキングを維持することで、YourBenchの 有効性を示しました。MMLUは、言語モデルがさまざまな主題にわたる知識をどの程度理解し、適用しているかを評価するために使用されます。
IBMなどの一部の企業では、YourBenchに類似したカスタム・ベンチマーク生成ツールをすでに開発しています。「このことは、トレーニングまたは評価用の合成データを作成するための自社開発のパイプラインを思い出させます」とDanilevsky氏は言います。「合成データの作成は簡単です。優れた合成データを作成するのは困難です」と彼女は言います。「つまり、YourBenchはMMLUサブセットで効果的ですが、私が投げかけるものすべてが得意だということにはなりません。」
人気が急上昇しているもう一つの選択肢は、クラウドソースのベンチマークであるChatbot Arena（CA）です。Chatbot Arenaでは、厳密な数学や言語のテストの代わりに、ユーザーが質問をし、匿名の2つのAIモデルから回答を得て、どちらが優れているかを評価できます。
カリフォルニア大学バークレー校の大学院生2人によってスタートしたCAは、現在ではすべての主要AIプレーヤーのモデルに早期アクセスできるようになったことで、愛好家が互いにボットを戦わせることができるようになり、「緊張と興奮を生み出し、モデル評価をゲーム化する」と、CAの共同創設者のAnastasios Angelopoulos氏がIBM Thinkのインタビューで語りました。AIモデルのBillboard Hot 100のようなCAリーダーボードは、これまでに200万人以上の投票を受けています。
彼らは新しいモデルを綿密に追跡しているので、Deepseek-R1の人気が急上昇したとき、Angelopoulos氏は多くの人ほど驚きませんでした。「オープンソース・モデルは相当期間進化を続けており、DeepSeekはそのトレンドを確認したに過ぎません。」
創設者らは、従来のベンチマークに対する不満に応えてChatbot Arenaを開発しました。「ベンチマークは静的であり、特定のモデルが特定のベンチマークで非常に優れた結果を得てしまう」ことが課題の1つだとAngelopoulos氏は言います。その結果、モデルがトレーニング・データをうまく学習しすぎてしまう「データの過剰適合」のリスクがあると彼は言います。Chatbot Arenaのメリットは、データがライブであることだと付け加えました。「データの過剰適合はあり得ません。汚染されたり、古くなったりもしません。」
Danilevsky氏にとって、「Chatbot Arenaのリーダーボードの集計だけでは、実行可能ではありません」と言います。「多くの現実世界のアプリケーションでは、モデルに関して高評価や低評価を超えた、より微妙なフィードバックが必要です。」それでも、このコンセプトは非常に人気があると彼女は認めます。「ただ、特定のモデルに対する人々の反応について、その実態や理由をもう少し詳細に理解したいと考えています。ここで、追加のメタデータが非常に役立ちます。」
Angelopoulos氏でさえ、「実際の使用とは、ベンチマークとは異なるものを測定することです」と信じています。彼は例として、OpenAI社のGPT-4.5モデルを使用しています。「多くの定性的ベンチマークではあまり優れたパフォーマンスを発揮できませんでしたが、ユーザーたちには気に入られていました。モデルの使用感を測定するには、別のツールが必要です」
