創設者らは、従来のベンチマークに対する不満に応えてChatbot Arenaを開発しました。「ベンチマークは静的であり、特定のモデルが特定のベンチマークで非常に優れた結果を得てしまう」ことが課題の1つだとAngelopoulos氏は言います。その結果、モデルがトレーニング・データをうまく学習しすぎてしまう「データの過剰適合」のリスクがあると彼は言います。Chatbot Arenaのメリットは、データがライブであることだと付け加えました。「データの過剰適合はあり得ません。汚染されたり、古くなったりもしません。」

Danilevsky氏にとって、「Chatbot Arenaのリーダーボードの集計だけでは、実行可能ではありません」と言います。「多くの現実世界のアプリケーションでは、モデルに関して高評価や低評価を超えた、より微妙なフィードバックが必要です。」それでも、このコンセプトは非常に人気があると彼女は認めます。「ただ、特定のモデルに対する人々の反応について、その実態や理由をもう少し詳細に理解したいと考えています。ここで、追加のメタデータが非常に役立ちます。」

Angelopoulos氏でさえ、「実際の使用とは、ベンチマークとは異なるものを測定することです」と信じています。彼は例として、OpenAI社のGPT-4.5モデルを使用しています。「多くの定性的ベンチマークではあまり優れたパフォーマンスを発揮できませんでしたが、ユーザーたちには気に入られていました。モデルの使用感を測定するには、別のツールが必要です」