新模型是否在特定基准测试中作弊？哪个基准测试最优？ 当每个基准测试衡量的是不同任务的表现时，“最优”甚至意味着什么？
这些问题使得像 IBM 高级研究科学家 Marina Danilevsky 这样的专家以审慎态度对待模型评估。 “在基准测试中表现良好仅仅意味着——在该基准测试中表现良好，” 她 告诉 IBM Think。她表示，透明度是关键。“我们需要明确认识到特定基准测试未能检验的诸多方面，以便后续的基准测试能够填补其中部分空白。”
与追求单一、终极基准测试的做法相反， 新的 解决方案正将控制权移交给用户。开源 AI 平台Hugging Face的团队近期推出了 YourBench——一款开源工具，使企业和开发者能够使用自身数据创建定制化基准测试，用以评估其模型性能。 “大多数基准测试衡量的是‘通用能力’，”Hugging Face 研究员 Sumuk Shashidhar 在 IBM Think 采访中表示。“但对于现实中的许多用例而言，最重要的在于模型在你特定任务上的表现如何，”他说。
Shashidhar 表示，为提升基准测试对现实应用场景的实用性，YourBench 能够直接从用户提供的文档中自动生成领域定制化基准测试，这种方式成本低廉且无需人工标注文档。具体而言，研究团队通过复现七个不同的 MMLU（大规模多任务语言理解）子集，证明了 YourBench 的有效性——总推理成本低于 15 美元，同时保持了模型性能的相对排名。MMLU 常用于评估语言模型在不同学科领域理解和应用知识的水平。
部分企业（如 IBM）已开发出类似 YourBench 的自定义基准测试生成工具。“这让我联想到我们自建的用于生成训练或评估用合成数据的流程，”Danilevsky 表示。“生成合成数据很容易，但生成优质的合成数据却很难，”她表示。“因此，虽然 YourBench 在 MMLU 子集上表现有效，但这并不代表它能妥善处理任意我投喂的任务。”
另一个备受青睐的替代方案是众包基准测试平台 Chatbot Arena (CA)。与严谨的数学或语言测试不同， Chatbot Arena 允许用户提出问题，获取两个匿名 AI 模型的答案，并对其优劣进行评分。
Chatbot Arena 由两位加州大学 伯克利分校的研究生创立，如今已能提前获取所有主流 AI 厂商的模型，让爱好者们可以进行 模型对战 ，“既营造了悬念感，又 将模型评估游戏化 ”， CA 联合创始人 Anastasios Angelopoulos 在 IBM Think 采访中表示。 CA 排行榜如同 AI 模型的“公告牌百强单曲榜”，迄今已收获超过 200 万次投票。
由于他们持续紧密追踪新模型，当 DeepSeek-R1 迅速走红时，Angelopoulos 并不像许多人那样感到意外。“开源模型追赶的趋势已持续一段时间，DeepSeek 只是印证了这一趋势。”
创始人创建 Chatbot Arena 正是出于对传统基准测试的失望。Angelopoulos 指出，部分挑战在于“基准测试是静态的——某些模型能在特定基准测试中达到极高分数”。他认为这可能导致“数据过拟合”的风险，即模型过度学习训练数据。他补充道，Chatbot Arena 的优势在于数据是动态的。“你无法让数据过拟合。数据不会因此被污染或失效。”
对 Danilevsky 而言，“仅凭 Chatbot Arena 的聚合排行榜本身并不具备可操作性，”她表示。“许多实际应用场景需要比简单点赞/点踩更细致的模型反馈。”不过她也承认这个概念确实广受欢迎。“我只是希望更深入理解人们为何对特定模型作出如此反应。额外的元数据在此会非常有用。”
甚至连 Angelopoulos 也认为：“实际使用所衡量的维度与基准测试有所不同。”他以 OpenAI 的 GPT-4.5 模型为例。“它在许多定性基准测试中表现并不突出，但用户非常喜爱。你需要不同的工具来衡量模型的‘氛围感。”
