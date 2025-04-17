新模型是否在特定基准测试中作弊？哪个基准测试最优？ 当每个基准测试衡量的是不同任务的表现时，“最优”甚至意味着什么？

这些问题使得像 IBM 高级研究科学家 Marina Danilevsky 这样的专家以审慎态度对待模型评估。 “在基准测试中表现良好仅仅意味着——在该基准测试中表现良好，” 她 告诉 IBM Think。她表示，透明度是关键。“我们需要明确认识到特定基准测试未能检验的诸多方面，以便后续的基准测试能够填补其中部分空白。”

与追求单一、终极基准测试的做法相反， 新的 解决方案正将控制权移交给用户。开源 AI 平台Hugging Face的团队近期推出了 YourBench——一款开源工具，使企业和开发者能够使用自身数据创建定制化基准测试，用以评估其模型性能。 “大多数基准测试衡量的是‘通用能力’，”Hugging Face 研究员 Sumuk Shashidhar 在 IBM Think 采访中表示。“但对于现实中的许多用例而言，最重要的在于模型在你特定任务上的表现如何，”他说。

Shashidhar 表示，为提升基准测试对现实应用场景的实用性，YourBench 能够直接从用户提供的文档中自动生成领域定制化基准测试，这种方式成本低廉且无需人工标注文档。具体而言，研究团队通过复现七个不同的 MMLU（大规模多任务语言理解）子集，证明了 YourBench 的有效性——总推理成本低于 15 美元，同时保持了模型性能的相对排名。MMLU 常用于评估语言模型在不同学科领域理解和应用知识的水平。