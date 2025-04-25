若要评选当下最热门的话题，基准测试无疑位列其中。随着 AI 能力飞速发展，其迭代速度已持续超越现有测评工具的跟进节奏，基准测试也因此成为行业核心争议点。

“每年我们都会关注算法在各类基准测试中的表现，而每年这些算法似乎都能突破测试指标，” 报告作者之一的 Vanessa Parli 在接受IBM Think 采访时表示，“今年也不例外，即便是最新推出的基准测试，也未能幸免被算法超越的情况。”

该报告指出，研究人员于 2023 年推出新的基准测试 MMMU、GPQA 和 SWE-bench 来测试先进 AI 系统的极限。仅一年后，AI 模型表现大幅上升：据报告，MMMU、GPQA 和 SWE-bench 上的分数分别上升了 18.8、48.9 和 67.3 个百分点。

此事在研究界引发了关于大语言模型 (LLM) 基准测试真实意义与核心价值的争议。Paril 提出了若干亟待审慎思考的关键问题：“我们当前衡量的指标是否准确？这些基准测试是否已失去公信力？科学界又应如何建立更有效的模型评估体系？”

展望未来，Ash Minhas 也对基准测试的未来前景表示疑问。“这种情况何时才能停止？”他在接受 IBM Think 采访时问，“图灵测试是否必须始终是不断移动的球门柱？人类终极测试当真就是最终考验吗？”

同时，专家提醒大家当心过拟合的风险，在这种现象中，AI 模型学会在特定的基准测试中表现出色，但可能无法推广到现实世界的应用程序中新的、未见过的数据。“我们训练模型是否只是为了通过基准测试？”他补充道，“MMMU 是很好的基准测试，但这是因为模型知道如何响应基准测试吗？”

Minhas 同时警示道，当下社会对技术进步的狂热追捧与追逐，可能正凌驾于对伦理、公平及偏见的审慎考量之上。