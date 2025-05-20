OpenAI 最新的基准测试结果凸显了这一问题。据报道，在测试公众人物事实准确性的数据集 PersonQA 上，o3 模型产生幻觉的比例达到 33%。o4-mini 模型表现更差，在对一般知识性提示的近八成回答中编造了信息。这些并非默默无闻的系统，它们正被测试用于法律研究、医疗健康查询和高管决策支持等任务。

一些专家表示，这些数据描绘的图景并不完整，并且幻觉问题并未全面加剧。

“我们看到了切实的进步，”数据科学家、《超级变革：智能时代我们如何生活、学习与工作》合著者 Ja-Naé Duane 在接受 IBM Think 采访时表示，并补充说 Gemini 2.0 Flash 目前在测试案例中产生幻觉的比例已低于 1%，而 2021 年这一比例为 22%。“所以，是的，我们仍有很长的路要走，但我们绝对正朝着正确的方向迈进。”

Duane 强调，幻觉问题未必是变得更严重了，而是变得更易被察觉。

“现在的风险更高了，”她说道。“我们正将这些模型用于法律工作流、医疗环境和企业工具中。曾经在聊天机器人中未被注意到的错误，如今可能带来严重的责任问题。”

尽管像 Gemini 2.0 Flash 这样的先进系统已大幅降低了幻觉发生率，但其他模型，尤其是那些为复杂推理而构建的模型，仍然面临挑战。“这些专注于推理的模型正被要求去解决更困难的问题，”Duane 解释说。“这意味着它们常常在其可靠能力的边缘运作，从而增加了生成听起来正确但实际错误的答案的风险。”

她认为，解决这个问题需要的不仅仅是扩大模型规模。“现在的问题不再仅仅是构建更大的模型，”她说。“我们需要的是能够理解不仅要说什么，还要理解为什么重要，以及在关键时刻如何立足于事实的架构。”

Duane 相信，真正的进步将来自于把更好的模型与为支持它们而设计的系统相结合——即记忆系统、验证器及智能体的协同工作。“我们正在进入一个阶段，模型智能只是拼图的一部分，”她指出。“上下文管理、实时学习和自适应工具将同样重要。”