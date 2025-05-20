尽管大语言模型 (LLM) 在语言处理上越来越精准，但有时在事实方面却变得更模糊。
这些错误，即所谓的“幻觉”，并非无害的小毛病。它们揭示了 AI 系统生成语言方式的一个核心问题。这些模型不是从数据库中提取事实，而是根据其训练数据中的模式，预测听起来正确的内容。这种推测可能导致虚假的引用、捏造的政策以及被自信地陈述的错误主张。研究人员目前正在探索新的方法，以使这些系统更可靠，教导它们如何回答，以及何时该停顿、修改或遗忘。
“真正出问题的是这种非确定性响应，”IBM 首席科学家 Ruchir Puri 在接受 IBM Think 采访时表示。“同一个问题，相同的意图，可能因表述方式不同而产生不同的答案。如果你依赖这些模型处理任何严肃事务，这都极具问题。”
OpenAI 最新的基准测试结果凸显了这一问题。据报道，在测试公众人物事实准确性的数据集 PersonQA 上，o3 模型产生幻觉的比例达到 33%。o4-mini 模型表现更差，在对一般知识性提示的近八成回答中编造了信息。这些并非默默无闻的系统，它们正被测试用于法律研究、医疗健康查询和高管决策支持等任务。
一些专家表示，这些数据描绘的图景并不完整，并且幻觉问题并未全面加剧。
“我们看到了切实的进步，”数据科学家、《超级变革：智能时代我们如何生活、学习与工作》合著者 Ja-Naé Duane 在接受 IBM Think 采访时表示，并补充说 Gemini 2.0 Flash 目前在测试案例中产生幻觉的比例已低于 1%，而 2021 年这一比例为 22%。“所以，是的，我们仍有很长的路要走，但我们绝对正朝着正确的方向迈进。”
Duane 强调，幻觉问题未必是变得更严重了，而是变得更易被察觉。
“现在的风险更高了，”她说道。“我们正将这些模型用于法律工作流、医疗环境和企业工具中。曾经在聊天机器人中未被注意到的错误，如今可能带来严重的责任问题。”
尽管像 Gemini 2.0 Flash 这样的先进系统已大幅降低了幻觉发生率，但其他模型，尤其是那些为复杂推理而构建的模型，仍然面临挑战。“这些专注于推理的模型正被要求去解决更困难的问题，”Duane 解释说。“这意味着它们常常在其可靠能力的边缘运作，从而增加了生成听起来正确但实际错误的答案的风险。”
她认为，解决这个问题需要的不仅仅是扩大模型规模。“现在的问题不再仅仅是构建更大的模型，”她说。“我们需要的是能够理解不仅要说什么，还要理解为什么重要，以及在关键时刻如何立足于事实的架构。”
Duane 相信，真正的进步将来自于把更好的模型与为支持它们而设计的系统相结合——即记忆系统、验证器及智能体的协同工作。“我们正在进入一个阶段，模型智能只是拼图的一部分，”她指出。“上下文管理、实时学习和自适应工具将同样重要。”
理解大语言模型的工作原理，对于弄明白它们为何有时会出错至关重要。LLM 基于从海量文本中学到的模式，来预测句子中的下一个词。它们并非从数据库中提取事实，而是在进行有根据的推测。这可能导致答案听起来准确但却是错误的，尤其是当话题不清晰、不常见或超出了模型训练范围时。
幻觉之所以难以根除，是因为它们并非系统漏洞；而是这些概率模型运作方式中固有的特征。当训练数据中没有可靠的模式可用，或者提示过于模糊或开放时，模型就可能会编造一些听起来合理的内容。
这其中还涉及一个更具哲学性的问题。当 AI 模型虚构出内容时，它是出错了还是在创造？
Puri 指出，随着模型在推理方面变得更强大，它们也可能表现出更多接近幻觉的“创造性”行为。“有人认为，创造力本身就包含某种形式的幻觉，”他说。“你想象了不可想象之物。但在企业应用中，这是一种缺陷，而非优势。”
IBM 研究员 Payel Das 正试图通过重新思考模型处理信息的方式来应对这个问题。“这就是进步的悖论，”Das 在接受 IBM Think 采访时表示。“这些模型的推理能力在变强，但记忆力却未必。它们能解决更困难的问题，却仍然会把基础的东西搞错。”
她在 IBM 的团队一直在开发 Larimar，这是一种记忆增强系统，旨在为模型提供一种可编辑的短期记忆形式。其核心理念是让模型能够根据需要修改或遗忘事实，而无需重新训练整个系统；这是当前大多数 LLM 所缺乏的实时灵活性。
“如今的模型是静态且脆弱的，”她说。"你无法在对话中途教给它们新东西，或者在不完全重新训练的情况下更新它们的理解。Larimar 是朝着让它们变得更灵活迈出的一步。”
其他基于记忆的方法也展现出前景。由 Microsoft 研究人员开发的 MemReasoner 专注于通过选择和连接对话中前文的相关信息，帮助模型在长序列中更有效地进行推理。IBM 自身的 CAMELoT 项目则旨在帮助模型在处理大量文本或进行长时间交互时保持连贯性。
在实验室之外，像 Vectara 这样的公司正在构建实用工具来应对幻觉问题。Vectara 的“守护智能体”实时监控 AI 输出，并在其到达用户之前改写错误。Das 表示，虽然没有单一的解决方案能彻底解决这个问题，但结合记忆和修订策略是向前迈出的坚实一步。
“我们永远无法消除所有错误，”Das 说。“就像人也会犯错一样。但我们可以让模型更善于学习、适应和自我纠正。而这将带来巨大的改变。”
