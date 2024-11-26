大型语言模型或许擅长为人们指引纽约市的街道方向，但新研究揭示，它们这样做时并未真正理解这座城市是如何组合在一起的。当面对简单的绕行路线时，这些模型的表现会遭遇显著崩溃，暴露出它们表面上的专业知识只是一种复杂的模式匹配。
这些发现触及了 AI 的一个核心问题：AI 系统究竟是在发展真正的“世界模型”——即对事物如何运作及相互关联形成连贯理解——还是仅仅在非常擅长模仿正确行为，而缺乏真正的理解。
“我们在研究中发现，生成模型可以在不恢复底层世界模型的情况下，产生令人印象深刻的输出，”麻省理工学院经济学助理教授、论文作者之一 Ashesh Rambachan 表示。“当我们看到这些令人印象深刻的输出时，很自然地会认为这些生成模型正在学习世界的一些潜在真理——毕竟，我很难想象一个人能够在纽约市从 A 点导航到 B 点，却不相信这个人理解纽约市的地图。”
IBM 副总裁兼高级合伙人、全球技术、数据与 AI 战略负责人 Brent Smolinksi 在论文中指出，一个根本性挑战在于大型语言模型“无法进行演绎推理。它并非为此设计。它的设计初衷是进行模式识别，并对这些模式作出反应。”
Rambachan 的研究团队提出了两种新方法来衡量 AI 模型对其环境理解的程度：序列区分与序列压缩。他们在两种场景中（纽约市导航和奥赛罗棋游戏）使用确定性有限自动机 (DFA) 来测试这些指标。
他们的发现令人惊讶。从随机走法中学习训练的模型，比通过策略性对局训练的模型发展出了更好的理解能力。原因何在？随机训练让模型接触到更多可能的情况和状态转换，相比于只看到策略性“最优”走法的模型，它们对环境有了更完整的认知。
当研究人员对这些 AI 系统进行压力测试时，他们发现了性能与理解之间存在令人不安的差距。这些系统表面上看起来很出色——它们能以很高的准确率生成有效的走法或方向指引。但在这表象之下，几乎每个模型都未能通过世界建模的基础测试。
一个有力的例证来自纽约市导航测试。当研究者通过添加绕行路线对城市地图进行简单修改时，导航模型的表现就完全崩溃了。这表明模型实际上根本不理解城市地理或路线规划原则——它们只是在做出表面正确的建议，而没有任何真正的理解。
这表明当前 AI 系统的一个关键弱点：它们可能非常擅长做出预测，却缺乏对其处理对象的真正理解。Smolinski 认为，大型语言模型可能看似智能，但它们实际上只是非常擅长模式匹配，而非真正的（演绎）推理。他指出，当这些 AI 系统看似解决了逻辑问题时，它们只是在识别以前遇到过的模式，而非一步步地思考问题。
Smolinksi 认为，关键在于我们需要不同类型的 AI 技术协同工作——例如，您可能需要一个用于识别模式，另一个用于表示知识，第三个用于逻辑推理，才能共同解决问题。
当今最先进的 AI 系统可以在没有真正理解的情况下通过测试，这一发现触及了目前席卷硅谷的一场激烈辩论的核心：通用人工智能究竟是即将到来，还是仍然遥不可及。
实现通用人工智能 (AGI) 的竞赛已成为科技界最具争议的辩论之一，突显了乐观主义者与怀疑论者之间日益加深的分歧。在硅谷的各个公司董事会和研究实验室里，对话越来越多地聚焦于机器何时（而不仅仅是能否）能够匹配人类的认知能力。
关于 AGI 发展时间表的预测，已将 AI 社区分裂成两个鲜明的阵营。一边是技术乐观主义者，他们认为 AGI 是一项迫在眉睫的突破，可能在我们有生之年重塑文明。另一边则是务实派，他们警告说，我们距离造出能像人类一样真正思考的机器可能还有数十年之久。
关于 AGI 时间表的这一根本分歧不仅仅是学术争论——它影响着研究重点、投资决策以及围绕 AI 安全与监管的政策讨论。随着数十亿美元资金涌入 AGI 的研发，这场辩论的利害关系持续升级。
尽管像 OpenAI 的 Sam Altman 这样一些知名的科技领袖曾表示，通用人工智能——即能在几乎所有任务上匹配或超越人类认知水平的 AI 系统——可能在几年内实现，但 IBM 的 Smolinski 提出了更为审慎的看法。他认为，当前的 AI 系统，特别是大型语言模型，从根本上受限于模式匹配，而非真正的推理。
Smolinski 提出，我们非但没有接近人类水平的智能，在实现真正 AGI 所需的架构方面，“我们甚至可能没有走对方向”。正如他直截了当地说：“我会区分有助于解决特定问题的 AI 与通用 AI......我认为，要拥有一个像人类一样运作、具备与人类同类型思维过程或问题解决能力的系统……我们距离那一步还有很多年。我们甚至可能永远无法达到。”
Smolinski 将 AI 功能分解为清晰的类别，每一类服务于不同的目的。一方面，我们有现代 AI，如擅长模式识别的大型语言模型，能识别数据中的相似性和趋势。另一方面，我们有传统的基于规则的系统，能够遵循逻辑步骤。他解释说，真正的挑战不在于改进其中任何一种类型，而在于找到如何将它们有效结合起来。
Smolinski 提出，神经符号 AI 可能提供了一条前进路径。这一 AI 分支试图将神经网络与符号推理相结合，尽管其最终潜力仍有待观察。这些混合系统能够从原始数据中学习并应用逻辑规则。这种双重特性帮助机器应对复杂的挑战——从解析自然语言到在动态环境中解决问题，同时为其决策提供更清晰的解释。
他说：“我认为它展现了实现真正智能的最大希望。”