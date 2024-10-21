Artificial Intelligence

AI 的数学幻象：苹果研究挑战 AI 推理能力认知

研究人员在白板上书写数学公式

在一项引发科技界涟漪效应的研究中，苹果公司研究人员对 LLM 是否具备真正推理能力提出了质疑。

论文作者通过引入新型符号数据集，对当前 AI 模型（包括行业领先者 OpenAI 的 GPT-4）的数学推理能力进行了检验。研究人员通过以非常规形式呈现常见的数学概念，试图挑战这些模型超越单纯模式识别层面的理解能力。

结果令人震惊：面对这些新颖的数学问题表征形式，大多数受测 LLM 表现显著下滑，这表明这些系统可能更依赖于模式匹配而非实际的问题解决能力。

“这篇论文从本质上证明了 LLM 无法进行推理，”IBM 技术内容经理 Ash Minhas 表示。“它们只是在做模式匹配。”

通往 AGI 之路

这一发现促使专家们重新审视 AI 当前能力的深度及该领域的发展路径。Minhas 指出，研究结果凸显了狭义人工智能 (ANI) 与通用人工智能 (AGI) 之间的本质区别，表明当前大语言模型仍完全属于前者范畴。

AI 领域正日益接受实现 AGI 的可能性。AGI 指的是能像人类一样学习理解、跨领域应用知识、执行多样化任务，并可能在从推理到创造性追求等各方面超越人类能力的 AI 系统。

OpenAI 前董事会成员、乔治城大学安全与新兴技术中心战略主任 Helen Toner 近期向美国参议院司法委员会小组作证时指出：“我观察到公众认知与 AI 业内人士观点之间最显著的脱节，源自少数几家致力于构建‘通用人工智能’ (AGI) 的公司内部。智能水平接近人类的 AI。”她表示，OpenAI、谷歌和 Anthropic 等领先 AI 企业正将构建 AGI 视为“极其严肃的目标”。

然而，部分专家认为 AGI 距离现实仍很遥远。“这篇论文强调我们仍处在 ANI 的世界，”Minhas 指出。“我们尚未实现 AGI。”

基准测试争议

该论文同时凸显了 AI 行业需要更优质基准测试的迫切性。Minhas 认为，当前的基准测试存在缺陷，因为模型可通过模式匹配而非实际推理来解决问题。“若基准测试基于实际推理能力，或推理问题更为复杂，所有模型的表现都会极其糟糕，”他说。

Minhas 指出，苹果研究人员通过混合符号系统创建了这个用于训练和测试 AI 模型与算法的合成数据集

“研究已证明，当你开始调整输入序列中的元素——无论是符号本身还是冗余标记这类额外语境——这些模型的性能就会出现衰减，”他解释道。

苹果研究采用的方法是在训练集中引入各类“干扰信息”和附加条件，以观察模型性能的变化。但 IBM 数据科学家 Jess Bozorg 指出一个潜在局限：“他们未说明在添加干扰信息时考虑了哪些具体类别，也未明确使用了各类别中的哪些干扰类型，”她表示。

该论文对当前大语言模型基准测试的一项批评在于数据污染问题。Bozorg 解释说，苹果研究使用了 GSM-8K 数据集。其中包含人类编写的小学数学应用题的数据集。“存在数据泄露现象，”她说。“这意味着模型在训练阶段的测试环节已接触过部分数据。”

数据污染是该行业普遍存在的问题。Minhas 认为 GSM-8K 数据集“作为行业基准被广泛使用，其零散碎片遍布所有模型的训练数据中。这是所有人工构建基准测试的根本缺陷”。

值得注意的是，研究显示 GPT-4 在新符号数据集上的测试表现显著优于其他模型。Minhas 推测其原因：“是否可能 GPT-4 在训练阶段就考虑了符号表征，并生成了此类测试数据？也许它仍在进行模式匹配，但其训练数据集中恰好包含这类数据类型。”

Minhas 指出，研究人员正试图通过为 AI 系统引入记忆机制来突破模式匹配的局限。“这是我们提升模型通用性的尝试之一，但这仍只是基于给定信息的模式匹配，”他表示。

苹果研究揭示了当前 AI 系统的显著局限性，表明迈向真正智能机器的征程仍任重道远。专家们指出，AI 界当前面临的挑战在于弥合模式匹配与真实推理之间的鸿沟。

“仅靠转换器架构不足以实现推理能力，”Minhas 说。“推理功能需要模型架构的进一步革新。”
