在一项引发科技界涟漪效应的研究中，苹果公司研究人员对 LLM 是否具备真正推理能力提出了质疑。

论文作者通过引入新型符号数据集，对当前 AI 模型（包括行业领先者 OpenAI 的 GPT-4）的数学推理能力进行了检验。研究人员通过以非常规形式呈现常见的数学概念，试图挑战这些模型超越单纯模式识别层面的理解能力。

结果令人震惊：面对这些新颖的数学问题表征形式，大多数受测 LLM 表现显著下滑，这表明这些系统可能更依赖于模式匹配而非实际的问题解决能力。

“这篇论文从本质上证明了 LLM 无法进行推理，”IBM 技术内容经理 Ash Minhas 表示。“它们只是在做模式匹配。”