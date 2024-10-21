这一发现促使专家们重新审视 AI 当前能力的深度及该领域的发展路径。Minhas 指出，研究结果凸显了狭义人工智能 (ANI) 与通用人工智能 (AGI) 之间的本质区别，表明当前大语言模型仍完全属于前者范畴。
AI 领域正日益接受实现 AGI 的可能性。AGI 指的是能像人类一样学习理解、跨领域应用知识、执行多样化任务，并可能在从推理到创造性追求等各方面超越人类能力的 AI 系统。
OpenAI 前董事会成员、乔治城大学安全与新兴技术中心战略主任 Helen Toner 近期向美国参议院司法委员会小组作证时指出：“我观察到公众认知与 AI 业内人士观点之间最显著的脱节，源自少数几家致力于构建‘通用人工智能’ (AGI) 的公司内部。智能水平接近人类的 AI。”她表示，OpenAI、谷歌和 Anthropic 等领先 AI 企业正将构建 AGI 视为“极其严肃的目标”。
然而，部分专家认为 AGI 距离现实仍很遥远。“这篇论文强调我们仍处在 ANI 的世界，”Minhas 指出。“我们尚未实现 AGI。”
该论文同时凸显了 AI 行业需要更优质基准测试的迫切性。Minhas 认为，当前的基准测试存在缺陷，因为模型可通过模式匹配而非实际推理来解决问题。“若基准测试基于实际推理能力，或推理问题更为复杂，所有模型的表现都会极其糟糕，”他说。
Minhas 指出，苹果研究人员通过混合符号系统创建了这个用于训练和测试 AI 模型与算法的合成数据集
“研究已证明，当你开始调整输入序列中的元素——无论是符号本身还是冗余标记这类额外语境——这些模型的性能就会出现衰减，”他解释道。
苹果研究采用的方法是在训练集中引入各类“干扰信息”和附加条件，以观察模型性能的变化。但 IBM 数据科学家 Jess Bozorg 指出一个潜在局限：“他们未说明在添加干扰信息时考虑了哪些具体类别，也未明确使用了各类别中的哪些干扰类型，”她表示。
该论文对当前大语言模型基准测试的一项批评在于数据污染问题。Bozorg 解释说，苹果研究使用了 GSM-8K 数据集。其中包含人类编写的小学数学应用题的数据集。“存在数据泄露现象，”她说。“这意味着模型在训练阶段的测试环节已接触过部分数据。”
数据污染是该行业普遍存在的问题。Minhas 认为 GSM-8K 数据集“作为行业基准被广泛使用，其零散碎片遍布所有模型的训练数据中。这是所有人工构建基准测试的根本缺陷”。
值得注意的是，研究显示 GPT-4 在新符号数据集上的测试表现显著优于其他模型。Minhas 推测其原因：“是否可能 GPT-4 在训练阶段就考虑了符号表征，并生成了此类测试数据？也许它仍在进行模式匹配，但其训练数据集中恰好包含这类数据类型。”
Minhas 指出，研究人员正试图通过为 AI 系统引入记忆机制来突破模式匹配的局限。“这是我们提升模型通用性的尝试之一，但这仍只是基于给定信息的模式匹配，”他表示。
苹果研究揭示了当前 AI 系统的显著局限性，表明迈向真正智能机器的征程仍任重道远。专家们指出，AI 界当前面临的挑战在于弥合模式匹配与真实推理之间的鸿沟。
“仅靠转换器架构不足以实现推理能力，”Minhas 说。“推理功能需要模型架构的进一步革新。”
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai，可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据，即可在很短的时间内构建 AI 应用程序。