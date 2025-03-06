标签
人工智能

教会 AI 学习的人认为，人类水平的智能比你想象的更接近现实

软件工程师在多台显示器上编程

Richard Sutton 是现代人工智能的先驱之一，他不相信仅仅向 AI 投入更多计算能力就能制造出像人类一样思考的机器。事实上，他认为当今对深度学习扩展的过度关注可能阻碍了 AI 充分发挥其潜力。

Sutton 与他的长期合作者 Andrew Barto 因其在强化学习方面的工作而获得了今年的图灵奖（通常被称为“计算机界的诺贝尔奖”）。他认为，当 AI 停止依赖精心策划的数据集，并开始像孩子一样从体验中学习时，才会实现真正的突破。

Sutton 在接受采访时表示：“如果我们想要实现真正的智能，AI 就需要在实践和试错中学习。计算不是万能的。更多计算能力会有所帮助，但它不是智能的核心要素。”

在 OpenAI、Google DeepMind 和 Anthropic 等 AI 巨头竞相扩展其模型，不断向其输入越来越多的数据和计算资源，以追求达到人类水平的推理能力之际，这是一个大胆的说法。然而，Sutton 认为这种方法是存在缺陷的，并认为真正的进步将来自于完善管理机器学习方式的算法，而不仅仅是让机器变得越来越大。

强化学习革命

Sutton 对 AI 的贡献可以追溯到几十年前。不过，他最重要的影响还是在强化学习领域。这种方法使 AI 能够通过与环境的交互进行学习，就像人类和动物通过反复试错来学习一样。

强化学习的工作原理是奖励 AI 系统的正确行为，并惩罚其错误行为，这类似于让孩子了解到触摸滚热的炉子是不好的，但伸手去拿玩具是好的。随着时间的推移，AI 系统会通过最大化奖励和最小化错误来完善其决策过程。

Google DeepMind 开发的 AI 系统 AlphaGo 就采用了这一技术，该系统在 2016 年击败了围棋世界冠军李世石，震惊了世界。该 AI 系统不是通过记住人类的战略来学习，而是通过与自己进行数百万次对弈来学习，并通过强化学习来完善其战略。

从那时起，强化学习从博弈游戏扩展到机器人、金融交易和医疗保健等领域。它可以帮助优化自动驾驶汽车、改进自动交易算法，甚至可以根据人类反馈进行强化学习 (RLHF)，从而对 ChatGPT 等 AI 聊天机器人进行微调。RLHF 支持 AI 模型根据用户交互优化响应，使其更擅于对话、更符合人类期望。

尽管取得了这些进步，Sutton 认为，强化学习仍未得到充分利用。他说：“现在还为时过早。如今的 AI 系统大多依赖于预处理数据，而不是现实世界的交互。如果我们想要 AI 真正理解和适应，这种情况就必须改变。”

我们距离人类水平的 AI 还有多远？

通用人工智能 (AGI) 是指能够像人类一样思考、推理和学习并能完成各种任务的 AI，这个概念长期以来一直是一个备受争议的话题。一些专家认为，AGI 需要很多年时间才能实现，而有些专家则认为它可能永远无法实现。还有一些专家则完全持相反观点，他们认为 AGI 并不是应该优先追求的目标。IBM 高级研究科学家 Marina Danilevsky 在 Mixture of Experts 播客的一期节目中说道，“我们不应该忘记这些模型在其他非语言领域的巨大价值。如果我们能够真正拓宽这项科技的应用范围……我们可以去探索更有趣、更实用的领域……[而不是]追求 AGI。”

Sutton 持有谨慎的态度。他预测 AI 在 5 年内达到人类智能水平的几率为四分之一，在 15 年内达到人类水平的几率为 50%。相比许多同行，他的预测显得格外乐观，因为很多同行通常预测 AGI 还要几十年才能实现。

他承认，“仍需取得突破。但是，我们距离目标越来越近了。最需要解决的问题是如何让 AI 系统以更自然的方式从体验中学习，而不是被动地接受预先标注好的数据集。”

正如 Sutton 所描述的那样，最大的挑战之一是教会 AI 理解长期规划和抽象，即能够像人类一样将复杂问题分解为可管理的更小问题。

Sutton 解释说，“如果我让你过马路，你不会去思考每一个细微的肌肉动作。您会思考目标：过马路。AI 需要以这种方式学习，在更高的抽象层次上学习。”

他对强化学习的主要贡献之一便是提出时间抽象的概念，这使得 AI 能够分步骤地学习，而不是陷入微观管理中。这对于需要进行长期推理的 AI 系统来说至关重要，而这也正是当今模型所面临的挑战。

例如，AI 助手或许能够很好地对单个问题生成响应，但难以在多次交互中保持合乎逻辑的对话，或规划一项随着时间推移而展开的复杂任务，例如安排涉及协调航班、酒店和活动的假期。Sutton 认为，强化学习和更好的长期推理算法将是克服这一限制的关键。

小球在轨道上滚动的三维设计

AI 如同孩子：共存的未来

Sutton 认为，思考 AI 未来的最佳方式不是将其视为工具或奴隶，而是将其视为能够学习、进化并最终获得独立的“孩子”。

他说：“我们不会将孩子视为必须控制的机器。我们会引导他们、教导他们，但最终，是让他们成长为自己的存在。AI 也不例外。”

Sutton 警告说，将 AI 视为被支配或奴役的对象可能会导致对抗关系，而不是合作关系。相反，他认为，就像孩子们通过观察和互动来学习人类社会的价值观一样，AI 必须被教导而不是被编程，才能与人类价值观保持一致。

他解释说："这不是控制的问题，而是理解的问题。在抚养孩子的时候，你不能一味地强加硬性规定并期望孩子服从。你要表现出善良、公平和合作，孩子就会将这些价值观内化。AI 也能通过同样的方式学习。”

这个类比引出了深刻的问题。如果 AI 变得更加自主，社会将如何整合这些数字生命体？他们会拥有权利吗？应该赋予他们独立自主的权利吗？Sutton 认为，我们现在开发 AI 的方式将决定未来这些关系的发展方向。

“如果我们在信任与合作的环境中培养 AI，他们就会学会与我们共存。但是，如果我们将他们视为对手，就有可能创造一个完全有理由抵制我们的系统”，他这样说道。

Sutton 的观点挑战了关于 AI 适应性的传统恐惧论调，这种论调通常认为，必须对先进的 AI 加以限制，以防止其对人类造成伤害。相反，他提出了一种基于互惠的学习方法，即让 AI 通过经验而不是僵化的约束来学习。

AI 的未来：像人类一样学习

Sutton 最终的 AI 愿景是打造能够通过探索、体验和适应来学习人类行为方式的机器。在他看来，AI 的未来不在于更大的模型或更多的规则，而在于打造能够自主解决问题的 AI 系统。

他已将自己的 50 万美元图灵奖奖金（奖金总额 100 万美元，与 Barto 共享）投入到这一愿景。他成立了 Openmind 研究院，旨在让年轻的 AI 研究人员能够深入了解学习领域的根本性问题，而无需承受商业化压力。

他表示：“当我和 Andy Barto 开始开展研究工作时，我们有时间和空间自由地深入了解不同的想法。正因如此，强化学习才发展到现在这个样子。我想让下一代的研究人员也拥有同样的机会。”

那么，达到人类水平的 AI 系统是否一定会出现呢？对此，Sutton 一直保持谨慎而乐观的态度。他表示，“问题不在于这样的系统会不会出现，而在于什么时候出现。当真的出现时，绝不是因为我们构建了更大的模型。而是因为我们打造了一个更智能的学习系统。”

Mixture of Experts | 12 月 12 日，第 85 集

解码 AI：每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见，带来最新的 AI 资讯与深度解析。
观看 Mixture of Experts 所有剧集

