Richard Sutton 是现代人工智能的先驱之一，他不相信仅仅向 AI 投入更多计算能力就能制造出像人类一样思考的机器。事实上，他认为当今对深度学习扩展的过度关注可能阻碍了 AI 充分发挥其潜力。
Sutton 与他的长期合作者 Andrew Barto 因其在强化学习方面的工作而获得了今年的图灵奖（通常被称为“计算机界的诺贝尔奖”）。他认为，当 AI 停止依赖精心策划的数据集，并开始像孩子一样从体验中学习时，才会实现真正的突破。
Sutton 在接受采访时表示：“如果我们想要实现真正的智能，AI 就需要在实践和试错中学习。计算不是万能的。更多计算能力会有所帮助，但它不是智能的核心要素。”
在 OpenAI、Google DeepMind 和 Anthropic 等 AI 巨头竞相扩展其模型，不断向其输入越来越多的数据和计算资源，以追求达到人类水平的推理能力之际，这是一个大胆的说法。然而，Sutton 认为这种方法是存在缺陷的，并认为真正的进步将来自于完善管理机器学习方式的算法，而不仅仅是让机器变得越来越大。
Sutton 对 AI 的贡献可以追溯到几十年前。不过，他最重要的影响还是在强化学习领域。这种方法使 AI 能够通过与环境的交互进行学习，就像人类和动物通过反复试错来学习一样。
强化学习的工作原理是奖励 AI 系统的正确行为，并惩罚其错误行为，这类似于让孩子了解到触摸滚热的炉子是不好的，但伸手去拿玩具是好的。随着时间的推移，AI 系统会通过最大化奖励和最小化错误来完善其决策过程。
Google DeepMind 开发的 AI 系统 AlphaGo 就采用了这一技术，该系统在 2016 年击败了围棋世界冠军李世石，震惊了世界。该 AI 系统不是通过记住人类的战略来学习，而是通过与自己进行数百万次对弈来学习，并通过强化学习来完善其战略。
从那时起，强化学习从博弈游戏扩展到机器人、金融交易和医疗保健等领域。它可以帮助优化自动驾驶汽车、改进自动交易算法，甚至可以根据人类反馈进行强化学习 (RLHF)，从而对 ChatGPT 等 AI 聊天机器人进行微调。RLHF 支持 AI 模型根据用户交互优化响应，使其更擅于对话、更符合人类期望。
尽管取得了这些进步，Sutton 认为，强化学习仍未得到充分利用。他说：“现在还为时过早。如今的 AI 系统大多依赖于预处理数据，而不是现实世界的交互。如果我们想要 AI 真正理解和适应，这种情况就必须改变。”
通用人工智能 (AGI) 是指能够像人类一样思考、推理和学习并能完成各种任务的 AI，这个概念长期以来一直是一个备受争议的话题。一些专家认为，AGI 需要很多年时间才能实现，而有些专家则认为它可能永远无法实现。还有一些专家则完全持相反观点，他们认为 AGI 并不是应该优先追求的目标。IBM 高级研究科学家 Marina Danilevsky 在 Mixture of Experts 播客的一期节目中说道，“我们不应该忘记这些模型在其他非语言领域的巨大价值。如果我们能够真正拓宽这项科技的应用范围……我们可以去探索更有趣、更实用的领域……[而不是]追求 AGI。”
Sutton 持有谨慎的态度。他预测 AI 在 5 年内达到人类智能水平的几率为四分之一，在 15 年内达到人类水平的几率为 50%。相比许多同行，他的预测显得格外乐观，因为很多同行通常预测 AGI 还要几十年才能实现。
他承认，“仍需取得突破。但是，我们距离目标越来越近了。最需要解决的问题是如何让 AI 系统以更自然的方式从体验中学习，而不是被动地接受预先标注好的数据集。”
正如 Sutton 所描述的那样，最大的挑战之一是教会 AI 理解长期规划和抽象，即能够像人类一样将复杂问题分解为可管理的更小问题。
Sutton 解释说，“如果我让你过马路，你不会去思考每一个细微的肌肉动作。您会思考目标：过马路。AI 需要以这种方式学习，在更高的抽象层次上学习。”
他对强化学习的主要贡献之一便是提出时间抽象的概念，这使得 AI 能够分步骤地学习，而不是陷入微观管理中。这对于需要进行长期推理的 AI 系统来说至关重要，而这也正是当今模型所面临的挑战。
例如，AI 助手或许能够很好地对单个问题生成响应，但难以在多次交互中保持合乎逻辑的对话，或规划一项随着时间推移而展开的复杂任务，例如安排涉及协调航班、酒店和活动的假期。Sutton 认为，强化学习和更好的长期推理算法将是克服这一限制的关键。
Sutton 认为，思考 AI 未来的最佳方式不是将其视为工具或奴隶，而是将其视为能够学习、进化并最终获得独立的“孩子”。
他说：“我们不会将孩子视为必须控制的机器。我们会引导他们、教导他们，但最终，是让他们成长为自己的存在。AI 也不例外。”
Sutton 警告说，将 AI 视为被支配或奴役的对象可能会导致对抗关系，而不是合作关系。相反，他认为，就像孩子们通过观察和互动来学习人类社会的价值观一样，AI 必须被教导而不是被编程，才能与人类价值观保持一致。
他解释说："这不是控制的问题，而是理解的问题。在抚养孩子的时候，你不能一味地强加硬性规定并期望孩子服从。你要表现出善良、公平和合作，孩子就会将这些价值观内化。AI 也能通过同样的方式学习。”
这个类比引出了深刻的问题。如果 AI 变得更加自主，社会将如何整合这些数字生命体？他们会拥有权利吗？应该赋予他们独立自主的权利吗？Sutton 认为，我们现在开发 AI 的方式将决定未来这些关系的发展方向。
“如果我们在信任与合作的环境中培养 AI，他们就会学会与我们共存。但是，如果我们将他们视为对手，就有可能创造一个完全有理由抵制我们的系统”，他这样说道。
Sutton 的观点挑战了关于 AI 适应性的传统恐惧论调，这种论调通常认为，必须对先进的 AI 加以限制，以防止其对人类造成伤害。相反，他提出了一种基于互惠的学习方法，即让 AI 通过经验而不是僵化的约束来学习。
Sutton 最终的 AI 愿景是打造能够通过探索、体验和适应来学习人类行为方式的机器。在他看来，AI 的未来不在于更大的模型或更多的规则，而在于打造能够自主解决问题的 AI 系统。
他已将自己的 50 万美元图灵奖奖金（奖金总额 100 万美元，与 Barto 共享）投入到这一愿景。他成立了 Openmind 研究院，旨在让年轻的 AI 研究人员能够深入了解学习领域的根本性问题，而无需承受商业化压力。
他表示：“当我和 Andy Barto 开始开展研究工作时，我们有时间和空间自由地深入了解不同的想法。正因如此，强化学习才发展到现在这个样子。我想让下一代的研究人员也拥有同样的机会。”
那么，达到人类水平的 AI 系统是否一定会出现呢？对此，Sutton 一直保持谨慎而乐观的态度。他表示，“问题不在于这样的系统会不会出现，而在于什么时候出现。当真的出现时，绝不是因为我们构建了更大的模型。而是因为我们打造了一个更智能的学习系统。”
