随着人工智能日益塑造我们的世界，AI 先驱警告不要过度炒作和恐惧。
Andrew Barto 最近获得了计算机领域的最高荣誉——图灵奖。他数十年来一直深耕强化学习。目前，该技术已推动了众多领域的发展，从从击败人类的游戏 AI 冠军，到药物发现系统以及当今大语言模型 (LLM) 背后的推理能力。在 IBM Think 的采访中，Barto 对 AI 的进步、潜力和局限性进行了审慎评估，既不盲从技术乐观主义，也无末日悲观论调。
强化学习是从交互中学习的计算方法，Barto 曾深度研究这一方法，如今它已在 AI 环境中无处不在。虽然许多人只会联想到其引人注目的成就，例如在复杂的游戏中击败世界冠军，但 Barto 认为将其应用于更实用的领域最有意义。
“它现在已应用于许多领域，尤其是机器人领域。”他解释道，“通过利用强化学习，机器人很可能实现非常细致且实用的动作，可以辅助完成家务，帮助残障人士。”
Barto 强调了强化学习在医疗领域的应用，可以在较长时间内不断优化治疗方案，这正是强化学习技术擅长解决的序列决策问题。
他说：“强化学习的一个特征是可以处理序列决策问题，这类问题需要随着时间推移做出一系列决策，且在每种情况下，系统的状态都依赖于前一个决策。”这种处理延迟奖励的能力（即结果在一系列行动完成之后才会显现）是强化学习算法要解决的一项根本性挑战。
IBM AI Foundations Lab 的深度学习研究工程师 Matt Riemer 指出了更新的应用。
他在接受 Think 采访时表示：“研究人员已经成功地将基于强化学习的方法应用于药物发现问题，并且正开始看到一些极具前景的成果。最近在水处理过程的优化和自动化等重要问题上也实现了成功的应用。”
如今聊天机器人令人惊叹的能力也是强化学习驱动的。Riemer 解释道：“随着 LLM 最近取得的成功，我们看到了通过强化学习增强能力的备受瞩目的用例。”第一个重要应用是基于人类反馈的强化学习 (RLHF)，可以帮助这些系统产生更符合用户需求的响应。
虽然大语言模型凭借生成类人文本的能力吸引了公众的关注，但其发展在很大程度上要归功于强化学习。正如 Riemer 解释的那样：“最近，我们看到强化学习已成为训练所谓的“思维”模型的最主流方法，“思维”模型会学习一个思维链过程，从而提高 LLM 的推理能力。”
数学问题是这些系统的理想训练场。Riemer 解释道：“对于像数学推理这样的问题，构建可验证的奖励机制很容易，即‘智能体是否正确回答了问题？’”这些明确的对错答案创造了一个他所称的“伪模拟环境”，AI 可在其中通过反复练习来完成学习。
强化学习的影响已经超出了学术研究或专业应用。在与日常用户交互的技术中，它的影响越来越大。Riemer 预测：“这可能只是一个开始，随着该领域开始开发与 Web 浏览器和其他工具交互的‘AI 智能体’来更好地辅助用户，我们有望见证强化学习发挥更突出的作用。”
作为一名目睹了无数技术炒作周期的科学家，Barto 保持谨慎乐观的态度。当被问及 AI 的安全性和对齐问题（即确保 AI 系统按照人类价值观行动）时，他坦承这确实是一项挑战。
他表示：“对齐问题非同小可。人们希望强化学习系统能够引导 AI 融入系统使用者的人类价值观。因此，希望这能够成为现实。我没有这方面的处方。”
在寻找有关 AI 奖励机制的灵感时，Barto 将目光投向了我们的大脑。他解释说：“我们的奖励函数源于历经数百万年进化形成的机制。”与简单的计算机奖励不同，人类的动力来自复杂的进化压力，正是这些压力让我们的祖先得以生存和繁衍。
这种进化论视角启发了他对多标准强化学习的思考。在多标准强化学习中，系统会响应多个奖励信号，而非单个信号，这或许正反映了人脑不同区域如何处理不同形式的反馈。
“我认为多标准强化学习确实非常重要。”Barto 指出，”奖励函数并非只有一个，而可能有多个，例如……大脑不同区域可能接收的是不同的信号。“
强化学习在电子游戏和模拟方面表现出色，但在现实世界中却面临诸多困难。问题在哪？这些系统通过探索不同行动来学习，这在虚拟环境中是优势，但在现实中却存在很大风险。Riemer 解释并强调了为什么两位研究者都认为从虚拟到现实的转变是一项关键挑战：“探索是强化学习的最大卖点，但在实际使用中也是最大的限制因素。”
“在非模拟环境的现实世界中，探索可能会导致智能体做出不可预测的事情，这是 AI 安全领域的一个主要担忧。”Riemer 解释说，“此外，即使对于我们可以容忍探索的用例，强化学习的样本效率也存在问题。在同样的情况下，它需要的探索量往往比人类要多得多。”
Barto 指出了类似的挑战：“这会耗费更长时间，因为模拟环境的运行速度比现实世界的物理体验要快得多。”他还补充说："如果是机器人，它通过不断试错来学习，如果错误导致坠落或机器受损，那就是问题所在。"
对现实世界部署持审慎态度是源于实践与安全两方面的考量。Barto 强调，必须仔细设定奖励函数，“这样系统才不会产生一些完全出乎意料且可能存在问题的结果。”
挑战不仅仅存在于实施中。正如 Riemer 指出的那样，强化学习系统还必须适应不断变化的环境：“持续强化学习研究强化学习智能体如何适应现实世界环境不断变化（即世界与之前预训练期间或在模拟器中训练时的世界不相同时）的问题。”
这种适应性呈现了 Riemer 所说的“稳定性-可塑性困境”的经典问题，即智能体必须决定如何分配新体验的性能和旧体验的性能之间的优先级。”保留先验知识和适应新环境之间的平衡难题是该领域一直面临的挑战。
尽管存在这些障碍，但研究人员通过结合强化学习与其他 AI 方法，找到了有前景的解决方案。Riemer 认为与大语言模型的集成尤其有前景：“强化学习真正缺乏的是充分理解世界以便能够更合乎逻辑地构建探索过程的能力。我们开始看到有证据表明，大语言模型可以作为坚实的世界知识基础，然后在此基础上构建强化学习训练。从实现强化学习实际用例的角度来看，这非常振奋人心。”
强化学习与其他 AI 技术之间的集成正在迅速发展。Riemer 表示：“我们看到的主要趋势是，其他方法可以帮助强化学习构建对世界的表征，以便更强化学习更高效地开展探索。例如，在语言领域，强化学习已成为在预训练大语言模型的基础上使用的一种非常有效的工具。”
这种互补关系是双向的：强化学习增强了语言模型，而语言模型则为强化学习系统提供了对世界更好的表征。“我们正开始在机器人或构建 AI 智能体等用例中看到类似的情况。当强化学习与同样具有视觉能力的视觉语言模型 (VLM) 中的知识相结合时，强化学习会变得更加有效。”
当话题转向通用人工智能 (AGI)（具备跨领域类人认知能力的系统）时，Barto 对其实现的可能性以及将其作为研究目标的可取性表示怀疑。
他坦言：“我不认为将达到人类水平的智能作为目标有什么实际效用。试图了解人类智能如何工作与试图创造人类水平的机器是两个不同的目标。”
Barto 指出的一个特别有趣的前沿领域是多智能体强化学习，即目标可能互不相同的多个学习智能体在其中交互的系统。这种方法不仅对 AI 发展具有重要意义，而且可能有助于我们了解人脑的运作方式。
他承认：“神经元是强化学习智能体，大脑是由目标可能互不相同的交互智能体组成的社群”这样的假说仍然是“不寻常的假说”，但可能会给神经科学提供启示。
对于 Barto 来说，强化学习最有价值的贡献可能不在于创造类人智能，而在于解决改善人类生活的具体问题——这也许比图灵奖本身更有意义。
