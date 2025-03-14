Barto 强调了强化学习在医疗领域的应用，可以在较长时间内不断优化治疗方案，这正是强化学习技术擅长解决的序列决策问题。

他说：“强化学习的一个特征是可以处理序列决策问题，这类问题需要随着时间推移做出一系列决策，且在每种情况下，系统的状态都依赖于前一个决策。”这种处理延迟奖励的能力（即结果在一系列行动完成之后才会显现）是强化学习算法要解决的一项根本性挑战。

IBM AI Foundations Lab 的深度学习研究工程师 Matt Riemer 指出了更新的应用。

他在接受 Think 采访时表示：“研究人员已经成功地将基于强化学习的方法应用于药物发现问题，并且正开始看到一些极具前景的成果。最近在水处理过程的优化和自动化等重要问题上也实现了成功的应用。”

如今聊天机器人令人惊叹的能力也是强化学习驱动的。Riemer 解释道：“随着 LLM 最近取得的成功，我们看到了通过强化学习增强能力的备受瞩目的用例。”第一个重要应用是基于人类反馈的强化学习 (RLHF)，可以帮助这些系统产生更符合用户需求的响应。

虽然大语言模型凭借生成类人文本的能力吸引了公众的关注，但其发展在很大程度上要归功于强化学习。正如 Riemer 解释的那样：“最近，我们看到强化学习已成为训练所谓的“思维”模型的最主流方法，“思维”模型会学习一个思维链过程，从而提高 LLM 的推理能力。”

数学问题是这些系统的理想训练场。Riemer 解释道：“对于像数学推理这样的问题，构建可验证的奖励机制很容易，即‘智能体是否正确回答了问题？’”这些明确的对错答案创造了一个他所称的“伪模拟环境”，AI 可在其中通过反复练习来完成学习。

强化学习的影响已经超出了学术研究或专业应用。在与日常用户交互的技术中，它的影响越来越大。Riemer 预测：“这可能只是一个开始，随着该领域开始开发与 Web 浏览器和其他工具交互的‘AI 智能体’来更好地辅助用户，我们有望见证强化学习发挥更突出的作用。”

作为一名目睹了无数技术炒作周期的科学家，Barto 保持谨慎乐观的态度。当被问及 AI 的安全性和对齐问题（即确保 AI 系统按照人类价值观行动）时，他坦承这确实是一项挑战。

他表示：“对齐问题非同小可。人们希望强化学习系统能够引导 AI 融入系统使用者的人类价值观。因此，希望这能够成为现实。我没有这方面的处方。”

在寻找有关 AI 奖励机制的灵感时，Barto 将目光投向了我们的大脑。他解释说：“我们的奖励函数源于历经数百万年进化形成的机制。”与简单的计算机奖励不同，人类的动力来自复杂的进化压力，正是这些压力让我们的祖先得以生存和繁衍。

这种进化论视角启发了他对多标准强化学习的思考。在多标准强化学习中，系统会响应多个奖励信号，而非单个信号，这或许正反映了人脑不同区域如何处理不同形式的反馈。

“我认为多标准强化学习确实非常重要。”Barto 指出，”奖励函数并非只有一个，而可能有多个，例如……大脑不同区域可能接收的是不同的信号。“