发布日期:2024 年 3 月 25 日
撰稿人:Jacob Murel 博士、Eda Kavlakoglu
在强化学习中,代理通过与环境交互来学习做出决策。它可用于机器人和其他决策环境。
文献经常将强化学习与监督学习和无监督学习进行对比。监督学习会使用手动标记的数据来生成预测或分类。无监督学习旨在从未标记的数据中发现和学习隐藏的模式。与监督学习不同,强化学习不使用正确或错误行为的标记示例。但强化学习也不同于无监督学习,因为强化学习是通过反复试验和奖励函数来学习,而不是通过提取隐藏模式的信息来学习。2
监督学习和无监督学习方法假设输入数据的每条记录独立于数据集中的其他记录,但每条记录都实现了一个通用的底层数据分布模型。这些方法通过预测准确性的最大化来衡量模型性能,进而学习进行预测。
相比之下,强化学习会将学习转化为行动。它假设输入数据是相互依赖的元组(即,一个有序数据序列),并以“状态-动作-奖励”的形式组织这些数据。强化学习算法的很多应用均旨在通过正强化来模仿现实的生物学习方法。
请注意,尽管文献中很少将两者进行比较,但强化学习也不同于自监督学习。后者是一种无监督学习形式,它使用从未标记的训练数据中得出的伪标签作为基本事实来衡量模型的准确性。然而,强化学习不会产生伪标签或根据基本事实进行测量 — 它不是一种分类方法,而是一种行动学习方法。然而,这两者结合起来却带来了令人鼓舞的结果。3
深入了解 IBM watsonx 并学习如何使用统计数据集创建机器学习模型。
强化学习主要由代理、环境和目标之间的关系组成。许多文献都用马尔可夫决策过程 (MDP) 来表述这种关系。
强化学习代理通过与其环境进行交互来了解某一问题。环境可提供有关其当前状态的信息。然后,代理会使用该信息来确定要执行的动作。如果此动作从周围环境获得了奖励信号,则会鼓励代理在未来处于类似状态时再次执行该动作。此后每出现一个新状态,均会重复此流程。随着时间的推移,代理会通过奖励和惩罚进行学习,以便在环境中采取能达成指定目标的行动。4
在马尔可夫决策过程中,状态空间指的是环境状态提供的所有信息。操作空间表示代理在状态中可以执行的所有可能操作。5
由于 RL 代理没有手动标记的输入数据来指导其行为,因此它必须探索其环境,尝试新的操作来发现那些可以获得奖励的操作。通过这些奖励信号,代理可以学习选择那些能得到奖励的行为,从而实现收益最大化。但代理也必须继续探索新的状态和操作。这样,它就可以利用这些经验改进决策。
因此,RL 算法要求代理既要利用先前所奖励的“状态-动作”的知识,又要探索其他“状态-动作”。代理无法单独进行探索或开发。它必须不断尝试新的动作,同时也更偏爱能产生最大累积奖励的单个(或一系列)动作。6
除了“主体-环境-目标”三要素之外,强化学习问题还有四个主要的子要素。
- 策略。这通过将感知到的环境状态映射到代理在这些状态下必须采取的特定操作来定义 RL 代理的行为。它可以采用基本函数的形式,也可以采用更复杂的计算过程的形式。例如,指导自动驾驶车辆的策略可能会将行人检测映射到停车操作。
- 奖励信号。这指定了 RL 问题的目标。RL 代理的每一个操作要么从环境中获得奖励,要么没有奖励。代理的唯一目标是最大化其从环境中获得的累积奖励。对于自动驾驶汽车,奖励信号可以是减少行驶时间、减少碰撞、保持在道路上和正确的车道上、避免极端减速或加速等。此示例表明 RL 可以包含多个奖励信号来指导代理。
- 价值函数。奖励信号与价值函数的不同之处在于,前者表示即时利益,而后者指长期利益。价值指的是一个状态的可取性,考虑到所有可能跟随其后的状态(及其相应的奖励)。自动驾驶汽车也许能够通过离开车道、在人行道上行驶和快速加速来减少行驶时间,但这后三种操作可能会减少其整体价值函数。因此,作为 RL 代理的汽车可能会选择稍微延长行驶时间,以增加在后三个领域的奖励。
- 模型。它是强化学习系统的一个可选子元素。模型允许代理预测环境行为,以便执行可能的动作。然后,代理会使用模型预测并根据潜在结果来确定可能的动作方案。例如,此类模型可为一个用于指导自动驾驶汽车的模型。它可帮助自身预测最佳路线、根据周围车辆的位置和速度对这些车辆做出预判,等等。7基于模型的某些方法会在初始学习中使用直接人类反馈,然后再转为自主学习。
代理为学习策略而收集数据的方法一般有两种:
- 在线。在此方面,代理会直接通过与周围环境的交互来收集数据。当代理继续与环境互动时,便会反复处理并收集这些数据。
-离线。当主体无法直接进入环境时,它可以通过记录的环境数据进行学习。这就是离线学习。鉴于通过与环境直接交互来训练模型存在实际困难,大量研究转向离线学习。8
强化学习是一个充满活力、持续发展的研究领域,因此,开发人员已经提出了无数种强化学习方法。然而,有三种基础的强化学习方法得到了广泛讨论:动态规划、蒙特卡罗和时序差分学习。
动态规划可将较大的任务分解为若干较小的任务。因此,它可将问题建模为在离散时间步长下做出的顺序决策的工作流。每个决策都是根据生成的下一潜在状态来做出的。代理对给定动作的奖励 (r) 会定义为该操作 (a)、当前环境状态 (s) 和下一潜在状态 (s’) 所组成的一个函数:
此奖励函数可以用作管理代理操作的策略(的一部分)。确定代理行为的最佳策略是强化学习的动态规划方法的主要组成部分。输入贝尔曼方程。
贝尔曼方程为:
简而言之,该方程将 vt(s) 定义为从时间 t 开始直到决策工作流程结束的总预期奖励。它假设代理在时间 t 开始占据状态 s。该方程最终将时间 t 的奖励分为即时奖励 rt(s,a)(即奖励公式)和代理的总预期奖励。因此,代理通过始终选择在每个状态中接收奖励信号的操作来最大化其价值函数(即贝尔曼方程的总值)。9
动态规划是基于模型的,这意味着它会构建其环境的模型来感知奖励、识别模式和导航环境。然而,蒙特卡洛假设了一个黑匣子环境,因此它不需要模型。
虽然动态规划可以在决策过程中预测潜在的未来状态和奖励信号,但蒙特卡罗方法完全基于经验,这意味着它们仅通过与环境的交互来来对状态、操作和奖励序列进行采样。因此,蒙特卡罗方法是通过试错而不是概率分布来学习的。
在价值函数的确定方面,蒙特卡罗与动态规划有进一步的不同。动态规划通过在连续状态下持续选择有奖励的操作来寻求最大的累积奖励。相比之下,蒙特卡罗对每个状态-操作对的回报进行平均。这反过来意味着蒙特卡罗方法必须等到给定事件(或计划范围)中的所有操作都完成后,才能计算其价值函数,然后更新其策略。10
很多文献将时序差分 (TD) 学习描述为动态规划和蒙特卡罗的结合。与前者一样,TD 会在每一步之后更新其策略,并据此估计未来状态,而无需等待最终值。然而,与蒙特卡洛一样,TD 通过与环境的原始交互而不是使用其模型来学习。11
顾名思义,TD 学习代理会根据每个状态中预测和实际收到的奖励之间的差异来修订其策略。也就是说,虽然动态规划和蒙特卡罗仅考虑获得的奖励,但 TD 进一步权衡了其预期和实际收到的奖励之间的差异。利用这个差异,代理无需等到事件规划范围结束就可以更新其对后续步骤的估计,这与蒙特卡罗方法相反。。12
TD 有多种变体。两个突出的变体是“状态–操作–奖励–状态–操作”(SARSA) 和 Q 学习。SARSA 是一种基于策略的 TD 方法,这意味着它会评估并尝试改进其决策控制策略。Q 学习是一种离策略方法。离策略方法是指使用两种策略的方法:一个用于利用(目标策略),一个用于探索以生成行为(行为策略)。13
还有无数其他的强化学习方法。动态规划是一种基于价值的方法,这意味着它会遵循旨在最大化其价值函数的策略,根据其估计值选择操作。相比之下,策略梯度方法学习一种参数化策略,该策略可以在不参考价值函数的情况下选择操作。这些方法被称为基于策略的方法,并且被认为在高维环境中更有效。14
“演员-评判家”方法会同时使用基于价值与基于策略的方法。所谓的“演员”是指用于决定采取哪些动作的策略梯度,而“评判家”则是用于评估动作的价值函数。“演员-评判家”方法本质上是一种 TD。更具体而言,“演员-评判家”不仅会根据其自身的奖励、还会根据后续状态的可能值来评估给定动作的值,并将其添加到此动作的奖励中。“演员-评判家”的优势在于:由于它在决策中会实施价值函数和策略,因而它实际所需的环境交互较少。15
Granite 是 IBM 基于仅解码器转换器架构的 LLM 基础模型旗舰系列。Granite 语言模型经过互联网、学术、代码、法律和金融等领域的可信企业数据训练而成。
利用强化学习来确定环境中各状态的行动,并训练主体做出合理的行为。
了解强化学习与其他类型的机器学习的比较情况。
1 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville,《Deep Learning》,MIT Press,2016 年。
2 Peter Stone,“Reinforcement Learning”,《Encyclopedia of Machine Learning and Data Mining》,Springer,2017 年。
3 Xiang Li、Jinghuan Shang、Srijan Das、Michael Ryoo,“Does Self-supervised Learning Really Improve Reinforcement Learning from Pixels?”,Advances in Neural Information Processing Systems,第 35 卷,2022 年,第 30865-30881 页,https://proceedings.neurips.cc/paper_files/paper/2022/hash/c75abb33341363ee874a71f81dc45a3a-Abstract-Conference.html(ibm.com 外部链接)。
4 Richard Sutton 和 Andrew Barto,《强化学习导论》,第 2 版,MIT Press,2018 年。Michael Hu,《The Art of Reinforcement Learning: Fundamentals, Mathematics, and Implementations with Python》,Apress,2023 年。
5 Brandon Brown 和 Alexander Zai,《Deep Reinforcement Learning in Action》,Manning Publications,2020 年。
6 Richard Sutton 和 Andrew Barto,《强化学习导论》,第 2 版,MIT Press,2018 年。
Brandon Brown 和 Alexander Zai,《Deep Reinforcement Learning in Action》,Manning Publications,2020 年。
7 Richard Sutton 和 Andrew Barto,《Introduction to Reinforcement Learning》第 2 版,MIT Press,2018 年。B Ravi Kiran、Ibrahim Sobh、Victor Talpaert、Patrick Mannion、Ahmad A. Al Sallab、Senthil Yogamani 和 Patrick Pérez,“Deep Reinforcement Learning for Autonomous Driving: A Survey”,《IEEE Transactions on Intelligent Transportation Systems》,第 23 卷,第 6 期,2022 年,第 4909-4926 页,https://ieeexplore.ieee.org/document/9351818(ibm.com 外部链接)。
8 Sergey Levine、Aviral Kumar、George Tucker 和 Justin Fu,“Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems”,2020 年,https://arxiv.org/abs/2005.01643(ibm.com 外部链接)。Julian Schrittwieser、Thomas Hubert、Amol Mandhane、Mohammadamin Barekatain、Ioannis Antonoglou 和 David Silver,“Online and Offline Reinforcement Learning by Planning with a Learned Model”,《Advances in Neural Information Processing Systems》,第 34 卷,2021 年,第 27580-27591 页,https://proceedings.neurips.cc/paper_files/paper/2021/hash/e8258e5140317ff36c7f8225a3bf9590-Abstract.html(ibm.com 外部链接)。
9 Martin Puterman 和 Jonathan Patrick,“Dynamic Programming”,《Encyclopedia of Machine Learning and Data Mining》,Springer,2017 年。
10 Richard Sutton 和 Andrew Barto,《Introduction to Reinforcement Learning》第 2 版,MIT Press,2018 年。Phil Winder,Reinforcement Learning: Industrial Applications of Intelligent Agents,O’Reilly,2020 年。
11 Richard Sutton 和 Andrew Barto,《强化学习导论》,第 2 版,MIT Press,2018 年。
12 Michael Hu,《The Art of Reinforcement Learning: Fundamentals, Mathematics, and Implementations with Python》,Apress,2023 年。
13 Richard Sutton 和 Andrew Barto,《强化学习导论》,第2 版, 麻省理工学院出版社,2018 年。
14 Richard Sutton 和 Andrew Barto,《强化学习导论》,第 2 版,MIT Press,2018 年。Michael Hu,《The Art of Reinforcement Learning: Fundamentals, Mathematics, and Implementations with Python》,Apress,2023 年。
15 Richard Sutton 和 Andrew Barto,《Introduction to Reinforcement Learning》第 2 版,MIT Press,2018 年。
16 Julian Ibarz、Jie Tan、Chelsea Finn、Mrinal Kalakrishnan、Peter Pastor 和 Sergey Levine,“How to train your robot with deep reinforcement learning: lessons we have learned”,《The International Journal of Robotics Research》,第 40 卷,2021 年,第 969-721 页,https://journals.sagepub.com/doi/full/10.1177/0278364920987859 (ibm.com 外部链接)。
17 Saminda Wishwajith Abeyruwan、Laura Graesser、David B D’Ambrosio、Avi Singh、Anish Shankar、Alex Bewley、Deepali Jain、Krzysztof Marcin Choromanski 和 Pannag R Sanketi,“i-Sim2Real: Reinforcement Learning of Robotic Policies in Tight Human-Robot Interaction Loops”,Proceedings of The 6th Conference on Robot Learning,PMLR,第 205 期,2023 年,第 212-224 页,https://proceedings.mlr.press/v205/abeyruwan23a.html(ibm.com 外部链接)。
18 Homer Rich Walke、Jonathan Heewon Yang、Albert Yu、Aviral Kumar、Jędrzej Orbik、Avi Singh 和 Sergey Levine,“Don’t Start From Scratch: Leveraging Prior Data to Automate Robotic Reinforcement Learning”,Proceedings of The 6th Conference on Robot Learning,PMLR,第 205 期,2023 年,第 1652-1662 页,https://proceedings.mlr.press/v205/walke23a.html(ibm.com 外部链接)。
19 Nikolaj Goodger、Peter Vamplew、Cameron Foale 和 Richard Dazeley,“Language Representations for Generalization in Reinforcement Learning”,Proceedings of The 13th Asian Conference on Machine Learning,PMLR,第 157 期,2021 年,第 390-405 页,https://proceedings.mlr.press/v157/goodger21a.html(ibm.com 外部链接)。Yuqing Du、Olivia Watkins、Zihan Wang、Cédric Colas、Trevor Darrell、Pieter Abbeel、Abhishek Gupta 和 Jacob Andreas,“Guiding Pretraining in Reinforcement Learning with Large Language Models”,Proceedings of the 40th International Conference on Machine Learning,PMLR,第 202 期,2023 年,第 8657-8677 页,https://proceedings.mlr.press/v202/du23f.html(ibm.com 外部链接)。Kolby Nottingham、Prithviraj Ammanabrolu、Alane Suhr、Yejin Choi、Hannaneh Hajishirzi、Sameer Singh 和 Roy Fox,“Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling”,《Proceedings of the 40th International Conference on Machine Learning》,PMLR,202,2023 年,第 26311-26325 页,https://proceedings.mlr.press/v202/nottingham23a.html(ibm.com 外部链接)。
20 Ruoyao Wang 和 Peter Jansen 以及 Marc-Alexandre Côté 和 Prithviraj Ammanabrolu,“科学世界:你的主体比五年级学生更聪明吗?2022 年自然语言处理实证方法会议论文集”,2022 年,第 11279-11298 页,https://aclanthology.org/2022.emnlp-main.775/(链接位于 ibm.com 以外)。Peter Jansen,“作为自然语言环境的文本世界系统调查”, 第 3 届文字游戏会议记录:当语言遇见游戏研讨会,2022 年,第 1-15 页,https://aclanthology.org/2022.wordplay-1.1(链接位于 ibm.com 以外)。
21 Paloma Sodhi、Felix Wu、Ethan R. Elenberg、Kilian Q Weinberger 和 Ryan Mcdonald,“On the Effectiveness of Offline RL for Dialogue Response Generation”,Proceedings of the 40th International Conference on Machine Learning,PMLR,第 202 期,2023 年,第 32088-32104 页,https://proceedings.mlr.press/v202/sodhi23a.html(ibm.com 外部链接)。Siddharth Verma、Justin Fu、Sherry Yang 和 Sergey Levine,“CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement Learning”,Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies,2022 年,第 4471-4491 页,https://aclanthology.org/2022.naacl-main.332/(ibm.com 外部链接)。