強化学習とは

夜のバンコクのラウンドアバウト交差点の空中写真

共同執筆者

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

強化学習では、エージェントは環境と相互作用することで意思決定を学習し、ロボット工学やその他の意思決定の場面で使用されます。

強化学習(RL)は、自律エージェントによる意思決定に重点を置いた機械学習プロセスの一種です。自律エージェントとは、人間のユーザーによる直接の指示に依存せずに、環境に応じて決定を下し、行動できるシステムです。ロボットや自動運転車は自律エージェントの例です。強化学習では、自律エージェントは人間のユーザーからの指示がなくても試行錯誤によってタスクを実行することを学習します。1 特に不確実な環境での順次的な意思決定の問題に対処し、人工知能開発において有望視されています。

教師あり学習と教師なし学習

文献では、強化学習が教師あり学習や教師なし学習と対比されることがよくあります。教師あり学習では、手動でラベル付けされたデータを使用して予測や分類を生成します。教師なし学習は、ラベル付けされていないデータから隠れたパターンを発見して学習することを目的としています。教師あり学習とは対照的に、強化学習では正しい動作または間違った動作のラベル付けされた例は使用されません。しかし、強化学習は、隠れたパターンの情報を抽出するのではなく、試行錯誤と報酬関数によって学習するという点で、教師なし学習とは異なります。2

教師あり学習法と教師なし学習法では、入力データの各レコードはデータセット内の他のレコードから独立していますが、各レコードは共通の基礎となるデータ分散モデルを実現すると想定されます。これらの方法は、予測精度の最大化に従って測定されたモデルのパフォーマンスを使用して予測することを学習します。

対照的に、強化学習は行動することを学び、入力データを相互依存タプル、つまり状態-行動-報酬として編成された順序付けられたデータ・シーケンスであると想定します。強化学習アルゴリズムの多くのアプリケーションは、正の強化を通じて現実世界の生物学的学習方法を模倣することを目的としています。

文献ではこの2つが比較されることはあまりありませんが、強化学習は自己教師あり学習とも異なることに注意してください。後者は、ラベル付けされていないトレーニング・データから派生した疑似ラベルをグラウンド・トゥルースとして使用してモデルの精度を測定する、教師なし学習の一種です。ただし、強化学習は疑似ラベルを生成したり、真実に対して測定したりはしません。これは分類方法ではなく、行動学習者です。いずれにしても、この2つを組み合わせることで、有望な結果が得られてきました。3

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

強化学習プロセス

強化学習は本質的に、エージェント、環境、目標の関係から構成されます。文献では、この関係はマルコフ決定過程(MDP)の観点から広く定式化されています。

マルコフの意思決定プロセス

強化学習エージェントは、環境と対話することで問題について学習します。環境は現在の状態に関する情報を提供します。エージェントはその情報を使用して、実行する行動を決定します。その行動が周囲の環境から報酬信号を取得した場合、エージェントは同様の将来の状態にあるときにその行動を再度実行するように促されます。このプロセスは、その後、新しい状態ごとに繰り返されます。時間の経過とともに、エージェントは報酬と罰から学習し、指定された目標を達成する環境内で行動を実行します。4

マルコフ決定プロセスでは、状態空間は環境の状態によって提供されるすべての情報を指します。行動空間は、エージェントが状態内で実行できるすべての行動を表します。5

探索と利用のトレードオフ

RLエージェントには、その動作を導く手動でラベル付けされた入力データがないため、環境を探索し、報酬を受け取る行動を見つけるために新しい行動を試行する必要があります。これらの報酬信号から、エージェントは利益を最大化するために報酬を受け取った行動を優先することを学習します。しかし、エージェントは新しい状態と行動の探索も継続する必要があります。そうすることで、その経験を活用して意思決定を改善することができるからです。

したがって、RLアルゴリズムでは、エージェントが以前に報酬を得た状態行動に関する知識をエクスプロイト(Exploitation=知の深化)し、他の状態行動をエクスプロー(Exploration=知の探索)する必要があります。エージェントは、Exploration(エクスプローレーション)のみ、またはExploitation(エクスプロイテーション)のみを追求することはできません。継続的に新しい行動を試しながら、最大の累積報酬を生み出す単一の行動(または行動の連鎖)を優先する必要があります。6

強化学習の構成要素

エージェント、環境、目標の3つ以外に、強化学習の問題を特徴付ける4の主要なサブ要素があります。

- 方策。これは、認識された環境状態を、その状態にあるときにエージェントが実行する必要がある特定の行動にマッピングすることによって、RLエージェントの動作を定義します。それは基本的な機能の形をとることも、より複雑な計算プロセスの形をとることもできます。例えば、自動運転車を誘導する方策では、歩行者の検出を停止行動にマッピングする場合があります。

- 報酬信号。これはRL問題の目標を指定します。RLエージェントの各行動は、環境から報酬を受け取るか受け取らないかのいずれかになります。エージェントの唯一の目的は、環境からの累積報酬を最大化することです。自動運転車の場合、報酬信号としては、移動時間の短縮、衝突の減少、道路上および適切な車線での走行、極端な減速や加速の回避などが考えられます。この例では、RLがエージェントを誘導するために複数の報酬信号を組み込む可能性があることを示しています。

- 値関数。報酬信号は、前者が即時の利益を示すのに対し、後者は長期的な利益を指定するという点で価値関数とは異なります。価値とは、今後続く可能性のあるすべての状態(およびその現行の報酬)に対する状態の望ましさを指します。自動運転車は、車線を外れ、歩道を走行し、急加速することで移動時間を短縮できるかもしれませんが、後者の3つの行動によって全体的な価値関数が低下する可能性があります。したがって、RLエージェントである車両は、後者の3つの領域での報酬を増やすために、わずかに長い移動時間を交換する可能性があります。

- モデル。これは強化学習システムのオプションのサブ要素です。モデルにより、エージェントは実行可能な行動の環境動作を予測できます。次に、エージェントはモデル予測を使用して、潜在的な結果に基づいて可能な行動方針を決定します。これは、自動運転車を誘導するモデルとなり、最適なルートを予測したり、位置や速度を考慮して周囲の車両から何を期待するかなどを判断するのに役立ちます。7一部のモデルベースのアプローチでは、初期学習で人間からの直接的なフィードバックを使用し、その後、自律学習に移行します。

オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

オンライン学習とオフライン学習

エージェントが方策を学習するためのデータを収集する一般的な方法は2つあります。

- オンライン。ここで、エージェントは周囲の環境と対話してデータを直接収集します。このデータは、エージェントがその環境と対話し続けるにつれて、繰り返し処理され、収集されます。

- オフライン。エージェントが環境に直接アクセスできない場合、その環境のログデータを通じて学習できます。これはオフライン学習です。環境と直接やりとりしてモデルをトレーニングすることは事実上困難であるため、研究の大部分はオフライン学習に目を向けるようになりました。8

強化学習の種類

強化学習は活発に研究が進められている分野であり、開発者は強化学習に対して無数のアプローチを生み出してきました。特に広く議論されている基礎的な強化学習法としては、動的計画法、モンテカルロ法、時間差分学習の3つがあります。

動的プログラミング

動的計画法では、大きなタスクを小さなタスクに分割します。したがって、問題を離散的な時間ステップで行われる順次的な決定のワークフローとしてモデル化します。それぞれの決定は、結果として生じる可能性のある次の状態に基づいて行われます。特定の行動に対するエージェントの報酬(r)は、その行動(a)、現在の環境状態(s)、および潜在的な次の状態(s’)の関数として定義されます。

この報酬関数は、エージェントの行動を管理する方策(の一部)として使用できます。エージェントの動作に最適な方策を決定することは、強化学習のための動的計画法手法の主要な要素です。ここで、ベルマン方程式を使用します。

ベルマン方程式は以下のとおりです。

つまり、この式は、vt(s) を、時間 t から意思決定ワークフローの終了までの合計期待報酬として定義します。エージェントは時刻 t に状態 s を占有することから始まると想定します。この式は最終的に、時刻 t における報酬を即時報酬 rt(s,a)(つまり報酬式)とエージェントの合計期待報酬に分割します。したがって、エージェントは、各状態で報酬信号を受け取る行動を一貫して選択することによって、その価値関数(ベルマン方程式の合計値)を最大化します。9

モンテカルロ法

動的計画法はモデルベースであり、報酬を認識し、パターンを識別し、環境をナビゲートするために環境のモデルを構築します。一方、モンテカルロ法ではブラックボックス環境が想定されるため、モデルは不要になります。

動的計画法では、意思決定において潜在的な将来の状態と報酬の信号を予測しますが、モンテカルロ法は完全に経験に基づいており、環境との相互作用を通じてのみ状態、行動、報酬のシーケンスをサンプリングします。したがって、モンテカルロ法は確率分布ではなく試行錯誤を通じて学習します。

モンテカルロ法は、価値関数の決定においても動的計画法と異なります。動的計画法は、連続する状態で報酬を与えられる行動を一貫して選択することにより、最大の累積報酬を求めます。対照的に、モンテカルロ法は各状態と行動のペアのリターンを平均化します。つまり、モンテカルロ法では、特定のエピソード(または計画期間)内のすべての行動が完了するまで待機してから、価値関数を計算し、方策を更新する必要があります。10

時間差分学習

文献では、時間差分(TD)学習は動的計画法とモンテカルロ法の組み合わせであると広く説明されています。前者と同様に、TDは最終値を待たずに各ステップの後に方策を更新し、将来の状態を推定します。ただし、モンテカルロ法と同様に、TDは環境のモデルを使用するのではなく、環境との未加工の相互作用を通じて学習します。11

その名前の通り、TD学習エージェントは、各状態で予測された報酬と実際に受け取った報酬の差に応じて方策を修正します。つまり、動的計画法とモンテカルロ法では受け取った報酬のみが考慮されますが、TDでは期待値と受け取った報酬の差分をさらに考慮します。この差分を利用して、エージェントはモンテカルロ法とは対照的に、イベント計画期間まで待たずに次のステップの推定値を更新します。12

TDには多くのバリエーションがあります。2つの主なバリエーションは、状態–行動–報酬–状態–行動(SARSA)とQ学習です。SARSAは方策に基づくTD方式であり、意思決定方策を評価して改善を試みます。Q学習はオフ方策手法です。オフ方策方式は、2つの方策を使用する方式です。1つは知の深化、つまりエクスプロイテーション用(ターゲット方策)、もう 1 つは動作を生成するための知の探索、つまりエクスプローレーション用(動作方策)です。13

その他の手法

強化学習の方法は他にも無数にあります。動的計画法は価値ベースの手法であり、価値関数を最大化することを目的とした方策に従って、推定値に基づいて行動を選択します。対照的に、方策勾配法は、価値関数を参照せずに行動を選択できるパラメーター化された方策を学習します。これらは方策ベースと呼ばれ、高次元環境でより効果的であると考えられています。14

Actor-critic法では、価値ベースと方策ベースの両方が使用されます。いわゆる「Actor(行動器)」は、どの行動を実行するかを決定する方策勾配であり、「Critic(評価器)」は行動を評価する価値関数です。Actor-critic法は、本質的にはTDの一種です。より具体的には、Actor-critic法は、特定の行動の価値を、その行動自体の報酬だけでなく、行動の報酬に追加する次の状態の可能な値に基づいて評価します。Actor-critic法のメリットは、意思決定において価値関数と方策を実装しているため、実質的に環境との相互作用が少なくて済むことです。15

強化学習の例

ロボティクス

強化学習は予測不可能な環境での意思決定に主眼を置いているため、ロボティクスにおける中心的な関心領域となっています。単純で反復的なタスクを達成する場合、意思決定は簡単な場合があります。しかし、人間の行動をシミュレートしたり、運転を自動化したりするような、より複雑なタスクには、変動性が高く変化しやすい現実世界の環境とのやり取りが伴います。研究によると、ディープ・ニューラル・ネットワークを使用した深層強化学習は、特に一般化と高次元の感覚入力を制御されたシステムの出力にマッピングすることに関して、そのようなタスクを支援することが示されています。16 別の研究によると、ロボットによる深層強化学習は収集されたデータ・セットに大きく依存していることが明らかになっており、最近の研究では、現実世界のデータ17を収集し、以前のデータを再利用18して強化学習システムを改善する方法が模索されています。

自然言語処理

最近の研究では、自然言語処理技術とツールを活用することが示唆されています。例えば、大規模言語モデル(LLM)は、現実世界の環境をテキストで表現することで、強化学習システムの一般化を改善する可能性があります。19 多くの研究では、学習エージェントに連続的な意思決定タスクを指示する際に、インタラクティブなテキスト環境が 3 次元環境に代わる費用対効果の高い代替手段となることが示されています。20 深層強化学習は、チャットボットにおけるテキストによる意思決定の基盤にもなっています。実際、強化学習はチャットボットの対話応答の改善において、他の方法よりも優れています。21

関連ソリューション
IBM watsonx.ai

AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。

watsonx.aiの詳細はこちら
人工知能ソリューション

IBMの業界をリードするAIの専門知識とソリューションのポートフォリオを活用して、AIをビジネスの業務に利用しましょう。

AIソリューションの詳細はこちら
人工知能(AI)コンサルティングおよびサービス

IBMコンサルティングAIサービスは、企業がAIをトランスフォーメーションに活用する方法を再考するのに役立ちます。

AIサービスの詳細はこちら
次のステップへ

AI開発ライフサイクル全体にわたる機能にワンストップでアクセスできます。使いやすいインターフェース、ワークフロー、業界標準のAPIやSDKを利用して、強力なAIソリューションを構築できます。

watsonx.aiの詳細はこちら デモの予約
脚注

1 Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016.

2 Peter Stone, “Reinforcement Learning,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

3 Xiang Li, Jinghuan Shang, Srijan Das, Michael Ryoo, "Does Self-supervised Learning Really Improve Reinforcement Learning from Pixels?" Advances in Neural Information Processing Systems, Vol. 35, 2022, pp. 30865-30881, https://proceedings.neurips.cc/paper_files/paper/2022/hash/c75abb33341363ee874a71f81dc45a3a-Abstract-Conference.html.

4 Richard Sutton and Andrew Barto, Introduction to Reinforcement Learning, 2nd edition, MIT Press, 2018. Michael Hu, The Art of Reinforcement Learning: Fundamentals, Mathematics, and Implementations with Python, Apress, 2023.

5 Brandon Brown and Alexander Zai, Deep Reinforcement Learning in Action, Manning Publications, 2020.

6 Richard Sutton and Andrew Barto, Introduction to Reinforcement Learning, 2nd edition, MIT Press, 2018.
Brandon Brown and Alexander Zai, Deep Reinforcement Learning in Action, Manning Publications, 2020.

7 Richard Sutton and Andrew Barto, Introduction to Reinforcement Learning, 2nd edition, MIT Press, 2018. B Ravi Kiran, Ibrahim Sobh, Victor Talpaert, Patrick Mannion, Ahmad A. Al Sallab, Senthil Yogamani, and Patrick Pérez, "Deep Reinforcement Learning for Autonomous Driving: A Survey," IEEE Transactions on Intelligent Transportation Systems, Vol. 23, No. 6, 2022, pp. 4909-4926, https://ieeexplore.ieee.org/document/9351818.

8 Sergey Levine, Aviral Kumar, George Tucker, and Justin Fu, "Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems," 2020, https://arxiv.org/abs/2005.01643. Julian Schrittwieser, Thomas Hubert, Amol Mandhane, Mohammadamin Barekatain, Ioannis Antonoglou, and David Silver, "Online and Offline Reinforcement Learning by Planning with a Learned Model," Advances in Neural Information Processing Systems, Vol. 34, 2021, pp. 27580-27591, https://proceedings.neurips.cc/paper_files/paper/2021/hash/e8258e5140317ff36c7f8225a3bf9590-Abstract.html.

9 Martin Puterman and Jonathan Patrick, “Dynamic Programming,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

10 Richard Sutton and Andrew Barto, Introduction to Reinforcement Learning, 2nd edition, MIT Press, 2018. Phil Winder, Reinforcement Learning: Industrial Applications of Intelligent Agents, O’Reilly, 2020.

11 Richard Sutton and Andrew Barto, Introduction to Reinforcement Learning, 2nd edition, MIT Press, 2018.

12 Michael Hu, The Art of Reinforcement Learning: Fundamentals, Mathematics, and Implementations with Python, Apress, 2023.

13 Richard Sutton and Andrew Barto, Introduction to Reinforcement Learning, 2nd edition, MIT Press, 2018.

14 Richard Sutton and Andrew Barto, Introduction to Reinforcement Learning, 2nd edition, MIT Press, 2018. Michael Hu, The Art of Reinforcement Learning: Fundamentals, Mathematics, and Implementations with Python, Apress, 2023.

15 Richard Sutton and Andrew Barto, Introduction to Reinforcement Learning, 2nd edition, MIT Press, 2018.

16 Julian Ibarz, Jie Tan, Chelsea Finn, Mrinal Kalakrishnan, Peter Pastor, and Sergey Levine, "How to train your robot with deep reinforcement learning: lessons we have learned," The International Journal of Robotics Research, Vol. 40, 2021, pp. 969-721, https://journals.sagepub.com/doi/full/10.1177/0278364920987859.

17 Saminda Wishwajith Abeyruwan, Laura Graesser, David B D’Ambrosio, Avi Singh, Anish Shankar, Alex Bewley, Deepali Jain, Krzysztof Marcin Choromanski, and Pannag R Sanketi, "i-Sim2Real: Reinforcement Learning of Robotic Policies in Tight Human-Robot Interaction Loops," Proceedings of The 6th Conference on Robot Learning, PMLR, No. 205, 2023, pp. 212-224, https://proceedings.mlr.press/v205/abeyruwan23a.html.

18 Homer Rich Walke, Jonathan Heewon Yang, Albert Yu, Aviral Kumar, Jędrzej Orbik, Avi Singh, and Sergey Levine, "Don’t Start From Scratch: Leveraging Prior Data to Automate Robotic Reinforcement Learning," Proceedings of The 6th Conference on Robot Learning, PMLR, No. 205, 2023, 1652-1662, https://proceedings.mlr.press/v205/walke23a.html.

19 Nikolaj Goodger, Peter Vamplew, Cameron Foale, and Richard Dazeley, "Language Representations for Generalization in Reinforcement Learning," Proceedings of The 13th Asian Conference on Machine Learning, PMLR, No. 157, 2021, pp. 390-405, https://proceedings.mlr.press/v157/goodger21a.html. Yuqing Du, Olivia Watkins, Zihan Wang, Cédric Colas, Trevor Darrell, Pieter Abbeel, Abhishek Gupta, and Jacob Andreas, "Guiding Pretraining in Reinforcement Learning with Large Language Models," Proceedings of the 40th International Conference on Machine Learning, PMLR, No. 202, 2023, pp. 8657-8677, https://proceedings.mlr.press/v202/du23f.html. Kolby Nottingham, Prithviraj Ammanabrolu, Alane Suhr, Yejin Choi, Hannaneh Hajishirzi, Sameer Singh, and Roy Fox, "Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling," Proceedings of the 40th International Conference on Machine Learning, PMLR, 202, 2023, pp. 26311-26325, https://proceedings.mlr.press/v202/nottingham23a.html.

20 Ruoyao Wang and Peter Jansen and Marc-Alexandre Côté and Prithviraj Ammanabrolu, "ScienceWorld: Is your Agent Smarter than a 5th Grader?" Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, 2022, pp. 11279-11298, https://aclanthology.org/2022.emnlp-main.775/. Peter Jansen, "A Systematic Survey of Text Worlds as Embodied Natural Language Environments," Proceedings of the 3rd Wordplay: When Language Meets Games Workshop, 2022, pp. 1-15, https://aclanthology.org/2022.wordplay-1.1.

21 Paloma Sodhi, Felix Wu, Ethan R. Elenberg, Kilian Q Weinberger, and Ryan Mcdonald, "On the Effectiveness of Offline RL for Dialogue Response Generation," Proceedings of the 40th International Conference on Machine Learning, PMLR, No. 202, 2023, pp. 32088-32104, https://proceedings.mlr.press/v202/sodhi23a.html. Siddharth Verma, Justin Fu, Sherry Yang, and Sergey Levine, "CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement Learning," Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2022, pp. 4471-4491, https://aclanthology.org/2022.naacl-main.332/.