強化学習とは

共同執筆者

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

強化学習とは

強化学習 (RL) は、自律エージェントが環境と対話することで意思決定を学習する機械学習プロセスの一種です。

自律エージェントとは、人間のユーザーによる直接の指示に依存せずに、環境に応じて決定を下し、行動できるシステムです。ロボットや自動運転車は自律エージェントの例です。

強化学習では、自律エージェントは人間のユーザーからの指示がなくても試行錯誤によってタスクを実行することを学習します。¹ 特に不確実な環境での順次的な意思決定の問題に対処し、人工知能開発において有望視されています。

教師あり学習と教師なし学習

文献では、強化学習が教師あり学習や教師なし学習と対比されることがよくあります。教師あり学習では、手動でラベル付けされたデータを使用して予測や分類を生成します。教師なし学習は、ラベル付けされていないデータから隠れたパターンを発見して学習することを目的としています。教師あり学習とは対照的に、強化学習では正しい動作または間違った動作のラベル付けされた例は使用されません。しかし、強化学習は、隠れたパターンの情報を抽出するのではなく、試行錯誤と報酬関数によって学習するという点で、教師なし学習とは異なります。²

教師あり学習法と教師なし学習法では、入力データの各レコードはデータセット内の他のレコードから独立していますが、各レコードは共通の基礎となるデータ分散モデルを実現すると想定されます。これらの方法は、予測精度の最大化に従って測定されたモデルのパフォーマンスを使用して予測することを学習します。

対照的に、強化学習は行動することを学び、入力データを相互依存タプル、つまり状態-行動-報酬として編成された順序付けられたデータ・シーケンスであると想定します。強化学習アルゴリズムの多くのアプリケーションは、正の強化を通じて現実世界の生物学的学習方法を模倣することを目的としています。

文献ではこの2つが比較されることはあまりありませんが、強化学習は自己教師あり学習とも異なることに注意してください。後者は、ラベル付けされていないトレーニング・データから派生した疑似ラベルをグラウンド・トゥルースとして使用してモデルの精度を測定する、教師なし学習の一種です。ただし、強化学習は疑似ラベルを生成したり、真実に対して測定したりはしません。これは分類方法ではなく、行動学習者です。いずれにしても、この2つを組み合わせることで、有望な結果が得られてきました。³

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

強化学習プロセス

強化学習は本質的に、エージェント、環境、目標の関係から構成されます。文献では、この関係はマルコフ決定過程（MDP）の観点から広く定式化されています。

マルコフの意思決定プロセス

強化学習エージェントは、環境と対話することで問題について学習します。環境は現在の状態に関する情報を提供します。エージェントはその情報を使用して、実行する行動を決定します。その行動が周囲の環境から報酬信号を取得した場合、エージェントは同様の将来の状態にあるときにその行動を再度実行するように促されます。このプロセスは、その後、新しい状態ごとに繰り返されます。時間の経過とともに、エージェントは報酬と罰から学習し、指定された目標を達成する環境内で行動を実行します。⁴

マルコフ決定プロセスでは、状態空間は環境の状態によって提供されるすべての情報を指します。行動空間は、エージェントが状態内で実行できるすべての行動を表します。⁵

探索と利用のトレードオフ

RLエージェントには、その動作を導く手動でラベル付けされた入力データがないため、環境を探索し、報酬を受け取る行動を見つけるために新しい行動を試行する必要があります。これらの報酬信号から、エージェントは利益を最大化するために報酬を受け取った行動を優先することを学習します。しかし、エージェントは新しい状態と行動の探索も継続する必要があります。そうすることで、その経験を活用して意思決定を改善することができるからです。

したがって、RLアルゴリズムでは、エージェントが以前に報酬を得た状態行動に関する知識をエクスプロイト（Exploitation＝知の深化）し、他の状態行動をエクスプロー（Exploration＝知の探索）する必要があります。エージェントは、Exploration（エクスプローレーション）のみ、またはExploitation（エクスプロイテーション）のみを追求することはできません。継続的に新しい行動を試しながら、最大の累積報酬を生み出す単一の行動（または行動の連鎖）を優先する必要があります。⁶

強化学習の構成要素

エージェント、環境、目標の3つ以外に、強化学習の問題を特徴付ける4の主要なサブ要素があります。

- 方策。これは、認識された環境状態を、その状態にあるときにエージェントが実行する必要がある特定の行動にマッピングすることによって、RLエージェントの動作を定義します。それは基本的な機能の形をとることも、より複雑な計算プロセスの形をとることもできます。例えば、自動運転車を誘導する方策では、歩行者の検出を停止行動にマッピングする場合があります。

- 報酬信号。これはRL問題の目標を指定します。RLエージェントの各行動は、環境から報酬を受け取るか受け取らないかのいずれかになります。エージェントの唯一の目的は、環境からの累積報酬を最大化することです。自動運転車の場合、報酬信号としては、移動時間の短縮、衝突の減少、道路上および適切な車線での走行、極端な減速や加速の回避などが考えられます。この例では、RLがエージェントを誘導するために複数の報酬信号を組み込む可能性があることを示しています。

- 値関数。報酬信号は、前者が即時の利益を示すのに対し、後者は長期的な利益を指定するという点で価値関数とは異なります。価値とは、今後続く可能性のあるすべての状態（およびその現行の報酬）に対する状態の望ましさを指します。自動運転車は、車線を外れ、歩道を走行し、急加速することで移動時間を短縮できるかもしれませんが、後者の3つの行動によって全体的な価値関数が低下する可能性があります。したがって、RLエージェントである車両は、後者の3つの領域での報酬を増やすために、わずかに長い移動時間を交換する可能性があります。

- モデル。これは強化学習システムのオプションのサブ要素です。モデルにより、エージェントは実行可能な行動の環境動作を予測できます。次に、エージェントはモデル予測を使用して、潜在的な結果に基づいて可能な行動方針を決定します。これは、自動運転車を誘導するモデルとなり、最適なルートを予測したり、位置や速度を考慮して周囲の車両から何を期待するかなどを判断するのに役立ちます。⁷一部のモデルベースのアプローチでは、初期学習で人間からの直接的なフィードバックを使用し、その後、自律学習に移行します。

オンライン学習とオフライン学習

エージェントが方策を学習するためのデータを収集する一般的な方法は2つあります。

- オンライン。ここで、エージェントは周囲の環境と対話してデータを直接収集します。このデータは、エージェントがその環境と対話し続けるにつれて、繰り返し処理され、収集されます。

- オフライン。エージェントが環境に直接アクセスできない場合、その環境のログデータを通じて学習できます。これはオフライン学習です。環境と直接やりとりしてモデルをトレーニングすることは事実上困難であるため、研究の大部分はオフライン学習に目を向けるようになりました。⁸

強化学習の種類

強化学習は活発に研究が進められている分野であり、開発者は強化学習に対して無数のアプローチを生み出してきました。特に広く議論されている基礎的な強化学習法としては、動的計画法、モンテカルロ法、時間差分学習の3つがあります。

動的プログラミング

動的計画法では、大きなタスクを小さなタスクに分割します。したがって、問題を離散的な時間ステップで行われる順次的な決定のワークフローとしてモデル化します。それぞれの決定は、結果として生じる可能性のある次の状態に基づいて行われます。特定の行動に対するエージェントの報酬（r）は、その行動（a）、現在の環境状態（s）、および潜在的な次の状態（s’）の関数として定義されます。

この報酬関数は、エージェントの行動を管理する方策（の一部）として使用できます。エージェントの動作に最適な方策を決定することは、強化学習のための動的計画法手法の主要な要素です。ここで、ベルマン方程式を使用します。

ベルマン方程式は以下のとおりです。

つまり、この式は、v_t（s） を、時間 t から意思決定ワークフローの終了までの合計期待報酬として定義します。エージェントは時刻 t に状態 s を占有することから始まると想定します。この式は最終的に、時刻 t における報酬を即時報酬 r_t（s,a）（つまり報酬式）とエージェントの合計期待報酬に分割します。したがって、エージェントは、各状態で報酬信号を受け取る行動を一貫して選択することによって、その価値関数（ベルマン方程式の合計値）を最大化します。⁹

モンテカルロ法

動的計画法はモデルベースであり、報酬を認識し、パターンを識別し、環境をナビゲートするために環境のモデルを構築します。一方、モンテカルロ法ではブラックボックス環境が想定されるため、モデルは不要になります。

動的計画法では、意思決定において潜在的な将来の状態と報酬の信号を予測しますが、モンテカルロ法は完全に経験に基づいており、環境との相互作用を通じてのみ状態、行動、報酬のシーケンスをサンプリングします。したがって、モンテカルロ法は確率分布ではなく試行錯誤を通じて学習します。

モンテカルロ法は、価値関数の決定においても動的計画法と異なります。動的計画法は、連続する状態で報酬を与えられる行動を一貫して選択することにより、最大の累積報酬を求めます。対照的に、モンテカルロ法は各状態と行動のペアのリターンを平均化します。つまり、モンテカルロ法では、特定のエピソード（または計画期間）内のすべての行動が完了するまで待機してから、価値関数を計算し、方策を更新する必要があります。¹⁰

時間差分学習

文献では、時間差分（TD）学習は動的計画法とモンテカルロ法の組み合わせであると広く説明されています。前者と同様に、TDは最終値を待たずに各ステップの後に方策を更新し、将来の状態を推定します。ただし、モンテカルロ法と同様に、TDは環境のモデルを使用するのではなく、環境との未加工の相互作用を通じて学習します。¹¹

その名前の通り、TD学習エージェントは、各状態で予測された報酬と実際に受け取った報酬の差に応じて方策を修正します。つまり、動的計画法とモンテカルロ法では受け取った報酬のみが考慮されますが、TDでは期待値と受け取った報酬の差分をさらに考慮します。この差分を利用して、エージェントはモンテカルロ法とは対照的に、イベント計画期間まで待たずに次のステップの推定値を更新します。¹²

TDには多くのバリエーションがあります。2つの主なバリエーションは、状態–行動–報酬–状態–行動（SARSA）とQ学習です。SARSAは方策に基づくTD方式であり、意思決定方策を評価して改善を試みます。Q学習はオフ方策手法です。オフ方策方式は、2つの方策を使用する方式です。1つは知の深化、つまりエクスプロイテーション用（ターゲット方策）、もう 1 つは動作を生成するための知の探索、つまりエクスプローレーション用（動作方策）です。¹³

その他の手法

強化学習の方法は他にも無数にあります。動的計画法は価値ベースの手法であり、価値関数を最大化することを目的とした方策に従って、推定値に基づいて行動を選択します。対照的に、方策勾配法は、価値関数を参照せずに行動を選択できるパラメーター化された方策を学習します。これらは方策ベースと呼ばれ、高次元環境でより効果的であると考えられています。¹⁴

Actor-critic法では、価値ベースと方策ベースの両方が使用されます。いわゆる「Actor（行動器）」は、どの行動を実行するかを決定する方策勾配であり、「Critic（評価器）」は行動を評価する価値関数です。Actor-critic法は、本質的にはTDの一種です。より具体的には、Actor-critic法は、特定の行動の価値を、その行動自体の報酬だけでなく、行動の報酬に追加する次の状態の可能な値に基づいて評価します。Actor-critic法のメリットは、意思決定において価値関数と方策を実装しているため、実質的に環境との相互作用が少なくて済むことです。¹⁵

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

強化学習の例

ロボティクス

強化学習は予測不可能な環境での意思決定に主眼を置いているため、ロボティクスにおける中心的な関心領域となっています。単純で反復的なタスクを達成する場合、意思決定は簡単な場合があります。しかし、人間の行動をシミュレートしたり、運転を自動化したりするような、より複雑なタスクには、変動性が高く変化しやすい現実世界の環境とのやり取りが伴います。研究によると、ディープ・ニューラル・ネットワークを使用した深層強化学習は、特に一般化と高次元の感覚入力を制御されたシステムの出力にマッピングすることに関して、そのようなタスクを支援することが示されています。¹⁶ 別の研究によると、ロボットによる深層強化学習は収集されたデータ・セットに大きく依存していることが明らかになっており、最近の研究では、現実世界のデータ¹⁷を収集し、以前のデータを再利用¹⁸して強化学習システムを改善する方法が模索されています。

自然言語処理

最近の研究では、自然言語処理技術とツールを活用することが示唆されています。例えば、大規模言語モデル（LLM）は、現実世界の環境をテキストで表現することで、強化学習システムの一般化を改善する可能性があります。¹⁹ 多くの研究では、学習エージェントに連続的な意思決定タスクを指示する際に、インタラクティブなテキスト環境が 3 次元環境に代わる費用対効果の高い代替手段となることが示されています。²⁰ 深層強化学習は、チャットボットにおけるテキストによる意思決定の基盤にもなっています。実際、強化学習はチャットボットの対話応答の改善において、他の方法よりも優れています。²¹