人工知能が私たちの世界をますます形成する中、創設者の1人は、誇大広告や恐怖に対して警告しています。
Andrew Barto氏は最近、コンピューター界最高の栄誉であるチューリング賞を受賞したが、強化学習の開発に数十年を費やしてきました。このテクノロジーは現在、ゲームをプレイするAIチャンピオンから創薬システム、そして今日の大規模な言語モデルの背後にある推論能力まで、あらゆるものを動かしています。IBMとのインタビューの中でBarto氏は、技術最適化とDoomsdayのシナリオを明らかにするAIの進歩、可能性、限界についてのアセスメントを述べています。
Barto氏が開発に貢献したインタラクションから学習する計算アプローチである強化学習は、今日のAIのランドスケープに遍在しています。多くの人が、複雑なゲームで世界チャンピオンを破ったというような、見出しを飾るような成果を連想する一方で、バルトはより実用的な領域で最も有意義なアプリケーションができると考えています。
「すでに多くの場所で、特にロボティクスにおいて多くの場所で使用されています」と彼は説明します。「強化学習を使用して、家庭の人々や障害を持つ人々を助ける非常に詳細で便利な動きをできるようにするロボットには大きな可能性があります」
Barto氏は、強化学習によって長期にわたって治療プロトコルを最適化する医療アプリケーションに焦点を当てています。これは、まさにこのテクノロジーが得意とする一連の意思決定問題です。
「強化学習の主要な機能の1つは、時間の経過とともに多数の意思決定が行われ、それぞれのケースでシステムの状態が前の決定に依存する連続決定問題に対処できることです」と彼は言います。遅延する報酬（一連の行動の後にのみ実現する結果）を処理するこの能力は、強化学習アルゴリズムが取り組む基本的な課題を表しています。
IBM® AI Foundations Labのディープラーニング研究エンジニア、Matt Riemerは、さらに最近のアプリケーションを指しています。
「研究者たちは強化学習ベースのアプローチを創薬の問題に適用することに成功し、非常に有望な成果が得られ始めたばかりです」と彼は考察するにインタビューしました。「また、最近では、水処理プロセスの最適化と自動化などの重要な問題で成功を収めています」
今日のチャットボットの素晴らしい能力の背後には、強化学習があります。Riemerは次のように説明しています。「LLMの最近の成功により、RLのユースケースが注目され、その機能が向上していることがわかりました」最初の主要なアプリケーションは、RLHF（人間のフィードバックからの強化学習）と呼ばれ、これらのシステムが人間の要望により合致する応答を生成するのに役立ちます。
大規模言語モデルは、人間のようなテキストを生成する能力で世間の注目を集めていますが、その開発は強化学習によるものです。Riemerは次のように説明しています。「最近では、LLMの機能を向上させる一連の思考プロセスを学習する、いわゆる「思考」モデルをトレーニングするための最も重要なアプローチとして、RLが台頭しています」
数学の問題は、こうしたシステムの理想的なトレーニングの場となります。「数学的推論のような問題では、「エージェントは問題に正しく答えたかどうか」という検証可能な報酬を構築するのが簡単です」とRiemerは説明します。こうした明らかな答えは、同氏が言う「擬似シミュレーション環境」と呼んでいるものであり、AIが繰り返し実行することを通じて学習できます。
強化学習の影響は、学術研究や特殊なアプリケーションを超えて広がります。その影響は、日常ユーザーと対話するテクノロジーにおいてますます感じられます。「この分野では、Webブラウザーやその他のツールと相互作用してユーザーをよりよく支援する「AIエージェント」の開発が始まると、RLがさらに重要な役割を果たすようになるため、これもまた始まりに過ぎないでしょう」とRiemerは予測しています。
Barto氏は、数多くの技術的誇大宣伝サイクルを目の当たりにしてきた科学者特有の慎重な楽観主義を保っています。AIの安全性や人間との整合性について尋ねられた際、彼は課題であることを認めています。つまり、AIシステムが人間の価値観に基づいて行動することを保証することです。
「整合の問題は重要な問題です」と彼は言います。「RLシステムがAIに、システムを使用する人間の価値観を組み込むように指示できることを期待しています。ですから、そうなることを願っていますそのための解決策は分かりません。」
AIの価値に関するインスピレーションを求めているBarto氏は、私たちの脳に目を向けます。「当社の報酬機能は、何百万年もかけて進化したメカニズムから来ています」と彼は説明します。単純なコンピューター報酬とは異なり、人間のモチベーションは、先祖が生き続け、繁殖し続けてきた複雑な進化の圧力から生まれます。
この進化的な視点は、システムが1つの報酬信号ではなく複数の報酬信号に応答する多基準強化学習についての考え方を示しています。これは、人間の脳のさまざまな部分がさまざまな形式のフィードバックを処理する方法を反映している可能性があります。
「多基準強化学習は非常に重要なことだと思います」とBarto氏は述べています。「報酬機能が1つあるのではなく、複数の報酬機能がある場合があります。例えば、脳の異なる部分など、おそらく異なる信号を受け取った場合です」
強化学習は、ビデオ・ゲームやシミュレーションでは優れていますが、現実の世界では苦労しています。問題は何なのでしょうか。これらのシステムは、はこちらすることで学習します。仮想環境では強みですが、現実には大きなリスクがあります。「探索はRLの最大のセールスポイントであると同時に、実際の使用における最大の制限要因でもあります」とRiemerは説明し、両研究者がこの移行を重大な課題と見なす理由を強調します。
「現実世界では、シミュレーション以外に、探索によってエージェントが予測不可能な作業を行う可能性があり、これはAIの安全性にとって大きな懸念事項です」とRiemerは説明します。「また、探索を許容できるユースケースであっても、RLのサンプル効率には問題があります。それは、同じ状況下にある人間が探求する範囲をはるかに超えた領域を探求する必要があるように感じられることがよくあります。」
Barto氏は、同様の課題について次のように指摘しています。「シミュレーションは世界で実際にエクスペリエンスするよりもはるかに速く実行できるため、はるかに時間がかかります」さらに彼は、「それがロボットであれば、試行錯誤を通じて学習します。エラーが落下や機械の損傷につながるのであれば、それが問題です。」と付け加えました。
実際のデプロイメントに対するこの慎重なアプローチは、実用性と安全性の両方の考慮事項から生じています。Barto氏は、「システムが非常に予期せず、問題を引き起こす可能性のあるものを導き出さないように」報酬関数を慎重に指定する必要性を強調しています。
課題は単なる実装にとどまりません。Riemerが指摘するように、強化学習システムは変化する環境にも適応する必要があります。「継続的強化学習は、事前トレーニング中やシミュレーターでのトレーニング中に世界が以前とは異なる場合など、現実世界の環境の変化に強化学習エージェントがどのように適応できるかという問題を研究します。」
この適応性により、Riemerの言う「安定性と可塑性のジレンマ」という古典的な問題が生じます。この問題は、エージェントが新しいエクスペリエンスの性能と古いエクスペリエンスの性能を優先順位付けする方法を決定しなければならない問題です。以前の知識を維持しながら新しい状況に適応するというバランスを取ることは、現場における継続的な課題を表しています。
これらの障害にもかかわらず、研究者たちは強化学習と他のAIアプローチを組み合わせることで、有望な解決策を見つけています。Riemerは、大規模言語モデルとの統合に特に期待を寄せています。「RLに実際に欠けていたのは、世界を十分に理解して、より論理的に探索を構造化できる能力でした。私たちは、LLMが世界的な知識の上にRLトレーニングを構築するための強力な世界的基盤として使用できるという証拠を見つけ始めています。これは、RLの現実世界のユースケースを実現するという観点から非常にエキサイティングです。」
強化学習とその他のAI技術の統合は急速に進化しています。「私たちが見ている大きな傾向は、RLがより効率的に詳細はこちらするために使用できる世界の表現を構築するのに、他の方法が役立つことです」とRiemerは言います。「たとえば、言語分野では、RLは事前にトレーニングされたLLMに加えて使用される非常に効果的なツールになっています。」
この補完的な関係は両方の方向で機能します。強化学習は言語モデルを強化し、言語モデルは世界をより適切に表現した強化学習システムを提供します。「ロボティクスやAIエージェントの構築のようなユースケースでも、視覚機能も備えたVLMに組み込まれた知識とRLを組み合わせることで、より効果的なものになりつつあります」とRiemerは説明します。
一般人工知能（AGI）、つまり複数の領域で人間のような認知能力を持つシステムに話題が及ぶと、Barto氏は研究目標としての可能性と望ましい性の両方について懐疑的な見方を表明します。
「人間レベルの知能を目標にすることの有用性がわかりません」と彼は率直に述べています。「人間の知能がどのように機能するかを理解しようとすることは、人間レベルの機械を作ろうとすることとは異なります」
Barto氏が特に興味をそそられるフロンティアとして挙げているのは、複数の学習エージェントが異なる目的をもって相互作用するマルチエージェント強化学習システムです。このアプローチは、AI開発に影響を与えるだけでなく、私たち自身の脳がどのように機能するかを明らかにするかもしれません。
「ニューロンは強化学習エージェントであり、脳は相互作用するエージェントの社会であり、それ自体が異なる目標を持つ可能性があるという仮説」は依然として「珍しい仮説」ですが、神経科学にとって潜在的な示唆を与える可能性があります。
Barto氏にとって、強化学習の最も価値ある成果は、人間のような知能を創造することではなく、人間の生活を改善する特定の問題を解決することでしょう。これは、おそらくチューリング賞自体よりも意味のある遺産です。
