強化学習は、ビデオ・ゲームやシミュレーションでは優れていますが、現実の世界では苦労しています。問題は何なのでしょうか。これらのシステムは、はこちらすることで学習します。仮想環境では強みですが、現実には大きなリスクがあります。「探索はRLの最大のセールスポイントであると同時に、実際の使用における最大の制限要因でもあります」とRiemerは説明し、両研究者がこの移行を重大な課題と見なす理由を強調します。

「現実世界では、シミュレーション以外に、探索によってエージェントが予測不可能な作業を行う可能性があり、これはAIの安全性にとって大きな懸念事項です」とRiemerは説明します。「また、探索を許容できるユースケースであっても、RLのサンプル効率には問題があります。それは、同じ状況下にある人間が探求する範囲をはるかに超えた領域を探求する必要があるように感じられることがよくあります。」

Barto氏は、同様の課題について次のように指摘しています。「シミュレーションは世界で実際にエクスペリエンスするよりもはるかに速く実行できるため、はるかに時間がかかります」さらに彼は、「それがロボットであれば、試行錯誤を通じて学習します。エラーが落下や機械の損傷につながるのであれば、それが問題です。」と付け加えました。

実際のデプロイメントに対するこの慎重なアプローチは、実用性と安全性の両方の考慮事項から生じています。Barto氏は、「システムが非常に予期せず、問題を引き起こす可能性のあるものを導き出さないように」報酬関数を慎重に指定する必要性を強調しています。

課題は単なる実装にとどまりません。Riemerが指摘するように、強化学習システムは変化する環境にも適応する必要があります。「継続的強化学習は、事前トレーニング中やシミュレーターでのトレーニング中に世界が以前とは異なる場合など、現実世界の環境の変化に強化学習エージェントがどのように適応できるかという問題を研究します。」

この適応性により、Riemerの言う「安定性と可塑性のジレンマ」という古典的な問題が生じます。この問題は、エージェントが新しいエクスペリエンスの性能と古いエクスペリエンスの性能を優先順位付けする方法を決定しなければならない問題です。以前の知識を維持しながら新しい状況に適応するというバランスを取ることは、現場における継続的な課題を表しています。

これらの障害にもかかわらず、研究者たちは強化学習と他のAIアプローチを組み合わせることで、有望な解決策を見つけています。Riemerは、大規模言語モデルとの統合に特に期待を寄せています。「RLに実際に欠けていたのは、世界を十分に理解して、より論理的に探索を構造化できる能力でした。私たちは、LLMが世界的な知識の上にRLトレーニングを構築するための強力な世界的基盤として使用できるという証拠を見つけ始めています。これは、RLの現実世界のユースケースを実現するという観点から非常にエキサイティングです。」

強化学習とその他のAI技術の統合は急速に進化しています。「私たちが見ている大きな傾向は、RLがより効率的に詳細はこちらするために使用できる世界の表現を構築するのに、他の方法が役立つことです」とRiemerは言います。「たとえば、言語分野では、RLは事前にトレーニングされたLLMに加えて使用される非常に効果的なツールになっています。」

この補完的な関係は両方の方向で機能します。強化学習は言語モデルを強化し、言語モデルは世界をより適切に表現した強化学習システムを提供します。「ロボティクスやAIエージェントの構築のようなユースケースでも、視覚機能も備えたVLMに組み込まれた知識とRLを組み合わせることで、より効果的なものになりつつあります」とRiemerは説明します。

一般人工知能（AGI）、つまり複数の領域で人間のような認知能力を持つシステムに話題が及ぶと、Barto氏は研究目標としての可能性と望ましい性の両方について懐疑的な見方を表明します。

「人間レベルの知能を目標にすることの有用性がわかりません」と彼は率直に述べています。「人間の知能がどのように機能するかを理解しようとすることは、人間レベルの機械を作ろうとすることとは異なります」

Barto氏が特に興味をそそられるフロンティアとして挙げているのは、複数の学習エージェントが異なる目的をもって相互作用するマルチエージェント強化学習システムです。このアプローチは、AI開発に影響を与えるだけでなく、私たち自身の脳がどのように機能するかを明らかにするかもしれません。

「ニューロンは強化学習エージェントであり、脳は相互作用するエージェントの社会であり、それ自体が異なる目標を持つ可能性があるという仮説」は依然として「珍しい仮説」ですが、神経科学にとって潜在的な示唆を与える可能性があります。

Barto氏にとって、強化学習の最も価値ある成果は、人間のような知能を創造することではなく、人間の生活を改善する特定の問題を解決することでしょう。これは、おそらくチューリング賞自体よりも意味のある遺産です。