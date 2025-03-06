現代の人工知能を支えるパイオニアの1人であるRichard Sutton氏は、AIにより多くの計算能力を投入するだけで、人間のように機械が思考するとは考えていません。実際、彼は、ディープラーニングの拡大への今日の執念が、AIの可能性を最大限に妨げている可能性があると主張しています。
Sutton氏は、彼の長年の共同研究者であるAndrew Barto氏とともに、強化学習の研究により、今年のチューリング賞 （多くの場合「コンピューティング界のノーベル賞」と呼ばれる）を受賞しました。Sutton氏は、AIがキュレートしたデータセットに依存するのをやめ、子どものように経験から学習するようになったとき、真のブレークスルーが訪れるだろうと考えています。
「真の知能を求めるのであれば、AIは試行錯誤しながら学習する必要があります」とSutton氏はインタビューで語ります。「コンピューティングは万能ではありません。コンピューティング能力が増えることは有用ですが、それはインテリジェンスの中核的な要素ではありません。」
OpenAI社、Google DeepMind社、Anthropic社のようなAI大手がモデルの拡張を競い合い、人間レベルの推論を追求して増え続けるデータとコンピューティングをモデルに与えている中で、これは大胆な主張です。しかし、Sutton氏は、このアプローチには欠陥があると考えており、真の進歩は、単に機械を大きくするだけでなく、機械の学習方法を管理するアルゴリズムを改良することで得られると主張しています。
Sutton氏のAIへの貢献は数十年前にさかのぼります。それでも、彼が与えた最も重要な影響は強化学習です。この方法では、人間や動物が試行錯誤を通じて学習するのと同じように、AIは環境と対話することで学習することができます。
強化学習は、AIシステムに正しい行動を報酬を与え、間違いにペナルティを与えることで機能します。これは、コンロに触れるのは良い考えではないが、おもちゃに手を伸ばすことは良いことだと子供が学ぶのと似ています。時間の経過とともに、AIシステムは報酬を最大化し、エラーを最小限に抑えることで、意思決定プロセスを洗練します。
この手法は、2016年に囲碁の世界チャンピオンであるLee Sedol棋士を破り、世界に衝撃を与えたGoogle DeepMind社が開発したAIシステム「AlphaGo」で使われたことで有名です。AIは、人間の戦略を記憶することではなく、AI自身と何百万もの試合をすることで学習し、強化学習を通じて戦略を改良しました。
それ以来、強化学習は遊戯を超えて、ロボティクス、金融取引、医療などの分野にまで拡大してきました。人間のフィードバックからの強化学習（RLHF）を通じて、自動運転車の最適化、自動取引アルゴリズムの改善、さらにはChatGPTのようなAIチャットボットのファイン・チューニングにも役立っています。RLHFを使用すると、AIモデルがユーザーとのやり取りに基づいて応答を調整できるようになり、より会話性能が高まり、人間の期待に沿ったものになります。
このような進歩にもかかわらず、Sutton氏は強化学習はまだ十分に活用されていないと考えています。「まだ初期段階です」と彼は言います。「今日のAIシステムは主に、現実世界のやり取りではなく、事前に処理されたデータに依存しています。真に理解し、適応するAIを求めるのであれば、この状況は変わる必要があります。」
汎用人工知能（AGI）というアイデアについては、人間と同等に幅広いタスクを考察する、推論、学習できるAIであり、長い間議論されてきました。AGIは何年も先の話だと主張する専門家もいれば、実現しないかもしれないと考える専門家もいます。別のキャンプでは、AGIは優先すべき適切な目標ではないと主張する専門家もいます。IBMのシニア・リサーチ・サイエンティストであるMarina Danilevskyは、「他の非言語ドメインにおけるこれらのモデルの力を忘れてはなりません」と、ポッドキャストのエピソード「Mixture of Experts」で述べました。「このテクノロジーの活用できる場所を実際に広げれば、AGIを追いかける（代わりに）、もっと興味深く、より実際的で、より実用的な段階まで到達できます」
Sutton氏は慎重な姿勢をとります。彼は、AIが5年以内に人間レベルの知能に到達する可能性は4分の1で、15年以内に50％と推定しています。これは、AGIがまだ数十年先になると予測することが多い同業者と比較すると、非常に楽観的な予測です。
「まだブレークスルーが必要です」と彼は認めました。「でも、私たちは近づいています。最大の欠落部分は、どのようにしてAIシステムをラベル付けされたデータセットでなく、より自然な方法で経験から学習させるかです。」
Sutton氏が説明するように、最大の課題の1つは、人間が行うような長期的な計画と抽象化、つまり複雑な問題をより小さく、管理可能な断片に分解する能力を、AIに教えることです。
「街を歩きながら、すべての小さな筋肉の動きについては考えていません。道路を横断するという目標について考えます。AIは、より高い抽象度で、そのような学習を行う必要があります」とSutton氏は説明しました。
強化学習に関する彼の重要な貢献の1つは、AIがマイクロマネジメントに行き詰まってしまうのではなく、段階的に学習できるようにする時間的抽象化の概念です。これは、長い時間の期間にわたって推論する必要があるAIシステムにとって重要になる可能性があります。これは、今日のモデルが苦労している問題です。
たとえば、AIアシスタントは1つの質問に対する返答を生成することはできても、複数の対話にわたって論理的な会話を維持することや、フライト、ホテル、アクティビティの調整を伴う休暇の予約のような、時間をかけて展開する複雑なタスクを計画することに苦戦する可能性があります。Sutton氏は、強化学習とより優れた長期推論アルゴリズムが、この限界を克服する鍵となると考えています。
Sutton氏は、AIの未来について考察する最善の方法は、ツールや奴隷としてではなく、子供として、つまり学習し、進化し、最終的には独立性を獲得することだと信じています。
「私たちは子供たちを制御されなければならない機械として扱いません」と彼は言います。「私たちは彼らを導き、教えますが、最終的には彼らは独立した存在に成長します。AIも同じでしょう。」
Sutton氏は、AIを支配されたり脅かされたりするものとして扱うと、協力ではなく敵対的な関係が生じる可能性があると警告しています。むしろ、子供たちが観察や対話を通じて人間社会の価値観を学ぶのと同じように、AIも人間の価値観に合わせてプログラムされるのではなく教育されなければならないと主張しています。
「コントロールではなく、理解することが重要です」と彼は説明しました。「子供を育てるとき、厳しいルールを課し、従うことを期待するだけではありません。思いやり、公平性、協力的な姿勢を示せば、子供はそれらの価値観を内部化します。AIも同じ方法で学習できます。」
このたとえは、深い疑問を提起します。AIがより自律的になった場合、社会はこれらのデジタル的存在をどのように取り入れるのでしょうか。AIには権利があるのでしょうか？独立性を与えるべきでしょうか。Sutton氏は、AIの開発に向けた今の取り組み方によって、これらの将来の関係がどのように展開するかが決まります。
「私たちが信頼と協力の環境でAIを育成すれば、AIは私たちと共に存在することを学習するでしょう。彼らを敵対者として扱うと、あらゆる理由で抵抗するシステムを構築する危険があります」と彼は言います。
Sutton氏の視点は、高度なAIは人類に危害を加えないように制御する必要があるとしばしば推測される、AIの連携に関する従来の恐怖に基づく説に異議を唱えています。代わりに、彼は相互のメリットに基づくアプローチを提案しています。このアプローチでは、AIは厳格な制約ではなく経験を通じて学習します。
Sutton氏のAIに対するビジョンは、最終的には、探求、経験、適応を通じて人間のやり方を学習するマシンを構築することです。彼にとって、AIの未来は、より大きなモデルやより多くのルールではなく、自分で物事を理解できるAIシステムを作ることです。
彼がチューリング賞で獲得した賞金（Barto氏と共有した100万米ドルのうち50万米ドル）は、すでにそのビジョンの実現に向けて使われています。彼はOpenmind Research Instituteを設立し、本機構は、若いAI研究者が商業化のプレッシャーにさらされることなく、学習に関する基本的な問題を探求する自由を与えることを目的としています。
「Andy Barto氏と私が立ち上げた当初、私たちにはアイデアを自由に探求する時間とスペースがありました」と彼は言います。「こうした要因により、強化学習が今日のようなものになったのです。私は、次世代にも同じ機会を与えたいと考えています。」
人間レベルのAIは避けられないのでしょうか。Sutton氏は依然として慎重で楽観的です。彼は「できるかどうか、という問題ではなく、いつできるのか、という問題です」と言います。「もしそうなったとしても、それは、私たちがより大きなモデルを構築したからではありません。それは、私たちがよりスマートな学習者を構築したからに他なりません。」
