大規模な言語モデルはニューヨーク市の街路内での案内に優れているかもしれませんが、新しい研究では、都市がどのように組み合わさっているのかを実際に理解していないことが明らかになっています。モデルは、単純な遠回りに直面すると見事にクラッシュし、彼らの専門知識が単なる高度なパターン・マッチングであることが判明します。
この調査結果は、AIシステムが真の「世界モデル」、つまり物事の仕組みについての一貫した理解を開発しているのか、それとも、真の理解なしに正しい行動を模倣するのが非常にうまくいっているだけなのかという点で、人工知能における中心的な疑問を投げかけています。
「私たちの研究の中で、生成モデルは根底にある世界モデルを復元することなく、素晴らしいアウトプットを生み出すことができるということです」と、MITの経済学助教授で、この論文の著者の1人であるAshesh Rambachan氏は述べています。「これらの素晴らしいアウトプットを見ると、これらの生成モデルは世界についての根底にある真実を学習していると当然信じられます。結局のところ、ある人がニューヨークの地図を把握せずにニューヨークで地点Aから地点Bに移動できるとはとても思えません」
IBMのバイス・プレジデント兼シニア・パートナーで、技術、データ、&AIストラテジーのグローバルヘッドであるBrent Smolinksiが論文で根本的な課題を明らかにました。それによると、大規模言語モデルは「演繹的な推論ができません。そうするようには設定されていないのです。パターン認識を行い、それらのパターンに反応するように設定されています」。
Rambachan氏のチームは、AIモデルが環境をどの程度理解しているかを測定する、シーケンス区別とシーケンス圧縮という2つの新しい方法を開発しました。ニューヨーク市をナビゲートすることとオセロをプレイすることの2つのシナリオで、決定論的有限オートマトン(DFA)を使用し、これらのメトリクスをテストしました。
彼らが見つけたものは驚くべきものでした。ランダムな動きから学習したモデルは、戦略的なゲームプレイで訓練されたモデルよりも優れた理解を得ました。なぜこのようなことになったのでしょうか。ランダム・トレーニングにより、モデルはより多くの起こりうる状況や移行にさらされ、戦略的で「最適な」動きのみを認識したモデルよりも環境の完全性を把握できるようになりました。
研究者がこれらのAIシステムをストレステストしたところ、性能と理解の間に厄介なギャップがあることが明らかになりました。このシステムは表面的にはすぐれたもので、有効な動きと方向を高精度で生成できました。しかし、その裏では、ほぼすべてのモデルが世界モデリングの基本的なテストに合格しませんでした。
説得力のある例がNYCのナビゲーション・テストでした。研究者が遠回りを追加して都市地図に単純な変更を加えると、ナビゲーション・モデルが破綻してしまいました。これにより、モデルが実際には都市の地理的位置やルーティングの原則をまったく理解していないことが明らかになりました。実際には理解しておらず、表面的に正しい提案をしているだけでした。
これは、現在のAIシステムにおける重大な弱点を示しています。AIシステムは、予測を行うことが非常に優れていても、実際には処理内容をより真に理解する必要があるのです。Smolinskiによると、大規模な言語モデルは賢く見えるかもしれませんが、実際の(演繹的な)推論ではなく、パターン・マッチングが非常に優れているというだけです。これらのAIシステムが論理的な問題を解決しているように見える場合、段階的に考えているのではなく、以前に遭遇したパターンを認識しているだけだと同氏は言いました。
Smolinksiは、主な違いは、さまざまなタイプのAI技術が連携して機能する必要があることだと主張しています。たとえば、パターンを認識するためのもの、知識を表すためのもの、問題を解決するための論理的推論用のものなどがあります。
今日の最も洗練されたAIシステムが真の理解がなくてもテストに合格できるという発見は、汎用人工知能がすぐにそこにあるのか、それとも根本的には手の届かないところにあるのかという熾烈な議論の核心にまで迫っているのです。
汎用人工知能(AGI)の実現をめぐる競争は、技術業界で最も議論の激しい議論の1つとなっており、楽観者と懐疑的な意見の間の隔たりが深くなっていることが浮き彫りになっています。シリコンバレー全域の企業役員室や研究研究所では、単に機械が人間の認知能力に匹敵するかどうかだけでなく、いつ機械が人間の認知能力に匹敵するかという話に重点を置くことが増えています。
AGI開発のタイムラインにより、AIコミュニティーは2つの異なるキャンプに分かれました。一方には、AGIを私たちの寿命内で文明を再構築する可能性のある差し迫ったブレークスルーと見なす技術最適化学者が支持しています。もう一方には現実主義者がおり、真に人間のように考察する機械の実現までは何十年もかかるかもかもしれないと警告しています。
AGIのタイムラインに関するこの基本的な意見の相違は、単なる教育機関向けのものではなく、AIの安全性と規制に関する研究の優先順位、投資決定、政策的議論を形成しています。AGIの研究開発に数十億ドルが投入されるにつれ、この議論のリスクは高まり続けています。
オープンエーアイのサム・アルトマンのような著名な技術リーダーたちは、人工知能(事実上すべてのタスクにおいて人間レベルの認識力に匹敵するか、それを上回ることができるAIシステム)が数年以内に登場する可能性を示唆していますが、IBMのスモリンスキーはより懐疑的な見方を示しています。彼は、現在のAIシステム、特に大規模言語モデルは根本的に、実際の推論ではなくパターン・マッチングに制限されていると主張しています。
Smolinski氏は、人間のような知能の向上に向かうのではなく、真のAGIに必要なアーキテクチャーについて考える際に「そもそも方向性が間違っているのかもしれない」と示唆しました。彼が直接言うように、「特定の問題を解決するのに役立つAIと一般的なAIは区別するものです。人間のように動作し、人間と同じような思考プロセスを持ち、あるいは問題を解決するシステムを持つことは、まだ何年も先のことだと私は考えています。そこに到達することさえできないかもしれません。」
Smolinskiは、AI機能をそれぞれが異なる目的を持つ明確なカテゴリに分類しています。一方では、データの類似点や傾向を見るなどのパターン認識に優れた最新のAIのような大規模言語モデルがあります。逆に、論理的なステップに従うことができる従来のルール・ベースのシステムもあります。同氏によると、本当の課題は、どちらかのタイプを改善するのではなく、それらを効果的に組み合わせる方法を見つけ出すことです。
Smolinskiは、ニューロシンボリックAIが進むべき1つの道を提供するのではないかと示唆しています。ニューラル・ネットワークと象徴的な推論を組み合わせようとするAIの分野ですが、その最終的な可能性はまだ確認されていません。これらのハイブリッド・システムは、未加工データから学習し、論理ルールを適用できます。この二重の性質は、機械が自然言語の解析から動的な環境での問題の解決に至るまで、複雑な課題に取り組むのに役立ちます。
「これは、真のインテリジェンスにとって最も可能性を示していると考えている」と彼は言います。