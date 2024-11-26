Rambachan氏のチームは、AIモデルが環境をどの程度理解しているかを測定する、シーケンス区別とシーケンス圧縮という2つの新しい方法を開発しました。ニューヨーク市をナビゲートすることとオセロをプレイすることの2つのシナリオで、決定論的有限オートマトン（DFA）を使用し、これらのメトリクスをテストしました。

彼らが見つけたものは驚くべきものでした。ランダムな動きから学習したモデルは、戦略的なゲームプレイで訓練されたモデルよりも優れた理解を得ました。なぜこのようなことになったのでしょうか。ランダム・トレーニングにより、モデルはより多くの起こりうる状況や移行にさらされ、戦略的で「最適な」動きのみを認識したモデルよりも環境の完全性を把握できるようになりました。

研究者がこれらのAIシステムをストレステストしたところ、性能と理解の間に厄介なギャップがあることが明らかになりました。このシステムは表面的にはすぐれたもので、有効な動きと方向を高精度で生成できました。しかし、その裏では、ほぼすべてのモデルが世界モデリングの基本的なテストに合格しませんでした。

説得力のある例がNYCのナビゲーション・テストでした。研究者が遠回りを追加して都市地図に単純な変更を加えると、ナビゲーション・モデルが破綻してしまいました。これにより、モデルが実際には都市の地理的位置やルーティングの原則をまったく理解していないことが明らかになりました。実際には理解しておらず、表面的に正しい提案をしているだけでした。

これは、現在のAIシステムにおける重大な弱点を示しています。AIシステムは、予測を行うことが非常に優れていても、実際には処理内容をより真に理解する必要があるのです。Smolinskiによると、大規模な言語モデルは賢く見えるかもしれませんが、実際の（演繹的な）推論ではなく、パターン・マッチングが非常に優れているというだけです。これらのAIシステムが論理的な問題を解決しているように見える場合、段階的に考えているのではなく、以前に遭遇したパターンを認識しているだけだと同氏は言いました。

Smolinksiは、主な違いは、さまざまなタイプのAI技術が連携して機能する必要があることだと主張しています。たとえば、パターンを認識するためのもの、知識を表すためのもの、問題を解決するための論理的推論用のものなどがあります。