技術界に波紋を投げかけているある研究において、Apple社の研究者は大規模言語モデル（LLM）が本物の推論を行うことができるという考え方に疑問を投げかけました。
この論文の著者らは、AI業界の最大手であるOpenAI社のGPT-4を含む現在のAIモデルの数学的推論機能を、新しい記号データセットを導入することで検証することに着手しました。馴染みのない方法でよく知られた数学的概念を提示することで、単なるパターン認識を超えたモデルの理解に挑戦しようとしたのです。
成果は顕著でした。テストしたLLMのほとんどは、数学の問題の斬新な表現に直面するとパフォーマンスが大幅に低下し、これらのシステムが実際の問題解決スキルよりもパターン・マッチングに依存している可能性があることを示唆しています。
「この論文では、LLMが推論できないことを根本的に証明しました」とIBM Technical Content ManagerのAsh Minhas氏は述べています。「それらは単なるパターン・マッチングにすぎません」
この発見により、専門家はAIの現在の能力の深さと、この分野での今後の方向性に疑問を投げかけています。この研究結果は人工 狭義知能 （ANI）と 人工汎用知能 (AGI)の違いを強調しており、現在のLLMは明確に前者のカテゴリーに属することを示唆しているとMinhas氏は述べています。
AI分野では、人間のように学習と理解ができ、さまざまな領域に知識を適用し、多様なタスクを実行し、推論から創造的追求まであらゆる能力において人間の能力を上回る可能性のあるAIシステムを指すAGIシステムの実現可能性が急速に話題になっています。
OpenAIの元理事であり、ジョージタウン大学のセキュリティおよび新興テクノロジーセンターの戦略部長であるHelen Toner氏は、最近、米国上院司法小委員会で次のように証言しまた。 「私が一般の認識とAIインサイダーの視点の間に見る最大の断絶は、「人工汎用知能」（AGI）の構築に取り組んでいる少数の企業の内部からのものです。これは人間とほぼ同じくらい賢いAIです」。OpenAI、Google、Anthropicなどの大手AI企業は、AGIの構築を「完全に真剣な目標」として扱っていると述べました。
しかし、 一部の専門家は AGIは現実からほど遠いと考えています。「この論文は、私たちがまだANIの世界にいることを強調しています」とMinhas氏は言います。「AGIにはまだ到達していません」。
このペーパーでは、AI業界におけるより優れたベンチマークの必要性についても強調しています。Minhas氏によると、現在のベンチマーク問題には、モデルが実際の推論ではなくパターン・マッチングによって問題を解決できるので、十分でとは言えません。「ベンチマークが実際の推論に基づいている場合、あるいは推論問題がより複雑である場合は、どのモデルの性能もひどいものになるでしょう」と言います。
Minhas氏によると、Appleの研究者チームは記号を組み合わせることで、AIモデルとアルゴリズムのトレーニングとテストに使用されるデータを集めたこの合成データセットを作成しました。
「彼らは、シンボル自体を通じて、または超過量トークンのような追加のコンテキストを通じて、インプットシーケンス内で微調整や変更を開始すると、モデルの性能が低下することを証明しました」。
Appleの調査では、トレーニング・セットにさまざまな「細かい」要素と条項を導入して、モデルの性能がどのように変化したかを観察することにしました。しかし、IBMのデータサイエンティストであるJess Bozorg氏は、問題の可能性を指摘しています。「追加で考慮している綿密な作業のカテゴリーの数や、どのカテゴリーのどの種類の「細かい」要素を使用しているのかという点は明記されていません」。
現在のLLMベンチマークに対する論文の批判のひとつに、データ汚染の問題があります。Bozorg 氏は、Apple の調査ではGSM-8K データセットが使用されたと説明しています。これは人間が作成した、小学校レベルの算数の文章題を含むセットです。「これはデータ漏洩です」と彼女は言います。「つまり、モデルはトレーニングのテスト段階ですでにこのデータの一部を確認していたということです。」
データ汚染は業界で広く問題となっています。Minhas氏は、GSM-8Kデータセットについて「業界標準のベンチマークであり、すべてのモデルが知っているトレーニング・データの全体にその断片や一部が含まれています。今まで構築されたベンチマークにおける根本的な問題です。」
興味深いことに、この研究では、GPT-4が新しい記号のデータセットでテストした場合、他のモデルよりも著しく優れたパフォーマンスを発揮することが明らかになりました。Minhas氏はその理由について次のように推測しています。「GPT-4をトレーニングする際に、記号的な表現を考え、そのようなテストデータを生成した可能性はあるのでしょうか？まだパターン・マッチングを行っているだけかもしれませんが、トレーニング・データセットにはこのデータ型がありました」
Minhasは、研究者がAIシステムにメモリを導入することで、パターンマッチングの枠を超えようとしていると指摘しています。「これは私たちがより一般的なものにしようとしている方法の1つですが、依然としてすでにあるものに基づくパターン・マッチングにすぎません」と彼は言います。
Appleの調査では、現在のAIシステムにおける大きな限界が明らかになり、真の知能機械への道はまだ完全ではないことが明らかになりました。専門家によると現在、AIコミュニティーは、パターン・マッチングと真の推論とのギャップを埋めるという課題に直面しています。
「Transformerアーキテクチャーだけでは、推論に不十分です」とMinhas氏は言います。「推論機能のためにはモデル・アーキテクチャーの進歩が必要です」
