このペーパーでは、AI業界におけるより優れたベンチマークの必要性についても強調しています。Minhas氏によると、現在のベンチマーク問題には、モデルが実際の推論ではなくパターン・マッチングによって問題を解決できるので、十分でとは言えません。「ベンチマークが実際の推論に基づいている場合、あるいは推論問題がより複雑である場合は、どのモデルの性能もひどいものになるでしょう」と言います。

Minhas氏によると、Appleの研究者チームは記号を組み合わせることで、AIモデルとアルゴリズムのトレーニングとテストに使用されるデータを集めたこの合成データセットを作成しました。



「彼らは、シンボル自体を通じて、または超過量トークンのような追加のコンテキストを通じて、インプットシーケンス内で微調整や変更を開始すると、モデルの性能が低下することを証明しました」。

Appleの調査では、トレーニング・セットにさまざまな「細かい」要素と条項を導入して、モデルの性能がどのように変化したかを観察することにしました。しかし、IBMのデータサイエンティストであるJess Bozorg氏は、問題の可能性を指摘しています。「追加で考慮している綿密な作業のカテゴリーの数や、どのカテゴリーのどの種類の「細かい」要素を使用しているのかという点は明記されていません」。

現在のLLMベンチマークに対する論文の批判のひとつに、データ汚染の問題があります。Bozorg 氏は、Apple の調査ではGSM-8K データセットが使用されたと説明しています。これは人間が作成した、小学校レベルの算数の文章題を含むセットです。「これはデータ漏洩です」と彼女は言います。「つまり、モデルはトレーニングのテスト段階ですでにこのデータの一部を確認していたということです。」

データ汚染は業界で広く問題となっています。Minhas氏は、GSM-8Kデータセットについて「業界標準のベンチマークであり、すべてのモデルが知っているトレーニング・データの全体にその断片や一部が含まれています。今まで構築されたベンチマークにおける根本的な問題です。」

興味深いことに、この研究では、GPT-4が新しい記号のデータセットでテストした場合、他のモデルよりも著しく優れたパフォーマンスを発揮することが明らかになりました。Minhas氏はその理由について次のように推測しています。「GPT-4をトレーニングする際に、記号的な表現を考え、そのようなテストデータを生成した可能性はあるのでしょうか？まだパターン・マッチングを行っているだけかもしれませんが、トレーニング・データセットにはこのデータ型がありました」

Minhasは、研究者がAIシステムにメモリを導入することで、パターンマッチングの枠を超えようとしていると指摘しています。「これは私たちがより一般的なものにしようとしている方法の1つですが、依然としてすでにあるものに基づくパターン・マッチングにすぎません」と彼は言います。

Appleの調査では、現在のAIシステムにおける大きな限界が明らかになり、真の知能機械への道はまだ完全ではないことが明らかになりました。専門家によると現在、AIコミュニティーは、パターン・マッチングと真の推論とのギャップを埋めるという課題に直面しています。

「Transformerアーキテクチャーだけでは、推論に不十分です」とMinhas氏は言います。「推論機能のためにはモデル・アーキテクチャーの進歩が必要です」