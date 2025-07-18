MITの研究では、いわゆる「長期的コードプランニング」が、現在のAIシステムの主な制限として定義されています。Gu氏によると、これには、コードがより大きなシステムにどのように適合するかについて推論し、ローカルな決定の世界的な影響を考慮することが含まれます。

「長期にわたるコード計画には、高度な推論と人間の介入が必要です」とGu氏は言います。「モデルは、性能、メモリ、コード品質などのトレードオフを考慮し、それを使用してコードの設計方法を決定する必要があります。」

Gu氏は、新しいプログラミング言語の設計例を挙げました。このタスクには、言語のさまざまな使用方法をすべて検討し、どのAPI機能を公開するかを決定し、ユーザーの使用パターンを考える必要があると彼は説明しました。この研究では、単一機能の設計へのわずかな変更がコードベースの残りの部分に伝播する可能性があるため、モデルはローカル・コード変更によるグローバルな影響についても推論する必要があると指摘しています。

MITの研究では、AIコーディング機能の現在の評価方法に関する問題が特定されています。Gu氏によると、ほとんどのコーディング・ベンチマークは、小規模で自己完結型のプログラムを最初から生成することに重点を置いており、大規模なソフトウェア・エンジニアリングの現実を反映していません。

「私たちが言及する側面の1つは、タスクのダイバーシティーです。実際のソフトウェア・エンジニアリング（SWE）には、ソフトウェア・テストやソフトウェア・保守などのタスクが含まれていますが、これらは今日のベンチマークに反映されることはほとんどありません」とGu氏は言います。

同様に重要なのは、AIシステムがユーザーの意図を推測する能力です。これは、特定のユースケースに合わせてソリューションを調整するために不可欠なスキルです。「ビジネス向けのWebサイトは、遊び目的でデザインされたWebサイトよりも堅牢である必要がある可能性があります。」

研究では、LLMはトレーニング中に見られた例によく似たタスクで最も優れたパフォーマンスを発揮し、低リソースのプログラミング言語や特殊なライブラリに依存するプロジェクトに課題が生じることが判明しました。Gu氏によると、参考情報の少ない言語や特殊なライブラリーがこのデータ・プールに比較的まれにしか表示されないため、LLMはこれらについて苦労することになります。

「これらのタスクの実行は、目に見えないデータと領域への推定（一般化）に依存しており、多くの場合、トレーニング分布に似たコードを反復するよりも困難です」とGu氏は言います。

調査によると、この制限は、ドキュメンテーションが限られているレガシー・システムや科学的コンピューティング環境、社内ツールでは、AIコーディング・エージェントの効果が低下する傾向があることを意味します。