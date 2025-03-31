OpenAIのo1、DeepSeek-R1、GoogleのGemini 2.5などの推論モデルがAIインテリジェンス・ベンチマークのトップを競う中、AIの統合を検討する企業は、「モデルの肥大化」と呼ばれるものにますます警戒するようになっています。これは、モデルが不必要に大きく複雑になり、計算コストとモデルのトレーニング時間が増加し、企業が必要とする応答を提供できる速度が低下するという現象です。
OpenAIのo1とDeepSeek-R1は、思考の連鎖（CoT）推論を使用して、複雑な問題をステップに分割し、前例のない性能と以前のモデルよりも高い精度を達成しています。しかし、CoTは推論中に膨大な計算リソースを要求し、その結果、出力時間が長くなり、高遅延が発生することになるのだとIBM VP兼AIインフラストラクチャー・ポートフォリオ・リーダーのVolkmar UhligはIBM Thinkのインタビューで語っています。
Atom Of Thoughts（Aot）からChain of Draft（Cod）に至るまで、新クラスの新たなプロンプト手法が登場して、さまざまな新しい論文で説明されるようになり、モデルがより迅速に問題を解決できるよう支援することで、CoTの効率性と精度を高め、コストやレイテンシーを削減しようとしています。
AI科学者でありスタートアップ企業の創業者であるLance Elliott氏は、思考の連鎖の新しいオフショットをプロンプト・エンジニア用ツールキットのバリエーションだと考えています。「一般的な家庭工作ツールキットには通常のハンマーが入っていますが、これがCoTに当たります」とIBM Thinkで語っています。「AoTは、ドライウォールの切断や調整が必要な状況に使用される特殊なハンマーを使用するようなものです。ドライウォール作業には通常のハンマーを使用することもできますが、ドライウォール用ハンマーがあり、適切な使用方法を知っているのであれば、それを使用することが推奨されます。」
IBMのAIテクニカル・ソリューション・アーキテクトであるVyoma Gajjar氏は、これらの新しいCoTは、特に「小規模なモデル用に、特定のユースケースに対する正確な回答を得られるよう、よりコスト効率の高い方法を探している」企業にとって、可能性を秘めていると考えています。
複雑な問題を詳細かつ連続したステップに分割して解決する「思考連鎖」とは対照的に、AoTは分割・克服ストラテジーを使用します。具体的には、AoTは問題のステップを「アトミック質問」に分割し、香港科技大学と中国人民大学の論文の著者が説明するように、並行して処理される「アトミック質問」を行い、その後、個々の解を組み立てて最終的な答えを導き出します。
AiTは、スタンドアロン・フレームワークとプラグインの拡張機能の両方として機能します。著者らがOpenAIのGPT-4o miniでAoTを使用したところ、HotpotQAデータセットではo3-miniを3.4％、DeepSeek-R1を10.6％など、6つのベースライン・ベンチマークにおいて、いくつかの推論モデルを上回りました。
Gajjar氏は、特定のコスト・プロファイルの維持と性性能のバランスを取ろうとするエンタープライズ・アプリケーション向けのAoTに可能性があると考えています。「別々のタスクが並行して実行され、電子が陽子と話しかけるように、これらのタスク、つまり『原子』が相互に通信することで、最も正確な解決策を導き出すのです」と彼女はIBM Thinkのインタビューで語っています。
この論文の著者らは、AoTが「既存の方法と比較して大幅に低い計算コストで競争力のある性能」を達成することを確認しており、「この効率性の向上は、冗長な計算を排除しながら必要な情報のみを保持するアトミック状態表現に起因するものです」と付け加えています。
ただし、AoTはすべてのユースケースでうまく機能するわけではありません。AI科学者のElliott氏は、AoTは「数学的証明の導出、プログラミング・コードの作成、高度に構造化された推論タスクに生成AIを使用する場合」に最も役立つ可能性が高いと述べています。また、クリエイティブなライティング・タスクや会話への参加などでは、効率が向上する可能性が低くなると考えています。
一方、連鎖プロンプトは、推論モデルが冗長で非常に詳細なステップを生成してレイテンシーを増大させる場合に発生する可能性のあるボトルネックに対処します。この現象は推論モデルと人間との間の重要な違いを表しています。人間は「簡潔な草稿や略記のメモに頼って、不必要な詳細化を避けて重要な洞察を捉える」傾向があると、Zoom Communicationsの著者らはCoDに関する新しい論文に記しています。
「レイテンシーの問題は見落とされがちです」と論文の著者は述べています。「しかし、多くのリアルタイム・アプリケーションにとっては、高品質の応答を維持しながら低遅延にすることが非常に重要です。」
CoDプロンプトでは、LLMは回答に至る推論過程において簡潔な説明を生成するよう促されます。例えば、CoTコントロールのプロンプトには、「次の質問に答えるために、段階的に考察してください。応答の最後で区切り文字####の後に回答を返してください」と記載されていました。対照的に、CoDプロンプトでは、「段階的に考察しても、各思考ステップには最低限の草案のみ（最大5単語）のみを保持してください。応答の最後で区切り文字の後に回答を返してください。」とモデルに指示が出されました。
研究者は、OpenAIのChatGPT-4oとAnthropicのClaude 3.5 Sonnetを使用して、CoDがCoTと同等かそれ以上の精度を得ながら、トークンの使用量を92.4％削減し、さまざまな推論タスクのコストとレイテンシーを削減することを発見しました。
「私たちはアルゴリズム探求のまったく新しい世界にいます」とIBMのUhligは述べています。「プロンプトトレーニングを別の方法で行えば、トークン数を劇的に減らすことができます。これは非常に自然な次のステップです。」
多くの新しいプロンプト手法が登場し続けていますが、「思考のスケルトン」（SoT）と呼ばれるものは、思考の原子とドラフトの連鎖の両方の要素を組み合わせており、注目に値します。この手法を提案する論文の著者は、「人間の文章作成と思考プロセス」に着想を得たのだと述べています。SoTプロンプトは、回答のスケルトンを生成するようにLLMを導き、各スケルトン・ポイントのコンテンツを並行して完成させます。
中国の清華大学とMicrosoft Researchの著者らは、思考のスケルトンを利用して、さまざまなLLMの機能を高速化し、いくつかのカテゴリーで回答の精度を向上させることができました。「モデル、システム、ハードウェアに変更を加えることなく、既製のLLMの並列デコードが実現可能であることを示しています」と彼らは述べています。
例えば、モデルに「ストラテジーを用いた職場における紛争解決の最も効果的な方法は何か」という質問をしました。SoTプロンプトを使用すると、Claudeではレイテンシーが22秒から12秒に（1.83倍の高速化）、Vicuna 33B V1.3では43秒から16秒に（2.69倍の高速化）短縮されました。
プロンプト手法もすべての課題にうまく対応できるわけではなく、最終的には、手元のタスクによって、「プロンプト・エンジニア向けツールキット」の最も効率的なオプションが決まります」とElliott氏は述べています。「生成AIが内部でどのように機能するかを知っていることは、非常に有利です」と彼は説明します。「車を運転するようなものです。エンジンやトランスミッションの仕組みについて必ずしも詳細を知る必要はありませんが、少なくともいくつかの重要な原則に精通していることが、自動車をより良く操作するのに大いに役立ちます。凍結した道路や濡れた道路、丘陵地帯での運転、急カーブの走行などの状況に備えることができます。」
