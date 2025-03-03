Anthropic の新しいClaude 3.7 Sonnetでは、深い思考モードのオン/オフを電灯のスイッチのように切り替えられるようになり、単純な質問には即座に答えながら、複雑な問題に必要な計算処理を保留できるようになりました。
このハイブリッド推論アプローチは人工知能の変化を示しており、 IBMのGranite®モデルもタスクの複雑さに基づいて同様の主要な機能の切り替えを採用しており、コスト削減と機能向上の両方が可能だと専門家は述べています。この進化は、世界中の組織が高度なAIの経済的現実に取り組んでいる中で起こっており、貴重なコンピューティングリソースを節約しながら、高度な推論をより利用しやすくする可能性があります。
「思考モデルのコスト構造は重要です。すべての質問で、モデルが考察するために 32 秒間の停止が必要なわけではありません」と、IBM ResearchのAIプロダクトマネージャーであるMaya Muradは、ポッドキャストの最近のエピソード Mixture of Expertsで述べています。「この機能により、企業はリソースをインテリジェントに使用し、問題に必要な場合にのみ広範な計算を適用することで、人間のさまざまな認知タスクへの取り組み方に適合したAIシステムを構築できるようになります。」
IBM Researchのシニア・プログラム・マネージャーであるAbraham Danielsは、AI業界の焦点が、単により強力なシステムの構築から、実用的なシステムの開発へと変化していることを示しています。高度なAIの運用コストが大きな考慮事項となっているため、企業にとって、この変化は非常に重要である可能性があります。
モデルは単純な回答を提供するよりも、深い推論を行う際にはるかに多くの計算リソースを消費し、そのためコストも高くなります。ハイブリッド推論により、企業はタスクの複雑さに応じて計算レベルを調整することで、AI支出を最適化できます。
Anthropicは最近、" 拡張思考モード、" を備えたClaude 3.7 Sonnetをリリースしました。これにより、ユーザーは必要に応じてより詳細な分析をリクエストできます。IBMも同様に、Graniteモデルに「トグル」機能を装備して、ユーザーが強化的な推論を実行するタイミングを制御できるようにしました。
「私たちは、市場の他の推論モデルとは異なる哲学でハイブリッド推論を構築しました」とAnthropic社の広報担当者はIBM Thinkに語りました。「私たちのアプローチは、人間の脳の仕組みに基づいています。人間には、速い思考と深い思考という 2 つの別々の脳があるわけではありません。Anthropic では、推論は別個の機能ではなく、すべてのモデルの機能に深く統合する必要があるものであると考えています。このアプローチは、Claudeがすべてのアプリケーションにわたってお客様とどのように統合しているかに基づいています。マーケティング資料のブレーンストーミングなど、迅速な対応が必要な場合もありますが、複雑な財務分析や業界の研究など、より深く、長い思考が必要な場合もあります。当社は、これらの機能の両方を、お客様がアクセスして使用できるように、可能な限りシンプルかつコスト効率の高いものにしたいと考えました。」
このアプローチにより、AIの思考プロセスの透明性が高まります。「モデル自体はまだブラックボックスですが、少なくともアウトプットについては、モデルがどのようにしてその結論に至ったかを確認することができます」とDaniels氏は振り返ります。この可視性により、結果が改善され、説明可能性に関する懸念に対処することができます。これは規制された業界にとって特に重要なことです、と彼は言います。
Daniels氏と他の専門家は、この開発が、簡単な質問の不必要な計算オーバーヘッドを排除するという現実的なニーズに対処するものであると考えています。
「すべてのタスクに膨大な推論は必要なく、基本的に複雑な処理が必要な場合には、レイテンシとコストの両面でより多くのリソースを割く能力が得られるのです」と、IBM Researchの技術製品管理ディレクターであるKate Souleはポッドキャストで述べています。
従来、大規模言語モデル (LLM) の内部の仕組みは不透明でした。モデルは内部の推論の手順を明らかにすることなく、プロンプトを受け取り、応答を生成します。
ハイブリッド推論は、モデルの段階的な思考過程を明らかにすることで、このダイナミクスを変えます。Granite 3.2などのシステムは、アクティブ化されると、その動作を表示し、その動作がたどる論理パスを可視化します。
「Claudeの推論プロセスを可視化するという決定には、複数の要因を考慮したことが反映されています。これらの要因の1つは、Claudeの推論プロセスにおけるユーザーエクスペリエンスと信頼の透明性の向上でした」とAnthropic社の広報担当者は述べています。「これにより、ユーザーは結論に至る過程についての洞察を得ることができ、適切なレベルの信頼と理解が促進されます。ユーザーは一般に、思考の連鎖を観察できる場合にアウトプットをより信頼するようになります。この可視性により、ユーザーは Claude の推論の質と徹底性をより適切に評価でき、Claude の機能をよりよく理解できるようになります。さらに、ユーザーと開発者が、Claudeの思考の出力を読み、特定の推論ステップに関する的を絞ったフィードバックを提供することで、より良いプロンプトを作成できることを願っています。」
「モデルの実際の思考過程を明らかにできることは、説明可能性にとって非常に有益です」とDaniels氏は言います。「思考の連鎖（CoT）による推論を実証できるようになるまでは、単なる次のトークン確率に過ぎませんでした。つまり、ブラックボックスのようなものです。」
これらのテクノロジーには、多くの業界にまたがるビジネス用途があります。「財務と法務は構造化されたドキュメンテーションを扱うため、自然に適合します」とDaniels氏は述べ、これらの高度な思考モデルから「規制された業種・業務はいずれも多大な価値を得ることができる」と付け加えました。
しかし、ハイブリッド推論は、複雑な分析を必要とする領域で特に有用です。
「数学とコードは、私が推論のベンチマークとして見てきた2つの焦点です」とDaniels氏は言います。ソフトウェア開発においては、そのメリットはかなり大きいかもしれません。「思考モデルを使うことで、あなたが示した要件に基づいてプロジェクトの範囲を明確に設定できます」と彼は言います。
標準的な大規模言語モデル（LLM）は、学習データ内のパターンに基づいて最も可能性の高い次の単語を予測することで応答を生成します。このアプローチは多くのタスクにはうまく機能しますが、これらのモデルは複数ステップの推論問題には苦労する可能性があります。
ハイブリッド推論モデルは計算集約型モードに切り替えることができ、最終的な答えを提供する前に中間推論ステップを明示的に生成します。モデルはこれらのステップを使用して複雑な問題を進めますが、これは人間が複雑な数学の問題を解く際に中間ステップを書き出すのと似ています。
ハイブリッド推論を可能にするアーキテクチャは、研究者たちが「テストタイムコンピューティング」と呼ぶものに基づいており、これはトレーニング中だけでなく推論中にリソースを割くものです。
「多くの場合、すべてのコンピューティング能力はモデルのトレーニングに使用され、モデルの推論は計算要件の点では比較的軽量でした。」とDaniels氏は言います。
しかし、 AIシステムが複雑になるにつれて、 Power® 処理することだけが課題ではなく、それをいつ効率的に使用するかを知ることが課題になります。だからこそ、ハイブリッド推論の次のフロンティアは、よりスマートな自己規制になるでしょう。つまり、人間が指示するのではなく、自動的に深い思考モードを機能させるタイミングをAIに教えることになるとDaniels氏は言います。
「推論モデル、つまりハイブリッド推論モデルに関する次のステップは、テストタイムコンピューティング内、または思考フレームワーク内で、どのようにしてインプットをよりよく理解し、より適切にトリアージできるかということです。」と彼は言います。
