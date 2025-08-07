推論モデルは、ユーザーのインプットに対する直接的な応答を即座に生成するのではなく、ユーザーに提供される最終回答に到達する前に、まず中間の「推論ステップ」を生成するようにトレーニングされます。推論LLMの中には、推論トレースをユーザーに表示するものや、これらの中間アウトプットを要約するか完全に非表示にするものもあります。

簡単に言うと、推論LLMは、応答する前に「考える」ことに多くの時間を費やすようにトレーニングされています。この「推論プロセス」を増やすことで、複雑な推論タスクでのLLMの性能が大幅に向上することが実証されています。この成功により、AIモデルを適用できる実世界のユースケースと領域が拡大し、生成AIとAIエージェントの継続的な開発における重要な転換点となっています。

ただし、モデルの「思考プロセス」のような擬人化された用語は、文字通りの表現よりも便利であることに留意してください。すべての機械学習モデルと同様に、推論モデルは最終的に、トレーニング・データから学習したパターンを反映した予測（次にどの語が来るかなど）を行う高度なアルゴリズムを適用するだけです。推論LLMは、汎用人工知能（AGI）の意識やその他の兆候を示していません。2025年6月にAppleが発表したAI研究は、現在のモデルの推論能力が真に「一般化できる」推論にまで拡張できるかどうか疑問を投げかけています。1

おそらく最も正確な言い方をすれば、推論LLMは、人間の思考プロセスに似た一連のトークン（単語）を生成することで「自分の作業を示す」ようにトレーニングされており、思考を「言語化する」というこの行為によって、LLMが膨大なトレーニング・データ・コーパス（個人が直接的または間接的に独自のプロセスを明確に表現した例を含む）から暗黙的に学習する潜在的な推論機能が解き放たれるように見えます。

「推論モデル」の概念は、2024年9月にOpenAIのo1-preview（およびo1-mini）によって導入され2、続いて11月にアリババの「Qwen with Questions」（QWQ-32B-Preview）、12月にGoogleのGemini 2.0 Flash Experimentによって導入されました。推論LLM開発におけるマイルストーンは、オープンソースのDeepSeek-R1モデルの2025年1月のリリースでした。以前の推論モデルのファイン・チューニングに使用されるトレーニング・プロセスは厳重に秘密として守られていましたが、DeepSeekは他のモデル開発者に青写真を提供する詳細な技術文書をリリースしました。それ以来、IBM Granite、Anthropic、Mistral AIなどが独自の推論LLMをリリースしてきました。