推論モデルとは

著者

Senior Staff Writer, AI Models

IBM Think

推論モデルとは

推論モデルは、最終的なアウトプットを生成する前に、複雑な問題を「推論トレース」と呼ばれる小さなステップに分割するようにファイン・チューニングされた大規模言語モデル（LLM）です。思考連鎖推論やその他のマルチステップの意思決定戦略を採用するためのモデルのトレーニング手段はますます洗練されており、特に数学やインデックスなどロジック主導のタスクのベンチマークで最先端の性能が得られています。

推論モデルは、ユーザーのインプットに対する直接的な応答を即座に生成するのではなく、ユーザーに提供される最終回答に到達する前に、まず中間の「推論ステップ」を生成するようにトレーニングされます。推論LLMの中には、推論トレースをユーザーに表示するものや、これらの中間アウトプットを要約するか完全に非表示にするものもあります。

簡単に言うと、推論LLMは、応答する前に「考える」ことに多くの時間を費やすようにトレーニングされています。この「推論プロセス」を増やすことで、複雑な推論タスクでのLLMの性能が大幅に向上することが実証されています。この成功により、AIモデルを適用できる実世界のユースケースと領域が拡大し、生成AIとAIエージェントの継続的な開発における重要な転換点となっています。

ただし、モデルの「思考プロセス」のような擬人化された用語は、文字通りの表現よりも便利であることに留意してください。すべての機械学習モデルと同様に、推論モデルは最終的に、トレーニング・データから学習したパターンを反映した予測（次にどの語が来るかなど）を行う高度なアルゴリズムを適用するだけです。推論LLMは、汎用人工知能（AGI）の意識やその他の兆候を示していません。2025年6月にAppleが発表したAI研究は、現在のモデルの推論能力が真に「一般化できる」推論にまで拡張できるかどうか疑問を投げかけています。¹

おそらく最も正確な言い方をすれば、推論LLMは、人間の思考プロセスに似た一連のトークン（単語）を生成することで「自分の作業を示す」ようにトレーニングされており、思考を「言語化する」というこの行為によって、LLMが膨大なトレーニング・データ・コーパス（個人が直接的または間接的に独自のプロセスを明確に表現した例を含む）から暗黙的に学習する潜在的な推論機能が解き放たれるように見えます。

「推論モデル」の概念は、2024年9月にOpenAIのo1-preview（およびo1-mini）によって導入され²、続いて11月にアリババの「Qwen with Questions」（QWQ-32B-Preview）、12月にGoogleのGemini 2.0 Flash Experimentによって導入されました。推論LLM開発におけるマイルストーンは、オープンソースのDeepSeek-R1モデルの2025年1月のリリースでした。以前の推論モデルのファイン・チューニングに使用されるトレーニング・プロセスは厳重に秘密として守られていましたが、DeepSeekは他のモデル開発者に青写真を提供する詳細な技術文書をリリースしました。それ以来、IBM Granite、Anthropic、Mistral AIなどが独自の推論LLMをリリースしてきました。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

推論モデルが機能する理由

モデルのアウトプットに「思考プロセス」を追加すると、モデルが有害な認知の近道を回避し、トレーニング・データから学習したより関連性の高い知識を導き出すことができるため、標準的なLLM推論に固有の欠陥の多くを軽減できます。

推論LLMの文脈において、AI研究文献ではよく「システム1」と「システム2」思考が言及されます。これらはノーベル賞を受賞した行動経済学者ダニエル・カーネマンが、その画期的な著作『ファスト＆スロー』で提唱した概念です。システム１の思考はスピーディ、無意識かつ直感的であり、発券的手法を利用し、ほとんどまたはまったく努力を必要としません。システム2の思考は時間がかかり、慎重で論理的であり、組織的な努力が必要です。自己回帰型LLMは、デフォルトではシステム1の考え方に傾いています。^3。

一部のタスクでは、システム1思考が効果的であり、計算効率も高くなります。しかし、他の多くの人にとっては、衝動的なシステム1の思考では不十分です。たとえば、メタ研究者のジェイソン・ウェストンとサインバヤル・スフバータルによる2023年の論文では、入力プロンプトに無関係な文脈や主観的な詳細が存在することでLLMがいかに簡単に動揺するかが指摘されています。

非推論型LLMが無関係な情報によって「気を散らす」ことが多い例。論文「System 2 Attention (is something you might need too)」から引用

2人は「System 2 Attention」（S2A）と名付けた一連の手法を提案しました。この手法では、まず無関係な文脈を排除した入力プロンプトを書き換えたバージョンを生成し、その書き換えたプロンプトに応答するようにモデルに指示するものです。実験では、S2Aはさまざまなタスクにおいて標準的な推論を上回り、精度が向上し、追従性が減少しました。

S2A、早期推論スケーリング手法。インプットと回答の間にステップを追加することで（この場合は元のプロンプトを書き換えます）、モデルは最終的なアウトプットを改善します。論文「System 2 Attention (is something you might need too)」から引用

概念的に言えば、推論アプローチの暗黙の目標は、潜在的なアウトプットを探索、評価、精緻化するシステム2に似たモデル挙動を実現することと理解できます。

重要な一歩は、初期のLLM研究から得られたもので、「段階的に考える」というフレーズ（思考の連鎖プロンプトと呼ばれる）を追加するだけでモデルのアウトプット結果が大幅に改善されることを実証しました。^4、5Google DeepMindが2024年に発表した論文では、テスト時の計算能力（アウトプットの生成に使用されるリソース）をスケールアップすると、トレーニング時の計算能力（モデルのトレーニングに使用されるリソース）をスケールアップするのと同じくらいモデルの性能が向上するという、さらに広範にわたる主張が行われました。 ⁶CoTプロンプトは、S2Aと同様に、そのような多くの推論スケーリング手法の 1 つにすぎません。

現代の推論LLMはさらに進化しています。プロンプト設計に頼るのではなく、新しいファイン・チューニング手法と高度なワークフローを用いて、モデルが推論時に使用する計算能力を本質的に増加させます。推論モデルの最適化には、アルゴリズムやデータのトレーニングという技術的な課題と、理想的な「思考プロセス」の設計という哲学的な課題の両方が伴います。

推論モデルの仕組み

トレーニング推論LLMの初期段階は、従来のLLMの初期段階と同じです。標準的なLLMと同様に、推論モデルは大規模な自己教師あり事前トレーニングから一般的な言語能力と世界の知識を取得し、その後、それを下流のタスク（会話型チャットボットの使用など）に適応させるためにある程度の教師ありファインチューニング（SFT）を行います。中心的なイノベーションは、最終的なアウトプットを生成する前に、推論時に中間的な「推論ステップ」を生成するようモデルに動機付ける、新たな強化学習（RL）技術の応用です。

長年にわたる研究と実験の結果、推論アプローチは指数関数的に拡大してきましたが、すべてがテスト時の計算能力を向上させるという基本的な目標を共有しています。推論モデルは、基礎となる基本（または指示調整済みの）LLM以外に、採用するようにトレーニングされた特定の意思決定戦略と、その動作の奨励に使用される特定のアルゴリズムによって差別化されます。い

大まかに言うと、推論時に使用される計算能力を増やすには、主に2つの方法があります。推論モデルをファイン・チューニングする目的は、さまざまな学習アルゴリズムを通じて、これらの幅広いアプローチの1つ（または両方）を採用するようにモデルをトレーニングすることです。

より長いアウトプットを生成する：このモデルは、長い思考連鎖、バックトラック、自己改良などの戦略を通じて、より長いアウトプットを生成することを学習します。
複数アウトプットを生成する：プロンプトに応答して単一のアウトプットを生成する代わりに、モデルはアウトプットの複数の反復を生成し、潜在的なアウトプットの検索、拒否、集約のプロセスを通じて最終的な答えに到達します。

推論モデルを生成する学習パラダイムの性質には通常、コーディング・タスクや数学の問題など、解決策が本質的に検証可能な問題に対するトレーニングと評価が含まれます。推論モデルの性能の評価に使用されるベンチマーク指標は、通常、それらの領域に焦点を当てます。創作的な文書作成など、より主観的な領域における推論の影響について行われた研究は、かなり少ないです。

強化ファイン・チューニング

推論LLMの台頭の中心となっているのは、LLMコンテキストにおけるルールベースのRLとディープラーニング主導型 RL（「ディープ RL」）の両方を含むRLベースのファイン・チューニングの進歩です。教師あり学習や自己教師あり学習では明確に定義された静的なトレーニング・タスクが必要ですが、RLは、多段階推論が最も役立つ、動的でオープンエンドの複雑なタスクに適しています。

RLを使用してLLMをファイン・チューニングし、抽象的な性質を与える方法は、推論モデルに特有のものではありません。たとえば、チャットボット設定で使用されるLLMの標準トレーニング・パイプラインは次のとおりです。

自己教師あり事前トレーニングでは、モデルが言語パターンと基本知識を学習し、下流のタスクに適用します。
教師ありファイン・チューニング（SFT）では、モデルはユーザー・インプットに対する応答を適切にフォーマットする方法を学習します。
指示チューニングでは、モデルが指示に従い、特定のタスクを実行する方法を学習します。
人間からのフィードバックによる強化学習（RLHF）では、人間の好みのデータに基づいてモデルがファイン・チューニングされ、有用性、無害性、誠実さ、理想的な口調などの主観的な品質が付与されます。

推論LLMは通常、これらと同じトレーニング段階を経て、生産的なCoTベースの推論プロセスを浸透させる強化学習段階（ある時点で）を追加します。これは、この推論プロセスの目標、つまり最終アウトプットの前にCoT推論トレースを生成するなど、「報酬」を受ける特定のモデルの動作を定義し、報酬を最大化する方法でモデルの重みを最適化することで実現します。

すべての複雑な問題解決に有効な推論プロセスのように抽象的で複雑なタスクに対し、明示的な報酬関数を設計することは困難、あるいは不可能であるため、この報酬信号はトレーニング中に使用される別の報酬モデルから生成されることがよくあります。RLHFでは、この報酬モデル自体が人間のフィードバックに基づいてトレーニングされ、人間が特定の回答をどの程度好むかについて数値スコアを予測するように学習します。

推論モデルのRLの文脈では、報酬信号は、結果報酬モデル（ORM）、プロセス報酬モデル（PRM）、およびルールベースの報酬システムのカテゴリーに分類できます。

成果報酬モデル（ORM）

ORMは、その名が示すように、推論モデルの最終アウトプットの精度を検証し、それに応じてモデルの重みを最適化するために使われる報酬信号を提供します。これは表面的には教師あり学習における損失関数の役割と似ていますが、メカニズムはより複雑な場合が多いです。

損失関数は通常、アウトプットと実際の値との間のトークンごとの相違を測定しますが、効果的なORMは、利用可能な実際の回答とは非常に異なる形で提示された場合でも、数学の問題に対する正しい回答を認識できなければなりません。これは、長いCoTアウトプットの大きな変動性を考えるとよくあるケースです。同様に、実世界のコーディング問題のほとんどには複数の解決策があります。通常、コード出力を総合的に評価するには、コード・スニペットを効率的に実行し、有効性を検証するデータ・パイプラインが必要です。規定の書式設定や指示に従うかどうかなど、その他のアウトプット品質は、標準のLLMを検証ツールとして使用できます。

ORMは比較的単純で計算効率の高いソリューションですが、欠陥のある推論ステップが正しい最終回答を導き出す可能性がある、その結果、モデルが最適ではない推論プロセスを学習するかもしれません。

プロセス報酬モデル（PRM）

PRMは、最終的な回答の精度だけに焦点を当てるのではなく、個々の推論ステップを個別にスコア付けし、報酬（またはペナルティー）を与えます。その結果、よりきめ細かい報酬信号とその後のモデル調整が実現し、より堅固で解釈可能な推論プロセスを備えたモデルが生成されます。

ただし、PRMのトレーニングと実装にはより多くのコストと時間がかかります。PRMへの影響力のある初期のアプローチは、ほぼ全面的に人間の注釈者による面倒なデータ・ラベル付けに頼っていました。⁷ 他のアプローチは、正しい答えが得られる頻度に基づいて推論ステップの妥当性を推測することで、このプロセスを自動化します。⁸

ルールベースの報酬システム

報酬モデルのコストと複雑さを回避するために、一部のRLベースのファイン・チューニングでは、モデルアウトプットの評価作業を簡素化する方法でトレーニング・タスクを設計します。たとえば、DeepSeek-R1手法とR1-Zero手法では、最終的な回答を別のボックス内にフォーマットするようにモデルに指示し、応答全体を解析する必要がある特殊な報酬モデルを使わずに精度を検証できるようにします。他のルールベースの報酬システムは、応答の最後に「待機」を追加して、より多くの探索と自己修正を促すなど、簡単に検証できる特定のマイクロアクションを奨励します。⁹

DeepSeek-R1-Zero：Pure RL

シンプルでわかりやすく、非常に影響力のある強化ファイン・チューニング手法は、DeepSeekがオープンソースのR1-Zero実験推論モデルのトレーニングで初めて開発されました。

DeepSeek-V3をベースとして使用することで、DeepSeekは事前トレーニングから非常にシンプルなルールベースの強化学習スキームへと直接移行しました。

モデル・クエリー：モデルに質問します。""トークンの間に思考プロセスを出力するように指示し、<think> 」および「</think> ""トークンの間に最終的な答えを<answer> 」および「</answer> 出力します。
精度報酬：モデルの回答の品質（生成されたコードの実行品質など）に応じて報酬を与えます。
形式の報酬：応答で""形式を正しく使用したモデルに<think> </think> 」および「<answer> </answer> 報酬を与えます。

驚くべきことに、DeepSeek-R1-Zeroは、明示的な指示がなくても複雑な思考の連鎖を生成し、数学と推論のタスクで目覚ましい性能を発揮した戦略を採用することを学習しました。つまり、最終的な答えを出力する前に「考察する」という指示と、最終的な答えの精度を最大化するという指示だけが与えられた場合、モデルは自然に最適な推論パターンを探索し、「発見」しました。

実際には、この簡素化されたアプローチには重大な欠陥がありました。技術論文によると、「DeepSeek-R1-Zeroは、無限の反復、読みやすさの低下、言語の混合などの課題に直面」しています。それにもかかわらず、この純粋なRLアプローチは、非常に人気のあるDeepSeek-R1モデルを生み出した、より洗練された方法論の基礎となりました。

検索とサンプルベースのアプローチ

ほとんどのCoTベースのRLパラダイムは、単一のモデルのアウトプットの有効性を最適化することを目的としていますが、他の方法では、最適な推論ステップを特定し、動機付けることを目的として、複数の最終アウトプットまたは中間アウトプットを生成します。

このようなアプローチの多くは、モンテカルロツリー検索（MCTS）などの検索ベースの最適化アルゴリズムに依存して、複数の潜在的な次の推論ステップを生成し、後続のステップの品質とそれらがもたらす可能性のある最終的な答えに基づいてそれらを評価します。報酬はその後、望ましい結果に至った推論経路を通じて反復的に逆伝播され、それらの推論ステップが発生する確率を高める形で重みが最適化されます。これは、非常に広範囲の潜在的な決定を伴う推論タスクや、正確な最終答えに到達するために広範囲にわたる長期計画を必要とする推論タスクに特に役立ちます。

もう1つのアプローチは、自己一貫性（多数決とも呼ばれる）です。各タスクは、思考連鎖のプロンプトから始まります。それぞれに独自の推論経路を持つ複数の回答が、モデルのデコーダーからサンプリングされます。サンプリングされたアウトプットの中で最も一貫して表示される最終回答が、最適な回答であると特定されます。これは、ランダム性とハルシネーション（幻覚）を最小限に抑えるための戦略として、またはSFTベースの手法のために高品質の推論データを生成する手段として使用できます。

このような方法の主な欠点は、レイテンシーと計算オーバーヘッドが増加することです。しかし、一部の研究では、検索ベースまたはサンプルベースの推論アルゴリズムを採用した小規模モデルは、従来使用されていた大規模モデルよりも優れた性能効率のトレードオフができることが示されています。¹⁰

SFT、知識蒸留、自己改善のアプローチ

モデルを推論のためにファイン・チューニングする概念的に最も簡単な方法の1つは、難しい入力プロンプトとそれに対応するCoTベースのアウトプットを含むデータセットに対して教師あり学習を使用することです。

従来の方法では、人間が書いた例を通じて「手作業で」トレーニング・データセットを組み立てるのは非常に時間と労力がかかりますが、推論モデルと推論拡張技術の普及により、適切な合成トレーニング・データを生成することが格段に容易になりました。スタンフォード大学とアレン人工知能研究所が実施した研究によると、Qwen2.5-32B-Instructをファイン・チューニングした後、わずか1,000個の質問と推論トレースの組み合わせからなるキュレート・データセットを使用したモードでは、その「s1」モデルは、競合する数学の問題に関するOpenAIのo1プレビューを上回りました。

知識蒸留は、より大規模な推論モデルの思考プロセスを模倣するよう、小規模モデルをトレーニングするためにも利用できます。それには、大規模な「教師」モデルが生成した出力に対してSFTを通じて直接ファイン・チューニングを行います。DeepSeekは、DeepSeek-R1を教師として知識蒸留を使用し、QwenおよびLlamaモデルの複数のサイズの推論調整済みバージョンを作成しました。

他の方法は、モデルの「自己改善」のプロセスを通じて、プロンプトとそれに対応する長いCoTアウトプットのデータセットをブーストラッピングすることを目的としています。独学推論者（STaR）は、効果的な推論トレースの少数の例を提供してから、より多くのサンプルの質問に対する回答と根拠を生成するようにモデルに指示します。その後、最終的に正しい答えを導き出した根拠に基づいてモデルがファイン・チューニングされ、このプロセスが繰り返し実行されます。¹¹強化自己学習（ReST）は、強化ファイン・チューニングに使用される報酬信号（または「ポリシー」）をファイン・チューニングするために、同様の概念的なアプローチを適用します。¹²どちらも多くの派生的な方法論を生み出しています。

AI Academy

ユースケースに適したAIモデルの選択

AIモデルに関しては、大きいほど良いというわけではありません。ここでは、お客様のビジネス・ニーズに適したモデルをどのように見つけるかを学習します。その後、ガイドブックを活用して、学習したことを実践にお役立てください。

エピソードに移動

推論モデルの課題

多くの長所とメリットがあるにもかかわらず、推論LLMには欠点がないわけではありません。

考えすぎ

推論モデル（特にパラメーターが比較的少ないモデル）は、過度に考えすぎる傾向があります。Tencentのある研究によると、推論モデルは同じ答えに到達するために、従来のモデルよりも平均1,953%多くトークンを消費することがわかりました。¹³複数の大学の研究者によって行われた別の研究によると、エージェント環境では、推論モデルは外部のツールや情報源と相互作用する代わりに、拡張された循環推論を行う傾向にあることが判明しました。¹⁴

推論スケーリングの限界

2025年7月にAnthropic社が発表した研究では、このような過度な思考は単に効率性の問題だけではないと主張されています。論文では、「より長い推論によって性能が低下するケースがあり、テスト時の計算と精度の間に反比例の関係が見られる 」とあります。テスト時の計算能力を増やすとモデルの性能が向上することが多いことは経験的に明らかですが、彼らの研究では、推論が長くなるとモデルの弱点やアライメントの問題が増幅され、「推論が増えるとモデルのアウトプットが普遍的に向上するという仮定」に異議を唱える複数のシナリオが示されました。¹⁵

2025年初頭にAppleが行った関連研究では、一連の複雑度の低いタスクでは標準モデルが推論モデルよりも優れた性能を発揮した一方、複雑度の高いタスクでは両方のモデル・タイプが完全に失敗したことが実証されました。Appleの調査では、推論モデルは「計画タスクへの一般化可能な問題解決能力を開発できず、特定の複雑さのしきい値を超えると機能がゼロに急落する」と結論付けています。¹

非推論領域における劣化

推論のファイン・チューニングは通常、数学やコーディングなどの論理領域の複雑なタスクでは大幅な改善を実現しますが、他の領域での性能の低下にもつながる可能性があります。たとえば、DeepSeek-R1の知識蒸留を通じてファイン・チューニングされたLlama 3.1とQwen2.5のバージョンは、元のバージョンと比較して、難しい指示を考察するモデルの能力を測定する一般的なベンチマークであるArenaHardとAlpaca-Eval-2で回帰を示しました。そうは言っても、IBM Granite® 3.2のファイン・チューニングに使われる思考選好最適化（TPO）などの、より広範にターゲットを絞った推論手法により、指示の追従性が大幅に向上します（ただし、数学やコーディングの性能には大きな影響はありません）。

DeepSeek-R1の推論プロセスを模倣するようにLlamaモデルとQwenモデルをファイン・チューニングすると、特定の論理ドメインの性能は向上しましたが、一般的な指示への追跡が低下しました。

コストとレイテンシーの増加

ユーザーは、モデルが「考えている」際に生成するすべてのトークンに対して支払い（および待機）をする必要があります。そして、その「考える」ためのトークンは、利用可能なコンテキスト・ウィンドウを消費しつくします。一部のユースケースでは、その余分な時間と計算能力が正当化されますが、他のユースケースでは、それはリソースの無駄になります。ただし、タスクごと、プロンプトごとに、推論モデルから「標準」モデルに絶えず切り替えるのは通常、現実的ではありません。

推論の労力とハイブリッド推論モデル

解決策の1つは「ハイブリッド推論モデル」です。2025年2月にリリースされたIBM Granite 3.2は、トグル可能な「思考モード」を備えた初の大規模言語モデル（LLM）となり、ユーザーが必要に応じて推論機能を活用し、不要な場合は効率性を優先できるようになりました。¹⁶同じ2月に、Anthropic社のClaude 3.7 Sonnetもこれに続き、APIユーザーがモデルの「思考」時間を細かく制御できる機能を追加しました。¹⁷Googleは、Geminiモデルの「思考予算」を調整するための同様の機能を導入しました。¹⁸ 同様に、OpenAIのo1およびo3推論モデルの「推論努力」は、「低」、「中」、「高」に設定できます。

解釈可能性

表向きは、モデルの思考の連鎖をユーザーに明らかにすることで、LLM がどのように最終的な答えに到達するかを正確に理解するのに役立ち、標準モデルで通常可能なよりも優れた解釈可能性が得られます。しかし、Anthropicの調査によると、推論モデルは必ずしも実際に考察していることを説明するわけではありません。特別設計された一連のタスクを通じて、研究者らは、Claude 3.7 SonnetとDeepSeek-R1の両方がそれぞれの推論を忠実に説明していないことを発見しました。たとえば、正解のヒントが提供された場合、主張されている理論的根拠を説明する際にそれらのヒントが回答で言及されることはほとんどありませんでした。¹⁹

適切な基盤モデルを選ぶ方法

データ・セットの準備と基盤モデルの採用において、適切なアプローチを選択する方法をご覧ください。