階層的推論モデル(HRM)は、人間の脳がさまざまな時間規模や複雑さで情報を処理する方法を模倣するように設計された実験的なAIアーキテクチャーです。注目すべきは、HRMモデルが、当時最先端の大規模言語モデル(LLM)を、複雑な推論タスクの性能を測定する複数のベンチマークにおいて上回ったことです。しかも、そのモデルはLLMよりもはるかに小さく、トレーニングに使用したデータ・セットもはるかに少ないものでした。
より具体的には、人事管理システム(HRM)はアウトプットを生成するための独自のアルゴリズムと、トレーニング中のモデル・パラメータ最適化のための複数の異なるアルゴリズムを適用する、独自のニューラル・ネットワーク・アーキテクチャーです。これらは通常、推論LLMによって支配されてきた特定のベンチマークにおける性能によってLLMと比較されますが、これは同一または標準的な比較です。人事管理システムは、推論問題専用に設計された狭いタスク固有のモデルですが、推論LLMは、推論問題(他の多くのタスクも含む)に適用できる汎用モデルです。
複雑な問題解決はできても、人事管理システムは会話やコード生成、要約など、通常生成AIモデルに付随するタスクはできません。HRMは、解決してほしい問題の種類について直接トレーニングする必要があります。一方、LLMは通常、膨大で多様なデータで事前学習され、(few-shotプロンプティングを通じて)ルールを 推論 して新しい問題を解決するよう指示されます。
HRMの概念の中心となるのは、人間の脳がさまざまなレベルや頻度で情報を処理する方法からヒントを得た、反復的なループの「階層」です。t「内部ループ」は、下位の計算を高速に実行するモジュールと、その上位の計算によって下位モジュールを制御する、より低速な別のモジュールから構成されます。「外部ループ」は、モデルのアウトプットを精緻化および改善するために、内部ループが繰り返し計算を繰り返すようにガイドします。
HRMは、2025年6月にGuan Wangらによる論文でオープンソース・モデルとして初めて紹介されました。パラメーター数がわずか2700万という規模のこのモデルは、ARC-AGI、Sudoku-Extreme、Maze-Hardといった難しいベンチマークにおいて、OpenAIのo3、AnthropicのClaude 3.7 Sonnet、パラメーター数6710億のDeepSeek-R1といった、はるかに大規模なモデルを大きく上回りました。
このモデル自体は主に実験的なものであり、論文では実用的な制約と将来の改善の未開拓の道筋の両方について指摘しています。とはいえ、その成功、特にトレーニングにおける極めて高いデータ効率と、ほとんどのLLMよりも文字通り数千倍も小さいモデル・サイズを考慮すると、推論システムを拡張するための魅力的な代替アプローチと言えるでしょう。その後の研究、たとえば微小再帰復モデル(TRM)などは、HRMの基本的なアプローチを改良し、HRMが導入した斬新な技術から着想を得ることで、さらなる進歩を遂げました。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
従来の推論モデルは、強化学習によってファイン・チューニングされ、アウトプットを提供する前に段階的な思考の連鎖(CoT)を出力するようファイン・チューニングされたLLMです。推論プロセスを「言語化」するこのプロセスにより、数学、コーディング、その他の複雑な論理的タスクにおけるモデルの精度が向上することが実証されています。
このアプローチの成功は実証済みであるにもかかわらず、LLMは、たとえフロンティア推論LLMであっても、 人工汎用知能(AGI )への道筋にはならず、なることもないだろうと主張されてきました 。神経学的なレベルでは、言語は主にコミュニケーションのための道具であり、思考のための道具ではありません。
大まかに言えば、神経科学にヒントを得たHRMのアプローチは、人間の脳が抽象的な問題を解決する仕組みに近いものです。LLMとは異なり、HRMはこのプロセスを「言語化」することなく、内部で推論します。より専門的な言い方をすれば、従来の推論モデルがトークン空間で「声に出して」推論するのに対し、HRMは潜在空間で内部的に推論します。LLMは、出力する実際の単語(トークン)を繰り返し改良することで「推論」しますが、HRMは隠れた状態、つまり最終的な出力を生成するために使われる、モデル内部の思考のような中間計算を繰り返し改良することで問題を解決します。
最近、複雑な問題を解決した時のことを考えてみてください。心の中で独り言を言ったかもしれませんが、おそらく頭の中で(あるいは声に出して)思考プロセス全体をきちんとした完全な文章で文字通り言葉にしたわけではないでしょう。むしろ、脳が本能的に言葉にせずに動き始めた可能性が高いです。そうした最初の直感的な思考から、より高次の計画らしきものがあなたの心の中に浮かび上がってきました。それから、戦略に必要な個々のステップを頭の中で考え、計画全体を改良していきました。最終的に、満足のいく解決策にたどり着いたわけです。
強化学習テクノロジーでLLMをファイン・チューニングすることで、思考過程を模倣するアウトプットを生成することをモデルに教えることができますが、HRMはシステム神経科学の原理を借りて思考プロセスを 再現することを目指しています。
論文『階層的推論モデル』で説明されているように、HRMの設計は、「システム1」と「システム2」という思考の概念に影響を受けています。これらは、故ノーベル賞受賞者Daniel Kahnemanが著書『Thinking, Fast and Slow』の中で、人間の心が機能するさまざまなレベルを説明するために考案した比喩的な用語です。「システム1」は速く、無意識かつ直感的です。「システム 2」の思考は時間がかかり、慎重で論理的です。したがって、HRMは、下位の計算を処理する高速システムによる演算が、上位の計画処理を行う低速システムによって制御される階層構造を採用しています。
機械学習の原理から言えば、階層型推論モデルは、再帰型ニューラル・ネットワーク(RNN)の高度に特殊化された形態として理解することができ、標準的なRNNの実用的な欠点を緩和するような改良が加えられています。これらの欠点の中で最も注目すべきは、早期収束です。これは、RNNが、トレーニング・データ・シーケンス内のすべてのパターンと依存関係を完全に吸収するかなり前に学習を停止する傾向があることを意味します。
モデルのトレーニング中、RNNは正確な性能を達成するのに十分最適化されていないモデルの重みに急速に収束する傾向があります。これは通常、勾配消失が原因です。計算ステップが多すぎるか、シーケンスが長すぎると、バックプロパゲーション中に計算されるモデル・パラメーターの更新のサイズが非常に小さくなり、ゼロにまで縮小されます。モデルの重みは短期的なパターンを反映した局所平衡に達するので、トレーニング・データのパターンを完全に包括的に反映する全体的な平衡状態に達することができません。
この欠点を修正するために、長短期記憶(LSTM)など、標準的なRNN構造の多くの修正が提案されていますが、HRMでは斬新なアプローチが採用されています。「システム2」のような上位モジュールは、下位モジュールが局所的な均衡状態に収束するたびに、そこから学習するように設計されています。上位システムに対するこの更新により、下位システムが動作するための新しいコンテキストが提供され、新しい局所的均衡に収束するまで学習を続けることができます(その時点で、上位システムは再び更新されます)。
この「内部ループ」のアウトプットは「外部ループ」に送られ、過去のアウトプットを繰り返し改善する方法を学習します。全体として、この構成は、RNNのスピードとシンプルさを活用しながら、再帰型ネットワークよりも安定した、より「深い」学習を可能にします。
HRMモデル・アーキテクチャーの「内部ループ」は2つの回帰モジュールで構成されます。どちらのモジュールも、標準的なトランスフォーマー・ブロック構成において注意メカニズムを使用しています。1つ目の「Lモジュール」は、下位の計算を高速に処理するように設計されています。もう1つの「Hモジュール」は、長期的な計画とより高度な推論を処理するように設計されています。
Lモジュールは基本的に標準的なRNNのように機能し、短期的なパターンを素早く特定し、隠れ状態の更新を停止する傾向があります。しかし、標準的なRNNの時間ステップtにおける状態更新は、前の時間ステップt-1における隠れ状態のみによって決定されるのに対し、Lモジュールの隠れ状態zLの更新、ひいてはそれが焦点を合わせる対象は、Hモジュールの現在の隠れ状態zHによっても決定されます。
Hモジュールの隠れ状態は、Lモジュールよりもはるかにゆっくりと変化します。内部ループはT時間ステップのサイクルで動作します。Lモジュールが隠れ状態をzL T回更新した後、HモジュールはzLの最終状態を使用してzHを更新します。時間ステップTまでに、Lモジュールはすでに局所平衡に収束し、更新を停止している場合がよくあります。しかし、 zLの更新はzHの現在の値に依存するため、 zHの更新ごとにLモジュールの新たなコンテキストが確立されます。これにより、新しい「収束フェーズ」が開始され、下位モジュールが学習を継続できるようになります。
つまり、Lモジュールが短期的なタスクを「解決」するたびに、Hモジュールが更新されます。Hモジュールへのこの更新により、Lモジュールは新しい短期タスクを解決するように指示されます。Hモジュールは基本的に長期計画を行い、Lモジュールはその長期計画に伴う小さなサブタスクを実行します。LモジュールのT回の更新で構成されるこのループはN回実行されます。TとNはどちらも調整可能なハイパーパラメーターです。
全体として、内部ループを動かすコアHRMアーキテクチャーには、4つの学習可能な構成要素があります。
トークン(モデルが解くべきパズルの詳細を表すもの)をベクトル埋め込みに変換する入力ネットワーク
下位再帰モジュール(Lモジュール)
上位再帰モジュール(Hモジュール)は、Nサイクル後に最終的な隠れ状態を出力ネットワークに渡します。
出力ネットワークは、zHの最終値を受け取り、その隠れ状態をsoftmax関数に変換して出力トークンの値を予測する確率に変換します(これらはパズルの解をまとめて表します)。
推論LLMとは異なり、HRMは汎用モデルではありません。解決すべき限られたタスクについて直接学習する必要があります。この論文では、「HRM」が数独、迷路探索、ARC-AGIパズルで優れた能力を発揮したと報告していますが、著者らは実際には3つの別々のHRMについて言及しています。1つは数独、もう1つは迷路、もう1つはARC-AGIパズルでトレーニングされました。
推論LLMは、大量のラベルなしデータ点を用いた教師あり学習によって、初期の事前トレーニング を受けます。その後、適切な反応構造を学習するための教師ありファイン・チューニング(SFT)、タスクを希望通りに完了させる方法を学習するためのインストラクション・チューニング、そしてCoT推論を定着させるための強化学習によるさらなるファイン・チューニングが行われます。全体として、これには数百万、さらには数十億のデータ点と数週間のトレーニングが必要になります。
HRMのトレーニング・データを作成するために、著者らはデータ拡張を行いました。ほんの一握りのオリジナルのトレーニング・サンプル(未解決のパズルとその解決策のラベル付きペアで構成)のシードから、小規模な変換(回転、反転、色の交換など)を使用して追加のサンプルが作成されます。論文で説明されているそれぞれのHRMは、このようなデータ拡張を小規模なオリジナル・サンプルに適用して作成された、(およそ)1,000個のトレーニング例のみでトレーニングされています。
どちらのアプローチにもメリットがあります。推論LLMは、明示的な指示がなくても特定のパズルのルールを推測できますが、その能力を得るには何兆ものトークンのデータが必要です。HRMはトレーニングされた特定のタスクしか実行できませんが、大幅に少ないパラメーターとトレーニング例で、同等以上の能力を達成できます。
HRMは、賢い最適化手法を利用して、モデル・パラメーターの最適化プロセスを簡素化および安定化させ、標準RNNに固有の欠点を再度回避します。
RNNは、時間経過によるバックプロパゲーション(BPTT)と呼ばれる、バックプロパゲーションの反復固有の形式を使用して、各時間ステップで損失がどのように蓄積されるかの勾配を計算します。標準RNNでは時間ステップ量が増えるにつれて、BPTTは必然的に勾配消失の問題に直面します。
これを回避し、メモリー要件を大幅に削減するために、HRMは最適化目標を簡素化します。HRMは、すべての時間ステップで勾配を計算するのではなく、Lモジュールの最終状態とHモジュールの最終状態でのみBPTTを実行します。これは、単純な仮定に基づいています。最終アウトプットをどのように変更し、モデルの重みを最適化して、それに応じてLモジュールとHモジュールの最終状態に変更する必要があるかを知っていれば、他のすべては自動的に行われます。
HRMの他の要素と同様に、これは神経科学と逸話的な経験の両方から着想を得ています。ジェンガという積み木ゲームを学ぼうとしている人(あるいはモデル)を想像してみてください。すべての動きに対してブロックの個々の突っつきや押し込みを最適化することを学ぶ必要はありません。ブロックが特定の方法(インプット)で設定されており、選択した動きによってすべてがひっくり返された(アウトプットの損失)と仮定すると、テクニックを向上させるには、次の2つのことだけをしっかりと把握する必要があります。
論文の著者らは、BPTTのこの1段階近似法が十分に機能するため、これら2つの考慮事項のみを最適化するだけで、強力で安定した学習ダイナミクスを確立できることを発見しました。
HRMでは、モデルが最終的なアウトプットを繰り返し改良できるようにする外部ループも採用しています。このプロセスは、HRM論文の著者ha「ディープ・スーパービジョン(Deep Supervision)」と呼んでいます。その後の研究では、内部ループよりも外部ループがHRMの最も重要な要素であることが示唆されています。
ニューラル・ネットワークの標準的な教師あり学習では、トレーニング対象のモデルにインプットが与えられ、1つのフォワード・パスを実行してアウトプットを生成します。損失関数はそのアウトプットの誤差を測定します。次に、バックプロパゲーションを使用して損失の勾配、つまりニューラル・ネットワークの変数に変更を加えると全体的な損失がどのように増減するかを計算します。最後に、何らかの勾配降下アルゴリズムはその情報を使用してモデル・パラメーターを更新します。その後、この反復プロセスを再開し、許容できるしきい値まで損失が最小化されるまで繰り返します。
ディープ・スーパービジョンでは、モデルが単一のフォワード・パスを通じて初期アウトプットを生成した後、プロセス全体を最初からやり直すことはありません。代わりに、複数のフォワード・パスが含まれ、それぞれが「セグメント」と呼ばれます。各セグメントの後、損失が計算され、それに応じてモデル・パラメーターが最適化されます。そして、Hモジュール(zH )とLモジュール(zL )の最終的な隠れ状態は、次のフォワード・パスの開始点としてモデルにフィードバックされます。これにより、モデルは、前のセグメントからのモデル・パラメーターの更新から「学習したもの」を使用して、アウトプットを反復的に改良することができます。
このプロセスはMセグメントに対して繰り返され、各セグメントm+1の内部ループの開始点は 、 です。です。つまり、前のセグメントmにおけるT時間ステップのN回の内部ループ後のHモジュールとLモデルの最終的な隠れ状態です。
モデルの効率性を維持するために、HRMの開発者は、あるアウトプットが十分であるかどうか(あるいは逆に、別の改良ループを開始する必要があるかどうか)をモデルが学習できるように、適応型計算時間メカニズムを追加しました。これを可能にするため、このモデルには一般的な強化学習アルゴリズムの一種であるQ学習が組み込まれています。
各セグメントの後、上位モジュールの最終状態であるz Hは、アウトプット・ネットワークだけでなく、独自の学習可能な重みを持つ「Qヘッド」と呼ばれる別のモジュールにも渡されます。z HがQ ヘッドの重みで乗算された後、インプットを 0 ~ 1 の間の値に圧縮するシグモイド関数を使用して、halt(停止)のアウトプットとcontinue(続行)のアウトプットを出力します。haltの値が大きい場合、モデルは最終アウトプットを生成します。continueの値が大きい場合、モデルは別のセグメントを開始します。
したがって、各セグメント後の詳細な監視プロセスにおける全体的な損失関数は、次の2つの項を組み合わせます。
有る部分は作業自体の損失を反映:モデルのアウトプットはどれほど正確だったか?
もう1つはQヘッドからの損失を反映:モデルが「continue(継続)」よりも「halt(停止)」の方が高い値を予測した場合、それは正しい決定を下したのか?
時間の経過とともに、モデルは、より難しい問題にはより多くの計算処理(つまり、より多くの改良ループを実行)を行い、より簡単な問題には少ない計算処理を費やすことを学習します。トランスフォーマーの歴史のかなり初期に、実装は異なるものの、似たようなアイデアが検討されていたことは注目に値します。
ARC-AGIベンチマークを管理する非営利組織ARC Prizeは、HRMの外部分析を実施し、「精緻な外部ループがHRMの能力にとって不可欠な要素である」ことを発見しました。
推論中、絞り込みループを1つ追加するだけで、HRMの精度はほぼ2倍になりました(18.6%から35.5%)。追加の性能向上は、収益が大幅に低下するものの、8ループ(38.1%)と16ループ(39.0%)でした。内部ループのない標準的なTransformerモデル(ただし、アーキテクチャー、モデル・サイズ、人事管理システムとトレーニング・パイプラインが同一)の場合でも、外部改良ループを追加することで同様の性能向上が得られました。
外部ループもトレーニングに不可欠です。改良ループの数を推論コストに保った場合でも、トレーニングに改良ループを1回だけ追加することで、モデルの精度が19%(改良なし)から32%(改良1回)に向上しました。実際、さらなる実験では、トレーニング中に改良ループを増やす方が、推論中に精緻ループを増やすよりもはるかに大きな影響を与えることが示されています。トレーニングと推論の両方において改良ループを一切使用しなかった場合、モデルのスコアは18.6%でした。推論時には改良ループがなく、トレーニング時には16回の改良ループを行った結果、モデルのスコアは34.9%でした。
逆に、内部ループは、HモジュールとLモジュールを標準Transformerモデルの注意ブロックに置き換えた同一サイズのモデルよりも比較的小さなサンプルを提供することが示されています。これらの調査結果がARC-AGIベンチマークのタスクに特有のものなのか、HRMが処理する可能性のあるすべての推論タスクに共通するものなのかは不明確です。
階層的推論モデルは、ニューラル・ネットワークのアーキテクチャやトレーニング手法に有意義な革新をもたらし、すでにディープラーニング研究に影響を与え始めていますが、HRM自体の実際的な有用性は現時点では不確実です。
大規模な推論LLMと比較して、HRMは大幅に小規模で、トレーニングと実行が安価であり、非常にアクセスしやすい量のトレーニング例でトレーニングできます。これは、フロンティアの能力は、ほとんどの研究者や組織の手の届かない巨大なモデルやトレーニング・データ・セットによってのみ達成できるという考え方に反しています。
しかし、主流の推論モデルの有用性は、その一般化能力にあります。つまり、さまざまな自然言語タスクや指示の理解と実行の文脈で、高度に専門化された推論タスクを実行することができるのです。HRMSの機能は極めて限定的であるため、より大規模なワークフローに統合することは非常に困難になります。
HRMは、トレーニング中に経験した非常に特殊なパズルしか解くことができません。別のパズル形式が、これまでに見たものと非常によく似たルールとロジックを使用している場合でも(ある種類のパズルが得意な人間が別のタイプのパズルも得意であるようなレベルで)、HRMでは処理できませんでした。クロスタスク転移学習を活用できる機能を導入するトレーニング・パイプラインの改善により、HRMの実用性が大幅に向上します。
人事管理システムは、問題を推論して出力を改善する能力を経験的に示していますが、追跡可能な「思考プロセス」の欠如により、解釈可能性が大幅に低下します。 とはいえ、解釈可能性はディープラーニングでトレーニングされたすべてのAIシステムで一般的な問題であり、研究によればLLMがユーザーに提供する推論は必ずしも本当の「思考プロセス」に忠実とは限らないことが示されています。