エージェント推論とは

共同執筆者

Staff Writer

IBM Think

Staff Editor, AI Models

IBM Think

エージェント型推論とは

エージェント推論は、意思決定を処理するAIエージェントのコンポーネントです。これにより、人工知能エージェントは、認識と記憶に依存しながら条件付きロジックまたはヒューリスティックを適用することで自律的にタスクを実行できるようになり、目標を追求し、可能な限り最良の結果を得るために最適化できるようになります。

以前の機械学習モデルは、事前にプログラムされた一連のルールに従って、意志決定に到達しました。AIの進歩により、より進化した推論能力を備えたAIモデルが生まれましたが、情報を知識に変換するには依然として人間の介入が必要です。エージェント推論はそれをさらに一歩進めて、AIエージェントが知識を行動に移せるようにします。

「推論エンジン」は、プランニングおよびツール・コーリングの各フェーズ（いずれもエージェント型ワークフローに含まれる）を駆動します。プランニングはタスクをより扱いやすい推論単位に分解し、ツール・コーリングは、利用可能なツールを通じてAIエージェントの意思決定を支援します。こうしたツールには、アプリケーション・プログラミング・インターフェース（API）、外部のデータセット、ナレッジ・グラフなどのデータソースが含まれます。

企業にとって、エージェント型AIは、検索拡張生成（RAG）を通じて、推論プロセスをエビデンスに基づいてさらに強化することができます。RAGシステムは、企業データやその他の関連情報を取得し、それをAIエージェントの推論のためのコンテキストに追加することが可能です。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

エージェント型推論戦略

エージェント推論は、エージェントのアーキテクチャーと種類に基づいてさまざまな方法でアプローチできます。ここでは、AIエージェント推論の一般的なテクニックを、それぞれの長所と短所を含めていくつか紹介します。

● 条件付きロジック

●ヒューリスティック

● ReAct（推論＋アクション）

● ReWOO（観察なしの推論）

● 自己反省

● マルチエージェント推論

条件付きロジック

シンプルなAIエージェントは、事前にプログラムされた一連の条件アクション・ルールに従います。これらのルールは通常、「if-then」ステートメントの形式を取り、「if」部分は条件を指定し、「Then」部分はアクションを示します。条件が満たされると、エージェントは対応するアクションを実行します。

この推論手法は、特定のドメインに特化したユースケースに特に適しています。たとえば金融分野では、不正アクセス検知エージェントが、銀行によって定義された一連の基準に従って、ある取引を不正と判定します。

条件付きロジックでは、エージェント型AIは、認識できないシナリオに直面した場合、適切にアクションを取ることができません。この柔軟性の欠如を軽減するために、モデルベースのエージェントはメモリーと認識を活用して、環境の現在のモデルや状態を保管します。この状態は、エージェントが新たな情報を受け取るたびに更新されます。ただし、モデルベースのエージェントも依然として、条件とアクションのルールに縛られます。

たとえば、ロボットが倉庫内を移動して製品を棚に補充する場合、倉庫のモデルを参照してルートを決定しますが、障害物を感知すると、その経路を変更して障害物を回避し、移動を続けることができます。

ヒューリスティック

AIエージェント・システムは、推論にヒューリスティックを使用することもできます。たとえば、目標ベース・エージェントには、事前に設定された目標があります。検索アルゴリズムを使用して、目標の達成に役立つ一連のアクションを見つけ、これらのアクションを実行する前に計画します。

たとえば、自動運転車には、目的地までの最速ルートをリアルタイムで提案することを目的としたナビゲーション・エージェントが搭載されている場合があります。このエージェントは、さまざまなルートを検索し、最も速いものを推奨できます。

目標ベース・エージェントと同様に、効用ベース・エージェントは目標を達成するアクション・シーケンスを検索しますが、効用も考慮に入れます。最も最適な結果を判断するために、これらは効用関数を使用します。ナビゲーション・エージェントの例では、最も速いルートだけでなく、燃料消費量が最も少ないルートを見つけることも任せられます。

ReAct（推論＋アクション）

この推論パラダイムには、段階的な問題解決と応答の反復的な強化のためのThink- Act-Observerループが含まれています。エージェントはその推論プロセスのトレースを生成するように指示されますが¹、これは生成AI（genAI）モデルや大規模言語モデル（LLM）の思考連鎖推論で起こることとよく似ています。その後、その推論に基づいて行動して、アウトプットを観察し²、観察に基づいて新しい推論でコンテキストを更新します。エージェントは、答えまたは解決策に到達するまでこのサイクルを繰り返します。²

ReActは自然言語特有のタスクに優れており、トレーサビリティによって透明性が向上します。しかし、同じ推論とアクションを繰り返し生成することで、無限ループにつながる可能性があります。²

ReWOO（観察なしの推論）

ReActとは異なり、ReWOOは観察ステップを省略し、その代わりに先を見越して計画を立てます。このエージェント型推論の設計パターンは、プランナー、ワーカー、ソルバーの3つのモジュールで構成されています。³

プランナー・モジュールは、タスクをサブタスクに分割し、それぞれをワーカー・モジュールに割り当てます。ワーカーは、各サブタスクを証拠と事実で裏付けるために使用されるツールを組み込みます。最後に、ソルバー・モジュールは、すべてのサブタスクとそれに対応する証拠を合成し、結論を導き出します。³

ReWOOは、特定の自然言語処理（NLP）ベンチマークにおいて、ReActを上回る性能を示します。しかし、追加のツールを組み込むとReWOOのパフォーマンスが低下する可能性があり、環境に関するコンテキストが限られている状況ではうまく機能しません。³

自己反省

エージェント型AIは、推論能力の評価と改善の一環として自己内省を取り入れることもできます。その一例がLanguage Agent Tree Search（LATS）であり、これはLLMにおける思考の木による推論と共通点を持ちます。

LATSは、研究者がLLMベースのエージェントにモンテカルロ木探索を適応させた際に、モンテカルロ強化学習法からインスピレーションを得たものです。⁴LATSは状態をノードとして、エッジをアクションとして表すDecision Treesを構築し、そのツリーで潜在的なアクションのオプションを検索し、状態評価器を採用して特定のアクションを選択します。²また、自己反映による推論ステップを適用し、独自の観測と言語モデルからのフィードバックを取り入れて、推論のエラーを特定し、代替案を推奨します。²推論エラーと反映はメモリーに保存され、将来参照するための追加コンテキストとして機能します。⁴

LATSは、コーディングやインタラクティブな質問応答などのより複雑なタスクや、Web検索やナビゲーションなどのワークフローの自動化に優れています。⁴ただし、より複雑なアプローチと追加の自己反映ステップにより、LATSはReActのような方法と比較して、リソースと時間を集約できます。²