IBMニュースレター
The DX Leaders
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
以前の機械学習モデルは、事前にプログラムされた一連のルールに従って、意志決定に到達しました。AIの進歩により、より進化した推論能力を備えたAIモデルが生まれましたが、情報を知識に変換するには依然として人間の介入が必要です。エージェント推論はそれをさらに一歩進めて、AIエージェントが知識を行動に移せるようにします。
「推論エンジン」は、プランニングおよびツール・コーリングの各フェーズ(いずれもエージェント型ワークフローに含まれる)を駆動します。プランニングはタスクをより扱いやすい推論単位に分解し、ツール・コーリングは、利用可能なツールを通じてAIエージェントの意思決定を支援します。こうしたツールには、アプリケーション・プログラミング・インターフェース(API)、外部のデータセット、ナレッジ・グラフなどのデータソースが含まれます。
企業にとって、エージェント型AIは、検索拡張生成(RAG)を通じて、推論プロセスをエビデンスに基づいてさらに強化することができます。RAGシステムは、企業データやその他の関連情報を取得し、それをAIエージェントの推論のためのコンテキストに追加することが可能です。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
エージェント推論は、エージェントのアーキテクチャーと種類に基づいてさまざまな方法でアプローチできます。ここでは、AIエージェント推論の一般的なテクニックを、それぞれの長所と短所を含めていくつか紹介します。
● 条件付きロジック
●ヒューリスティック
● ReAct(推論+アクション)
● ReWOO(観察なしの推論)
● 自己反省
● マルチエージェント推論
シンプルなAIエージェントは、事前にプログラムされた一連の条件アクション・ルールに従います。これらのルールは通常、「if-then」ステートメントの形式を取り、「if」部分は条件を指定し、「Then」部分はアクションを示します。条件が満たされると、エージェントは対応するアクションを実行します。
この推論手法は、特定のドメインに特化したユースケースに特に適しています。たとえば金融分野では、不正アクセス検知エージェントが、銀行によって定義された一連の基準に従って、ある取引を不正と判定します。
条件付きロジックでは、エージェント型AIは、認識できないシナリオに直面した場合、適切にアクションを取ることができません。この柔軟性の欠如を軽減するために、モデルベースのエージェントはメモリーと認識を活用して、環境の現在のモデルや状態を保管します。この状態は、エージェントが新たな情報を受け取るたびに更新されます。ただし、モデルベースのエージェントも依然として、条件とアクションのルールに縛られます。
たとえば、ロボットが倉庫内を移動して製品を棚に補充する場合、倉庫のモデルを参照してルートを決定しますが、障害物を感知すると、その経路を変更して障害物を回避し、移動を続けることができます。
AIエージェント・システムは、推論にヒューリスティックを使用することもできます。たとえば、目標ベース・エージェントには、事前に設定された目標があります。検索アルゴリズムを使用して、目標の達成に役立つ一連のアクションを見つけ、これらのアクションを実行する前に計画します。
たとえば、自動運転車には、目的地までの最速ルートをリアルタイムで提案することを目的としたナビゲーション・エージェントが搭載されている場合があります。このエージェントは、さまざまなルートを検索し、最も速いものを推奨できます。
目標ベース・エージェントと同様に、効用ベース・エージェントは目標を達成するアクション・シーケンスを検索しますが、効用も考慮に入れます。最も最適な結果を判断するために、これらは効用関数を使用します。ナビゲーション・エージェントの例では、最も速いルートだけでなく、燃料消費量が最も少ないルートを見つけることも任せられます。
この推論パラダイムには、段階的な問題解決と応答の反復的な強化のためのThink- Act-Observerループが含まれています。エージェントはその推論プロセスのトレースを生成するように指示されますが1、これは生成AI(genAI)モデルや大規模言語モデル(LLM)の思考連鎖推論で起こることとよく似ています。その後、その推論に基づいて行動して、アウトプットを観察し2、観察に基づいて新しい推論でコンテキストを更新します。エージェントは、答えまたは解決策に到達するまでこのサイクルを繰り返します。2
ReActは自然言語特有のタスクに優れており、トレーサビリティによって透明性が向上します。しかし、同じ推論とアクションを繰り返し生成することで、無限ループにつながる可能性があります。2
ReActとは異なり、ReWOOは観察ステップを省略し、その代わりに先を見越して計画を立てます。このエージェント型推論の設計パターンは、プランナー、ワーカー、ソルバーの3つのモジュールで構成されています。3
プランナー・モジュールは、タスクをサブタスクに分割し、それぞれをワーカー・モジュールに割り当てます。ワーカーは、各サブタスクを証拠と事実で裏付けるために使用されるツールを組み込みます。最後に、ソルバー・モジュールは、すべてのサブタスクとそれに対応する証拠を合成し、結論を導き出します。3
ReWOOは、特定の自然言語処理(NLP)ベンチマークにおいて、ReActを上回る性能を示します。しかし、追加のツールを組み込むとReWOOのパフォーマンスが低下する可能性があり、環境に関するコンテキストが限られている状況ではうまく機能しません。3
エージェント型AIは、推論能力の評価と改善の一環として自己内省を取り入れることもできます。その一例がLanguage Agent Tree Search(LATS)であり、これはLLMにおける思考の木による推論と共通点を持ちます。
LATSは、研究者がLLMベースのエージェントにモンテカルロ木探索を適応させた際に、モンテカルロ強化学習法からインスピレーションを得たものです。4LATSは状態をノードとして、エッジをアクションとして表すDecision Treesを構築し、そのツリーで潜在的なアクションのオプションを検索し、状態評価器を採用して特定のアクションを選択します。2また、自己反映による推論ステップを適用し、独自の観測と言語モデルからのフィードバックを取り入れて、推論のエラーを特定し、代替案を推奨します。2推論エラーと反映はメモリーに保存され、将来参照するための追加コンテキストとして機能します。4
LATSは、コーディングやインタラクティブな質問応答などのより複雑なタスクや、Web検索やナビゲーションなどのワークフローの自動化に優れています。4ただし、より複雑なアプローチと追加の自己反映ステップにより、LATSはReActのような方法と比較して、リソースと時間を集約できます。2
マルチエージェント・システムは、複数のAIエージェントが協力して複雑な問題を解決する仕組みです。各エージェントは特定のドメインに特化しており、それぞれ独自のエージェント型推論戦略を適用することができます。
ただし、意思決定プロセスはAIシステムのアーキテクチャーによって異なる場合があります。階層型または垂直型エコシステムでは、1つのエージェントがAIオーケストレーションのリーダーとして機能し、どのアクションを実行するかを決定します。一方、水平アーキテクチャーでは、エージェントは集合的に決定します。
推論はAIエージェントの中核にあり、より強力なAI機能を実現できるものですが、限界もあります。エージェント推論には以下のような課題があります。
● 計算の複雑さ
● 解釈可能性
● 拡張性
エージェント型推論の実装は容易とは限りません。このプロセスには、特に現実世界の複雑な問題を解決する際に、多くの時間と計算リソースが必要とされます。企業は、エージェント型推論戦略を最適化する方法を見つけ、開発に必要なAIプラットフォームやリソースへの投資を行う準備が求められます。
エージェント推論手法は万能のソリューションではないため、AIアプリケーション間で拡張することが困難です。企業は、ユースケースごとにこれらの推論設計パターンを調整する必要があるかもしれませんが、それには時間と労力がかかります。
すべてのリンク先は、ibm.comの外部です。
1 ReAct: Synergizing Reasoning and Acting in Language Models, arXiv, 10 March 2023
2 The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey, arXiv, 17 April 2024
3 Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models, arXiv, 6 June 2024
4 Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models, arXiv, 6 June 2024
生成AIを使用してワークフローとプロセスを自動化する強力なAIアシスタントとエージェントを構築、デプロイ、管理しましょう。
信頼できるAIソリューションでビジネスの未来を構築します。
IBMコンサルティングAIサービスは、企業がAIをトランスフォーメーションに活用する方法を再考するのに役立ちます。