エージェント型RAGとは

共同執筆者

Staff writer

Staff Editor, AI Models

IBM Think

エージェント型RAGは、AIエージェントを使用して検索拡張生成（RAG）を容易にします。エージェント型RAGシステムは、RAGパイプラインにAIエージェントを追加して、適応性と精度を向上させます。従来のRAGシステムと比較して、エージェント型RAGでは、大規模言語モデル（LLM）を使用して複数のソースから情報検索を実行し、より複雑なワークフローを処理できます。

RAGとは

検索拡張生成は、生成AIモデルを外部の知識ベースに接続する人工知能（AI）アプリケーションです。ナレッジ・ベースのデータにより、ユーザー・クエリーにさらに多くのコンテキストが追加され、LLMはより正確な応答を生成できるようになります。RAGを使用すると、ファイン・チューニングを必要とせずに、ドメイン固有のコンテキストでLLMの精度を高めることができます。

RAG対応のAIモデルは、トレーニング・データのみに依存するのではなく、APIやその他のデータ・ソースに接続し、現在のデータにリアルタイムでアクセスできます。標準のRAGパイプラインは、次の2つのAIモデルで構成されます。

情報検索コンポーネント。通常は、取得するデータを含むベクトル・データベースとペアリングした埋め込みモデル。

生成AIコンポーネント。通常はLLM。

自然言語のユーザー・クエリーに応答して、埋め込みモデルはクエリーをベクトル埋め込みに変換し、知識ベースから同様のデータを取得します。AIシステムは、取得したデータとユーザー・クエリーを組み合わせて、コンテキストに応じた応答を生成します。

エージェント型AIとは

エージェント型AIは、自ら行動方針を決定し実行できるタイプのAIです。本書を公開した時点で利用可能なエージェントのほとんどは、関数呼び出し機能を備えたLLMで、ツールを呼び出してタスクを実行しています。理論的には、AIエージェントは次の3つの重要な特性を持つLLMとなっています。

これには短期と長期の両方のメモリーがあり、複雑なタスクを計画して実行することができます。メモリーを使用すると、エージェントは以前のタスクを参照し、そのデータを使用して将来のワークフローに通知することもできます。エージェント型RAGシステムは、セマンティック・キャッシュを使用して、以前のクエリー、コンテキスト、および結果のセットを保存し、参照できます。

クエリーのルーティング、段階的な計画、意思決定が可能です。エージェントはメモリー機能を使用して情報を保持し、複雑なクエリーやプロンプトに応じて適切な行動方針を計画します。

APIを通じてツール呼び出しを実行できます。より有能なエージェントは、ユーザーの操作に応じて生成するワークフローに使用するツールを選択できます。

エージェント型ワークフローは、1つのAIエージェント、または複数のエージェントを組み合わせたマルチエージェント・システムで構成されます。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

エージェント型RAGと従来のRAGシステムの違い

エージェント型RAGは、従来のRAG実装に比べていくつかの重要な改善をもたらします。

柔軟性：エージェント型RAGアプリケーションは、複数の外部ナレッジ・ベースからデータを取得し、外部ツールの使用を可能にします。標準のRAGパイプラインは、LLMを単一の外部データセットに接続します。たとえば、多くのエンタープライズRAGシステムでは、チャットボットと独自の組織データを含むナレッジ・ベースを組み合わせています。
適応性：従来のRAGシステムは、特定のクエリーに応じて関連情報を検索する事後対応型データ取得ツールです。RAGシステムには、変化するコンテキストに適応したり、他のデータにアクセスしたりする機能がありません。最適な結果を得るには、多くの場合、広範囲にわたる迅速なエンジニアリングが必要になります。

一方、エージェント型RAGは、静的なルール・ベースのクエリー対応ではなく、適応型のインテリジェントな問題解決にレベルアップしています。マルチエージェント・システムは、複数のAIモデルが連携し、互いの仕事に対する確認を促進します。
精度：従来のRAGシステムでは、独自の結果を検証または最適化しません。そのため、システムが許容できる水準で動作しているかどうかを人間が見極める必要があります。システム自体には、適切なデータを見つけているかどうか、あるいはそれをうまく組み込んでコンテキスト認識型生成を促進しているかどうかを知る方法がありません。ただし、AIエージェントは過去のプロセスを反復し、時間の経過とともに結果を最適化できます。
拡張性：RAGエージェントのネットワークが連携し、複数の外部データ・ソースを活用し、ツール呼び出し機能と計画機能を使用することで、エージェント型RAGの拡張性が向上します。開発者は、幅広いユーザー・クエリーを処理できる柔軟でスケーラブルなRAGシステムを組み込むことができます。
マルチモーダル性：エージェント型RAGシステムは、マルチモーダルLLMの最近の進歩の恩恵を受け、画像や音声ファイルなどのより広範なデータ・タイプを処理できます。マルチモーダル・モデルは、複数の種類の構造化データ、半構造化データ、非構造化データを処理します。例えば、最近のいくつかのGPTモデルは、標準的なテキスト生成に加えて、視覚コンテンツや音声コンテンツを生成できます。

オフィスで数人の従業員が働いていると考えてみましょう。従来のRAGシステムは、特定のタスクを与えられ、その達成方法を指示されると、優れたパフォーマンスを発揮する従業員のようなものでした。主導権を握ることに消極的であり、明示的な指示の外にいることに抵抗を感じ、率先して行動することを嫌がり、明確な指示から外れることを不快に感じます。

それに対して、エージェント型RAGシステムは積極的で創造的なチームのような存在です。指示に従うのも得意ですが、率先して自分で課題を解決するのが大好きです。同僚を困惑させたり威圧したりする可能性のある複雑なタスクに対して、独自の解決策を躊躇せずに提案します。

エージェント型RAGは従来型RAGよりも優れているのか

エージェント型RAGは関数呼び出し、マルチステップ推論、マルチエージェント・システムによって結果を最適化しますが、必ずしも最適な選択とは限りません。作業するエージェントが増えると経費も増えるため、エージェント型RAGシステムでは通常、より多くのトークンを支払う必要があります。エージェント型RAGは従来のRAGよりも速度を上げることができますが、モデルがアウトプットを生成するのに時間がかかる可能性があるため、LLMは遅延も発生します。

さらに、エージェントは常に信頼できるとは限りません。複雑さや使用するエージェントによっては、タスクの完了に苦労したり、失敗したりする可能性もあります。エージェントは常にスムーズに連携できるとは限らず、リソースをめぐって競合することもあります。システム内のエージェントが増えるほど、コラボレーションは複雑になり、問題が発生する可能性が高くなります。そして、最も気密性の高いRAGシステムであっても、ハルシネーションの可能性を完全に排除することはできません。

AI Academy

AIの専門家になる

ビジネスの成長を促進するAIへの投資を優先できるように知識を習得します。今すぐ無料のAI Academyを試して、貴社のAIの未来をリードしましょう。

シリーズを見る

エージェント型RAGの仕組み

エージェント型RAGは、1種類以上のAIエージェントをRAGシステムに組み込むことによって機能します。たとえば、エージェント型RAGシステムでは、それぞれが特定のドメインまたはデータ・ソースの種類に特化した複数の情報検索エージェントを組み合わせることができます。1つのエージェントが外部データベースをクエリーし、もう1つのエージェントが電子メールとウェブの結果を調査します。

エージェント型AIフレームワーク（LangChain 、LlamaIndexなど）とオーケストレーション・フレームワーク（LangGraph）は、GitHubにあります。これらを使用すると、最小限のコストでRAGのエージェント型アーキテクチャーを試すことができます。Granite™やLlama-3などのオープンソース・モデルを使用する場合、RAGシステム設計者は、OpenAIなどの他のプロバイダーから要求される料金を軽減しながら、より高いオブザーバビリティーを獲得することもできます。

エージェント型RAGシステムには、次のようなタイプのAIエージェントを1つ以上含めることができます。

ルーティング・エージェント

クエリー・プランニング・エージェント

ReActエージェント

計画および実行エージェント

ルーティング・エージェント

ルーティング・エージェントは、ユーザーからのクエリーに対応するために使用する外部知識ソースとツールを決定します。これらはユーザー・プロンプトを処理し、最適な応答生成につながる可能性が最も高いRAGパイプラインを識別します。単一エージェント型RAGシステムでは、ルーティング・エージェントがクエリーするデータ・ソースを選択します。

クエリー・プランニング・エージェント

クエリー・プランニング・エージェントは、RAGパイプラインのタスク・マネージャーです。複雑なユーザーからのクエリーを処理して、段階的なプロセスに分解します。結果として得られたサブクエリーをRAGシステム内の他のエージェントに送信し、応答を組み合わせて全体的な応答をまとめます。1つのエージェントを使用して他のAIモデルを管理するプロセスは、AIオーケストレーションの一種です。

ReActエージェント

ReAct（推論とアクション）は、ステップバイステップのソリューションを作成してそれに基づいて行動できるマルチエージェント・システムを作成するエージェント・フレームワークです。また、役立つ適切なツールを特定することもできます。各ステップの結果に基づいて、ReActエージェントは生成されたワークフローの後続のステージを動的に調整できます。

計画および実行エージェント

計画および実行エージェント・フレームワークは、ReActエージェントの進化形です。プライマリー・エージェントにコールバックすることなく、マルチステップのワークフローを実行できるため、コストが削減され、効率が向上します。また、計画担当者はタスクに必要なすべての手順を検討する必要があるため、完了率と品質が高くなる傾向があります。