RAGテクニック

著者

Shalini Harkar

Lead AI Advocate

さまざまなRAGRAGテクニック

大規模に生成された大規模言語モデル（LLM）はAIアプリケーションを変革しましたが、その知識は静的であり、訓練データからのみ得られるため、依然として様々な欠点があります。ここで、検索拡張生成（RAG）が活躍します。

RAGはリアルタイムデータ取得を組み込むことで生成AIモデルを強化し、取得プロセスがより正確かつタイムリーな出力を生み出すことを保証します。ただし、RAGモデルには主に異なる用途に適した様々な形態が存在します¹。

この記事では、さまざまな RAG テクニックを、その仕組み、各 RAG タイプの長所と制限、およびさまざまなユースケースでの使いやすさとともに説明します。

RAGのパラダイム

RAGモデルの全体的な有効性とサステナビリティーを向上させるために、検索システムはNaive RAGからAdvanced RAG、およびModular RAGへと進化し、性能、コスト、効率の課題に対処してきました。各 RAG テクニックを詳しく見てみましょう。

Naive RAG

Naive RAG は、検索拡張生成の基本的な実装であり、情報の取得と応答の生成が最適化やフィードバックなしで実行されます。この単純な設定では、システムはクエリに基づいて関連データを取得し、それを言語モデル（GPT など）に入力して最終的な回答を生成します² 。

Naive RAGの仕組み

Naive RAG は、検索とコンテンツ生成に、かなり単純な 3 段階のプロセスを採用しています。次のステップでは、取得プロセスの仕組みについて説明します。

クエリのエンコーディング: ユーザーが行ったクエリは、埋め込みモデルを使用して高次元ベクトルに変換され、クエリ全体の意味が捉えられます。
ドキュメント検索: このベクトルを使用して、リポジトリに対して類似性検索を実行し、クエリに関連する上位 N 個の文書を取得します。ナレッジベースは、オープンソースデータセットやエンタープライズデータセットなどの構造化データソースおよび非構造化データソースから構築できます。
応答の生成: 取得されたデータソースは、外部ナレッジに基づいて首尾一貫した有益な応答を合成する言語モデルへの追加のコンテキストとして提供されます ^3、4。

図1は、Naive RAGの仕組みの3段階のプロセス（エンコード、検索、応答生成）を示しています。

Naive RAGの用途

Naive RAG は、高度な精度や柔軟性よりも、シンプルさ、スピード、デプロイメントの容易さが最優先されるシナリオに最適です。シンプルなアーキテクチャーにより、概念実証（PoC）アプリケーションを構築し、煩雑なモデル調整の負担なくアイデアを迅速にテストできるようになります。たとえば、次のような分野で効果的に活用できます。

a.カスタマー・サポートチャットボット: LLM 応答を使用して、頻繁に尋ねられる繰り返しの質問応答シナリオを処理します。

b.要約と情報検索:自然言語処理技術を使用して基本レベルの要約を提供します。

c.企業向け AI システム:リポジトリから関連データを迅速に取得し、一般的なクエリに回答します。

Naive RAGはシンプルで高速ですが、Advanced RAGはより優れた柔軟性、拡張性、およびパフォーマンスを提供し、複雑な実際のアプリケーションに適しています。

Advanced RAG

Advanced RAGとは何か、そしてそれが提供する主要なサービスについて理解しましょう。

Advanced RAGは、Reranker、微調整されたLLM、フィードバックループといった一連のアイデアからなる洗練されたアルゴリズムを活用することで、より優れた検索と生成の力を融合させます。これらの改良により、精度、適応性、性能が向上し、これらのモデルはより複雑な生産グレードのアプリケーションに最適な選択肢となります⁵ 。

Advanced RAGの仕組み

Advanced RAG は、次のように順次的なステップベースのプロセスとして機能します。

1. クエリ処理：ユーザーのクエリを受信すると、クエリの意味を取り込む埋め込みモデルを使用して、高次元ベクトルに変換されます。

2.ドキュメント検索:エンコードされたクエリは、稠密なベクトル検索とスパース検索 (意味的類似性とキーワードベースの検索) の両方を使用してハイブリッド検索を提供する巨大な知識データベースを走査します。したがって、結果には、検索されたドキュメントに意味的なキーワードの一致が導入されます。

3. 取得したドキュメントの再ランク付け：取得ツールは、コンテキストに基づき、文書を取得したクエリに関連して、最終スコアを付けます。

4.生成のためのコンテキスト融合:各ドキュメントは異なる方法でエンコードされているため、デコーダーはエンコードされたすべてのコンテキストを融合して、生成された応答がエンコードされたクエリと一貫性を持つようにします。

5. 応答生成： Advanced RAGのジェネレーター（通常はIBM Granite™モデルやLlamaなどのLLM）が、取得したドキュメントに基づいて応答を提供します。

6.フィードバックループ:Advanced RAGは、アクティブラーニング、強化学習、レトリーバーとジェネレーターの共同トレーニングなどのさまざまな手法を使用して、パフォーマンスを継続的に強化します。このフェーズでは、取得したドキュメントをクリックして関連性を推測するなど、暗黙のシグナルが発生し、生成中にさらに適用するための修正や評価を含む明示的なフィードバックが発生します。したがって、長年にわたってこれらのストラテジーは検索と応答生成のプロセスを改善し、より正確で関連性の高い回答を生成できるようになりました⁶ 。

図2は、Advanced RAGがどのように機能するかを段階的に示しています。

Advanced RAGの用途

Advanced RAGは、リアルタイムの情報検索と動的かつ正確なコンテキストベースの応答を実現する機能により、業界全体のさまざまな用途に非常に幅広く対応できます。その応用範囲は、カスタマーサービスの実現から関連情報の提供による意思決定の改善、パーソナライズされた学習体験の向上に至るまで多岐にわたります。Advanced RAGによる検索・生成能力の向上によりリアルタイム応用は実用化されますが、スケーラビリティとユーザビリティは実運用レベルのユースケースには不十分です。

Modular RAG

Modular RAGはRAGの最も高度なバリエーションであり、情報取得と生成モデルがオープンで構成可能な線形パイプラインのようなアーキテクチャーで動作します。このアプローチにより、カスタマイズ性と拡張性が向上し、さまざまなユースケースのパフォーマンスが向上します。

RAGの動作をモジュールに分散することで、各コンポーネントを独立して適応させ、デバッグ、最適化することができます。では、Modular RAGが実際にどのように機能するか見てみましょう⁷。

1.ユーザークエリの処理:最初のステップは、ユーザーが「最近市場で最も話題の本は何ですか？」といったクエリを送信することです。クエリ処理モジュールは、クエリの言い換え、曖昧性の除去、意味解析の実施などを行い、検索に送信される前により適切な文脈を提供します。

2. 検索モジュール：検索モジュールは、ベクトル・データベースまたはナレッジベース上でクエリを処理し、関連するドキュメントを取得します。埋め込みベースの類似性パラダイムを使用して検索を実行します。

3.フィルタリングおよびランキングモジュール:取得されたドキュメントは、メタデータ、最新性、または関連性に基づいてフィルタリングされます。再ランキングモデルは、最も有用な情報にスコアを付けて優先順位を付けます。

4.コンテキスト拡張モジュール：このモジュールは、検索された情報にナレッジグラフを組み込み、データベースやAPIから得られる構造化データを埋め込み、検索圧縮を適用することで最適なコンテンツ検索を実現します。

5.応答生成: LLM は、取得したコンテキストとともにユーザークエリを処理して、一貫性のある正確な応答を生成し、ハルシネーションを最小限に抑え、関連性を確保します。

6.後処理モジュール：このモジュールは、ファクトチェックによって正確性を確保し、構造化フォーマットによって読みやすさを向上させ、引用を生成することによって信頼性を高めます。

7. アウトプットとフィードバック・ループ： 応答の最終的なアウトプットはユーザーに提示されますが、ユーザーとのやり取りからフィードバック・ループが作成され、時間の経過に伴う検索とモデルの性能を改良を支援します。

図3は、Modular RAGがどのように機能するかを段階的に示しています。

Modular RAGの用途

Advanced RAG は、ドメイン固有の検索やランキング手法など、アプリケーションで大規模なカスタマイズが必要なユースケースに適しています。大規模システムを伴うアプリケーションでは拡張性と保守性が重要であり、さまざまな検索モデルとストラテジーを用いた実験が継続的に行われています⁸ 。

RAGテクニックの長所と短所

Naive RAGは簡単で迅速ですが、多くの場合LangChainなどのフレームワークで構築されるModular RAGは柔軟性、スケーラビリティ、パフォーマンスが向上するため、複雑な現実世界での用途により適しています。Advanced RAGは、リアルタイムのコンテキスト固有の情報を取得することで精度を向上させ、エラーを最小限に抑えます。アクティブラーニングと強化学習(RLHF)を通じてユーザーフィードバックを取り入れて動的に適応します。さらに、専門的なデータベースを統合することで、領域固有の知識を強化します。また、最も関連性の高いデータのみを取得することでLLMのコンテキスト・ウィンドウを最適化し、効率を高めます。ただし、Advanced RAGシステムでは、検索プロセスと生成プロセスの両方により、コンピューティング要件の増加やレイテンシーなどの課題が発生します。広範なナレッジベースを管理するためには多大な参考情報が必要であり、特に検索器、ランキング・モデル、応答ジェネレーターを微調整する場合には複雑な実装と保守が必要です。この分野では、LangChain を使用して開発されたModular RAG アーキテクチャが優れています。モジュール式設計により柔軟なカスタマイズが可能で、リトリーバー、ランカー、ジェネレーターなどの個々のコンポーネントを個別に微調整したり、交換したりすることができます。この方法により、システム全体を停止することなくデバッグと更新が容易になり、保守性が向上します。拡張性は、さまざまなリソースにモジュールを分散することで実現され、コストは検索プロセスを最適化し、LLM の使用を最小限に抑えることで管理されます^{9, 10} 。

RAGシステムの将来的な進歩

高度なプロンプト・エンジニアリング技術と高精度コンテンツ生成のためのRAGモデルを強化する微調整手法を活用した検索システムの開発が、より優れたパフォーマンスと拡張性を確保するために積極的に行われています。

自己 RAG アプローチ、マルチモーダル AI モデル、および改善されたメトリクスによって、今後、検索プロセスがさらに改良され、自然言語によるやりとりにおける追加のコンテキストをより適切に処理できるようになります。

脚注

1. Gao, Y., Zhang, Z., Peng, M., Wang, J., & Huang, J. (2023). Retrieval-Augmented Generation for Large Language Models: A Survey. arXiv preprint arXiv:2312.10997.

2. Wu, S., Wang, D., Lin, Z., Yang, Y., Li, H., & Li, Z. (2024). Retrieval-Augmented Generation for Natural Language Processing: A Survey. arXiv preprint arXiv:2407.13193.

3. Huang, Y., & Huang, J. (2024). A Survey on Retrieval-Augmented Text Generation for Large Language Models. arXiv preprint arXiv:2404.10981.

4. Li, S., Stenzel, L., Eickhoff, C., & Bahrainian, S. A. (2025). Enhancing Retrieval-Augmented Generation: A Study of Best Practices. Proceedings of the 31st International Conference on Computational Linguistics, 6705–6717.

5. Sakar, T., & Emekci, H. (2024). Maximizing RAG Efficiency: A Comparative Analysis of RAG Methods. Natural Language Processing, 1–15.

6. Su, W., Tang, Y., Ai, Q., Wu, Z., & Liu, Y. (2024). DRAGIN: Dynamic Retrieval Augmented Generation based on the Information Needs of Large Language Models. arXiv preprint arXiv:2403.10081.

7. Gao, Y., Xiong, Y., Wang, M., & Wang, H. (2024). Modular RAG: Transforming RAG Systems into LEGO-like Reconfigurable Frameworks. arXiv preprint arXiv:2407.21059.

8. Shi, Y., Zi, X., Shi, Z., Zhang, H., Wu, Q., & Xu, M. (2024). Enhancing Retrieval and Managing Retrieval: A Four-Module Synergy for Improved Quality and Efficiency in RAG Systems. arXiv preprint arXiv:2407.10670.

9. Zhu, Y., Yang, X., Zhang, C., & Dou, Z. (2024). Future Trends and Research Directions in Retrieval-Augmented Generation. Computational Intelligence and Neuroscience, 2024, 1–15.

10. Atos. 2024. A Practical Blueprint for Implementing Generative AI Retrieval-Augmented Generation. Atos. Accessed February 12, 2025.