GraphRAGとは

GraphRAGとは

GraphRAGは、知識グラフ(KG)のようなグラフ構造データを組み込んだ検索拡張生成(RAG)の進化版です。1意味的に類似したテキストを検索するためにベクトル検索に依存するベースラインRAGシステムとは異なり、GraphRAGは、ドメイン固有のクエリに基づいて情報を検索し処理するためにグラフの関係構造を活用します。

GraphRAGは、大規模言語モデル(LLM)の限界に対処するため、2024年にMicrosoft社の研究によって導入されました。2従来のLLMはエンティティ間の関係を理解する能力がないため、特にプライベート・データや構造化データの推論において、複雑なワークフローに苦労することがよくあります。GraphRAGは、グラフ・データベースを使用してこれらの関係をモデル化し、複雑なクエリの処理、コンテキスト情報の取得、生成AIアプリケーションの精度の向上を可能にすることで、この問題を解決します。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ご登録いただきありがとうございます。

ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。

GraphRAGの仕組み

検索拡張生成(RAG)とは、ベクトル・データベース、外部知識ソース、内部知識ベースから類似性検索を用いて関連情報を検索する技術です。次に、この取得した情報をLLMと組み合わせて、正確でコンテキストに応じたアウトプットを生成します。従来のRAGアプリケーションは、生成AIアプリケーションにおけるLLMの機能を強化する一方で、データ内の複雑なデータ関係を捉える能力に欠けています。マルチホップ推論(複数のソースからの情報を組み合わせ、論理的な接続や間接的な推論を通じて答えを導き出す)、リレーショナル・コンテキスト、階層データの理解などのタスクの実行は困難です。たとえば、従来のRAGアプローチでは、「関係理論を開発したのは誰なのか」といったクエリーに苦労する可能性があります。エンティティー間の関係に関する推論が必要だからです。

GraphRAGは、情報をノード(人や場所のような実体)、エッジ(それらの実体間の関係)、ラベル(ノードやエッジのカテゴリーを定義する属性)のネットワークとして整理するグラフ構造データを取り入れることで、この問題を克服しています。たとえば、ナレッジ・グラフは、「Albert Einsteinが—相対性理論を—発見しました。」をグラフ構造化された情報の断片として表現し、GraphRAGによる情報の検索と処理を容易にします。この例では、ノードは「Albert Einstein」と「相対性理論」であり、エッジは「発見しました」です。

GraphRAGアーキテクチャー

GraphRAGのコンポーネント

GraphRAGは、次の4つの主要コンポーネントで構成されています。

  1. クエリー・プロセッサー

  2. 抽出機能

  3. オーガナイザー

  4. ジェネレーター

クエリー・プロセッサー

ユーザーのクエリーは前処理され、グラフ構造に関連する主要なエンティティーと関係が特定されます。固有表現抽出(Named Entity Recognition)や機械学習からのリレーショナル抽出などの技術が、クエリーをグラフ内のノードやエッジにマッピングするために使用されます。たとえば、「相対性理論を開発したのは誰ですか」といったクエリーが考えられます。「Albert Einstein」をノードとして、「発見しました」をグラフ内で検索する関係として識別します。グラフ・クエリー言語であるCypherのようなツールは、ナレッジ・グラフからドメイン固有のデータを取得するために使用されます。

抽出機能

取得したクエリーは、処理されたクエリーに基づいて外部のグラフ・データ・ソースから関連するコンテンツを見つけて抽出します。テキストや画像のベクトル埋め込みに依存する従来のRAGシステムとは異なり、GraphRAG Retrieverは、意味信号と構造シグナルの両方を活用してグラフ構造化データを処理します。グラフ横断アルゴリズム(BFS)や深層優先検索(DFS)などの手法を使用し、グラフを調査して関連するノードやエッジを見つけます。その他の手法には、グラフニューラルネットワーク(GNN)(グラフの構造を学習してデータを効果的に取得する高度なAIモデル)、適応検索(検索するグラフの量を動的に調整し、無関係な情報やノイズを減らす)、および埋め込みなどがあります。「相対性理論を発見したのは誰ですか?」というクエリーに対して、抽出機能はグラフ内のノード「相対性理論」を見つけ、「発見者」の関係に従って、「Albert Einstein」を見つけます。

オーガナイザー

取得されたグラフ・データは、グラフ・プルーニング、再ランキング、拡張などの手法を用いて、無関係な情報やノイズの多い情報を除去するように改良されます。オーケストレーションは、重要なコンテキスト情報を保持しながら、取得したグラフがクリーンでコンパクトで、すぐに処理できるようにするのに役立ちます。「相対性理論を発見したのは誰ですか?」というクエリーに対して、オーガナイザーは、無関係なノードやエッジを削除することで、取得したグラフ・データを洗練させ、関連性がある関係「Albert Einsteinが—相対性理論を—発見しました」のみが保持されるようにします。

ジェネレーター

クリーニングされたグラフ・データは、最終的なアウトプットの生成に使用されます。これには、LLMを使用したテキストベースの回答の生成や、分子設計やナレッジ・グラフの拡張など、科学的タスクのための新しいグラフ構造の作成が含まれます。「相対性理論を発見したのは誰ですか?」というクエリーに対して、GraphRAGはグラフから「Albert Einstein」を取得し、「Albert Einsteinが相対性理論を発見しました。」という答えを生成します。生成AI技術が最終的な回答を合成するために用いられます。

GraphRAGの例

GraphRAGの用途

GraphRAGは、グラフベースの推論、ベクトル検索、生成AIを組み合わせ、深い文脈情報を必要とするドメイン固有のタスクを処理することで、業界全体に変革をもたらします。以下では、GraphRAGの主なアプリケーションの一部について説明します。

  1. クエリー中心のテキスト要約(QFS)

  2. パーソナライズされた推奨事項

  3. 意思決定支援

  4. 不正アクセス検知と防止

  5. 知識の管理と検索

クエリー中心のテキスト要約(QFS)

GraphRAGはクエリに特化したテキスト要約に使用できます。グラフ構造化されたテキスト表現から情報を取得および合成することで、特定のユーザーのクエリーに応答することに重点を置いています。ある調査では、ポッドキャストの書き起こしやニュース記事などの大規模なデータ・セットに対するグローバルな探索的質問への回答におけるGraphRAGの有効性が実証されました。3包括的で多様な洞察を必要とするタスクにおいて、従来のベクトルベースのRAGシステムを上回るパフォーマンスを示しました。たとえば、GraphRAGは、技術リーダーとの会話を特徴としたポッドキャストのデータセット(約100万トークン機能)および医療、ビジネス、テクノロジーのトピックについて報じているニュース・データセット(約170万トークン)でテストされました。「技術リーダーはプライバシー法をどのように捉えているのか」「公衆衛生上の重要な優先事項は何か?」などの質問が含まれます。

GraphRAGは、エンティティ(例:「プライバシー法」)と関係(例:「技術への影響」)でナレッジ・グラフを構築し、階層コミュニティー(例:高レベルのトピックを特定のサブトピックに整理する接続されたノードのグループ)に整理することで、これらのデータセットを処理します。事前に生成されたコミュニティーの概要により、システムは関連する洞察を効率的に取得して、組み合わせることができます。従来のRAGと比較して、GraphRAGは、ルート・レベルの要約に必要なトークンを最大97%削減しながら、生成した回答のより高い包括性(72〜83%)と多様性(62〜82%)を達成しました。この機能により、GraphRAGはジャーナリズム、教育プログラム、研究などの分野での理にかなったタスクに理想的なツールとなっています。

パーソナライズされた推奨事項

電子商取引やエンターテインメントなどの分野で、GraphRAGはチャットボットと推奨エンジンがパーソナライズされたエクスペリエンスを提供できるようにします。たとえば、電子商取引では、ユーザーと製品の間の過去のやり取りからグラフを作成することができます。GraphRAGは、ユーザーの好みや行動を明らかにする主要なサブグラフを抽出することで、増大するユーザー・インタラクション・データの管理を支援します。研究では、複数の抽出機能を使用して関連するサブグラフを抽出することでユーザーの行動予測が強化され、同様の過去の問題のサブグラフを取得することでカスタマー・サービスの質問応答システムの品質が向上することが実証されています。4

意思決定を支援

医療分野では、GraphRAGはグラフ・データベース内で病気、症状、治療間の関係を分析することで、複雑な症状を抱える医師が診断するのを支援します。関連する医学研究、症例レポート、医薬品情報を検索して、可能性のある診断を提案し、効果的な治療選択肢を強調し、さらには潜在的な医薬品の相互作用を警告します。この機能により、医療従事者はより多くの情報に基づいた意思決定を行い、診断ミスを減らし、患者に個別のケアを提供できます。

たとえば、最近の研究では、医療アプリケーション用に設計されたフレームワークであるMedGraphRAGが導入されています。5医療データをプライベート・ユーザー・データ(医療レポートなど)、最近のピアレビュー済み医学文献、基礎的な医学辞書の3つのレベルに分類し、正確性、追跡可能性、関連性を確保します。階層グラフ構造と「U抽出」戦略を使用して、ユーザーのクエリー用の情報を効率的に取得して合成し、出典を引用した信頼性の高い証拠ベースの応答を生成することでLLMの性能を向上させます。このフレームワークは、安全で透明性があり、効率的な臨床ワークフローを実現する可能性を示しており、根拠に基づいた実行可能な洞察を医療従事者に提供します。

不正の検知と防止

GraphRAGは、予期された動作から逸脱する異常なパターンを特定します。たとえば、金融サービスにおいては、顧客の行動を分析することで、不審な取引パターンを検知して詐欺を防止したり、クロスセルの機会を見つけたりすることができます。口座間で複数の小規模なトランザクションを接続することで、GraphRAGはより大規模な不正スキームを明らかにし、銀行がリスク管理を強化し、よりパーソナライズされたサービスを提供できるようにします。

知識の管理と検索

GraphRAGは、知識をよりアクセスしやすくし、特定のクエリに合わせて調整する方法でドキュメントを整理および取得することで、ナレッジ管理を強化できます。さまざまな文書間のコンテキストと関係を分析し、最も関連性の高い情報を迅速かつ効果的に抽出するのに役立ちます。たとえば、GraphRAGの代表的なユースケースの1つに法律事務所があり、膨大な法的文書の管理において優れています。GraphRAGは、何千もの法的文書内の関係とコンテキストを分析することで、関連する判例や法的参考資料を効率的に取得し、ワークフローを合理化し、精度を大幅に向上させることができます。

AI Academy

ビジネス向け生成AIの台頭

生成AIの発展と現在のビジネスへの影響について学びます。

GraphRAGの課題

GraphRAGシステムには、複雑なデータ関係の管理などの課題があり、効率的な検索や言語モデルとの統合の確保に役立ちます。これらの課題は、慎重なグラフ・スキーマ設計、最適化されたクエリー・ストラテジー、堅牢なツールの活用を通じて対処できます。GraphRAGに関連する主な課題は次のとおりです。

  1. スケーラビリティ

  2. コンポーネントの統合の合理化

  3. 信頼性

  4. プライバシーと安全性

  5. 説明可能性

拡張性

データ量が増加するにつれて、GraphRAGシステムの拡張は困難になります。課題には、非構造化データの管理、効率的なグラフ・ストレージ、グラフ・クエリーの最適化、サブグラフのサンプリング、応答性の高い生成、取得したコンポーネントの整理、トレーニングとファイン・チューニングなどが含まれます。GPUアクセラレーション、モデル圧縮、保守などの高度なハードウェア・ソリューションを実装すると、複雑さがさらに増します。

コンポーネントの統合の合理化

一貫したGraphRAGシステムを設計するには、クエリ・プロセッサー、抽出機能、オーガナイザー、ジェネレーター・コンポーネント間のシームレスな相互作用が必要です。効率性と精度を維持しながら、これらのコンポーネントを調和させて動作させることは、複雑な課題です。

信頼性の確保

マルチホップの取得と生成では誤差が蓄積されるため、マルチステップの推論全体で低いエラー率を確保することは困難です。

プライバシーと安全性

グラフのリレーショナル構造は、グラフ内の接続やパターンによって個人的なデータが漏洩する可能性があるため、機密情報が漏洩する重大なリスクを引き起こします。GraphRAGパイプライン全体でこのような情報を保護するには、堅固なプライバシー保護技術が必要です。GraphRAGシステムは、グラフ構造のエクスプロイテーションやプロンプトの操作などの敵対的攻撃の影響を受けやすいため、セキュリティー対策の強化の必要性がさらに際立っています。

説明可能性

GraphRAGはノード間の明示的な関係を通じて説明可能性を高めますが、明確で解釈可能な推論パスや説明を生成することは依然として課題です。医療、法律、金融など、重要な利益が得られる分野では、信頼を獲得するために、これらの説明が包括的でシステムのロジックに忠実であることを保証することが重要です。

GraphRAGシステムを構築するためのフレームワーク

GraphRAGシステムは、オープンソース・オプションを含むさまざまなツールやフレームワークを使用して実装でき、文書処理、ナレッジ・グラフの作成、セマンティック検索、LLM統合をサポートします。人気のツールにはLangChainLlamaIndex、Neo4j、OpenAIがあり、GitHubなどのプラットフォームで追加の参考情報やチュートリアルが利用可能です。

LlamaIndexは、ドキュメントの索引付け、知識グラフを作成するためのエンティティと関係の抽出、ベクトル埋め込み生成、GPTのようなLLMとの統合に使用される。Neo4jは、グラフ構造を保管および管理するためのデータベースとして機能し、グラフの横断的およびセマンティックな関係を通じて効率的な抽出を可能にします。

これらのツールは連携して、ベクトル埋め込み、透明性のためのメタデータ処理、コンテキストに応じた応答生成を使用して、セマンティック検索を可能にします。APIを通じて統合されたOpenAI GPTモデルを含むLLMは、抽出されたグラフ・データに基づいて正確で適切な回答を生成するのに役立ちます。

GraphRAGは、線形の抽出手法に制限される従来のRAGシステムからの大きな一歩です。ナレッジ・グラフ、セマンティック検索、高度な言語モデルの力を組み込んでいます。各業界がより深い洞察と相互接続された洞察を求める中、GraphRAGは重要なテクノロジーになることは間違いありません。これにより、将来的には、よりスマートでダイナミックな適応性の高い情報システムが実現します。

AI Academy

ビジネス向け生成AIの台頭

生成AIの発展と現在のビジネスへの影響について学びます。

関連ソリューション
IBM watsonx.ai

AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。

watsonx.aiをご覧ください。
人工知能ソリューション

業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。

AIソリューションはこちら
AIサービス

AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

AIサービスはこちら
次のステップ

AI開発ライフサイクル全体にわたる機能にワンストップでアクセスできます。使いやすいインターフェース、ワークフロー、業界標準のAPIやSDKを利用して、強力なAIソリューションを構築できます。

watsonx.aiの詳細はこちら デモを予約
脚注

1 Han, H., Wang, Y., Shomer, H., Guo, K., Ding, J., Lei, Y., ... & Tang, J. (2024). Retrieval-augmented generation with graphs (graphrag). arXiv preprint arXiv:2501.00309.

2 Larson, J., & Truitt, S. (2024). GraphRAG: Unlocking LLM discovery on narrative private data. Microsoft Research Blog. https://www.microsoft.com/jp-ja/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/

3 Edge, D., Trinh, H., Cheng, N., Bradley, J., Chao, A., Mody, A., ... & Larson, J. (2024). From local to global: A graph rag approach to query-focused summarization. arXiv preprint arXiv:2404.16130.

4 Peng, B., Zhu, Y., Liu, Y., Bo, X., Shi, H., Hong, C., ... & Tang, S. (2024). Graph retrieval-augmented generation: A survey. arXiv preprint arXiv:2408.08921.

5 Wu, J., Zhu, J., Qi, Y., Chen, J., Xu, M., Menolascina, F., & Grau, V. (2024). Medical graph rag: Towards safe medical large language model via graph retrieval-augmented generation. arXiv preprint arXiv:2408.04187.