Was ist GraphRAG?

Was ist GraphRAG?

GraphRAG ist eine fortschrittliche Version der Retrieval-Augmented Generation (RAG), die als Graph strukturierte Daten wie Knowledge Graphs (KGs) integriert.1 Im Gegensatz zu grundlegenden RAG-Systemen, die auf Vektorsuche setzen, um semantisch ähnlichen Text abzurufen, nutzt GraphRAG die relationale Struktur von Graphen, um Informationen basierend auf domänenspezifischen Abfragen abzurufen und zu verarbeiten. 

GraphRAG wurde 2024 von Microsoft Forschung eingeführt, um die Einschränkungen großer Sprachmodelle (LLMs) aufzuheben.2 Traditionelle LLMs haben oft Schwierigkeiten mit komplexen Workflows, insbesondere beim Umgang mit privaten oder strukturierten Daten, da ihnen die Fähigkeit fehlt, Beziehungen zwischen Entitäten zu verstehen. GraphRAG löst dieses Problem, indem Graphdatenbanken zur Modellierung dieser Beziehungen verwendet werden, wodurch komplexe Abfragen verarbeitet, kontextuelle Informationen abgerufen und die Genauigkeit in generativen KI-Anwendungen verbessert werden können.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Wie funktioniert GraphRAG?

Retrieval-Augmented Generation (RAG) ist eine Technik, die relevante Informationen durch Ähnlichkeitssuche aus Vektordatenbank, externen Wissensquellen und internen Wissensbasen abruft. Anschließend werden diese gewonnenen Informationen mit LLMs kombiniert, um genaue und kontextbezogene Ausgaben zu generieren. Während traditionelle RAG-Anwendungen die Funktionalität von LLMs in generativen KI-Anwendungen verbessern, fehlt ihnen die Fähigkeit, komplexe Datenbeziehungen in Daten zu erfassen. RAG stößt bei Aufgaben wie Multi-Hop-Reasoning (also der Kombination von Informationen aus mehreren Quellen, um durch logische Verknüpfungen und indirekte Schlussfolgerungen Antworten abzuleiten), beim Erfassen von Beziehungszusammenhängen sowie beim Verstehen hierarchischer Daten an seine Grenzen. Ein herkömmlicher RAG-Ansatz könnte beispielsweise Schwierigkeiten mit einer Anfrage wie „Wer entwickelte die Relativitätstheorie?“ haben, da hierfür ein Verständnis der Beziehungen zwischen verschiedenen Entitäten erforderlich ist. 

GraphRAG überwindet dieses Problem durch die Einbeziehung von als Graph strukturierten Daten, die Informationen als Netzwerk von Knoten (Entitäten wie Personen oder Orte), Kanten (Beziehungen zwischen diesen Entitäten) und Labels (Attribute, die die Kategorie eines Knotens und eines Edge definieren) organisieren. Zum Beispiel könnte ein Wissensgraph „Albert Einstein–entwickelte–die Relativitätstheorie“ wie als Graph strukturierte Informationseinheiten darstellen, was es GraphRAG erleichtert, diese Informationen abzurufen und zu verarbeiten. In diesem Beispiel sind die Knoten „Albert Einstein“ und „Relativitätstheorie“, und die Kante ist „entwickelte“.

GraphRAG-Architektur

Komponenten von GraphRAG

GraphRAG funktioniert durch vier Hauptkomponenten:

  1. Abfrageprozessor

  2. Retriever

  3. Organisator

  4. Generator

Abfrageprozessor

Die Abfrage des Benutzers wird vorverarbeitet, um Schlüsselentitäten und Beziehungen zu identifizieren, die für die Graphstruktur relevant sind. Techniken wie die Named Entity Recognition (NER) und relationale Extraktion aus maschinellem Lernen werden verwendet, um die Abfrage auf Knoten und Kanten innerhalb des Graphen zuzuordnen. Eine Suchanfrage wie „Wer entwickelte die Relativitätstheorie?“ identifiziert beispielsweise „Albert Einstein“ als Knoten und „entwickelte“ als die im Graphen zu suchende Beziehung. Tools wie Cypher, eine Graphabfragesprache, werden verwendet, um domänenspezifische Daten aus Knowledge Graphen abzurufen. 

Retriever

Der Retriever lokalisiert und extrahiert relevante Inhalte aus externen Graphdatenquellen basierend auf der verarbeiteten Abfrage. Im Gegensatz zu traditionellen RAG-Systemen, die auf Vektoreinbettungen für Text oder Bilder setzen, verarbeiten GraphRAG-Retriever als Graph strukturierte Daten, indem sie sowohl semantische als auch strukturelle Signale nutzen. Dabei kommen Verfahren wie Graphdurchlaufalgorithmen (Methoden wie Breadth‑First Search (BFS) oder Depth‑First Search (DFS), die den Graphen durchsuchen, um relevante Knoten und Kanten zu finden) zum Einsatz. Weitere Techniken sind Graph Neural Networks (GNNs) (fortschrittliche KI‑Modelle, die die Struktur von Graphen erlernen, um Daten effektiv abzurufen), adaptives Retrieval (passt dynamisch den Umfang der Graphsuche an, um irrelevante Informationen oder Rauschen zu reduzieren) sowie Einbettungsmodelle. Bei der Abfrage „Wer hat die Relativitätstheorie entwickelt?“ lokalisiert der Retriever im Graphen den Knoten „Relativitätstheorie“ und folgt der Beziehung „entwickelt von“, um „Albert Einstein“ zu finden.

Organisator

Die abgerufenen Graphdaten werden verfeinert, um irrelevante oder verrauschte Informationen durch Techniken wie Graphbeschneidung, Neubewertung und Erweiterung zu entfernen. Der Organizer sorgt dafür, dass der abgerufene Graph sauber, kompakt und verarbeitungsbereit ist, während entscheidende kontextuelle Informationen erhalten bleiben. Für die Anfrage „Wer entwickelte die Relativitätstheorie?“ verfeinert der Organisator die abgerufenen Graphdaten, indem er irrelevante Knoten und Kanten entfernt und so sicherstellt, dass nur die relevante Beziehung „Albert Einstein – entwickelte – Relativitätstheorie“ erhalten bleibt. 

Generator

Die bereinigten Graphdaten werden dann zur Erstellung der endgültigen Ausgabe verwendet. Dies kann die Generierung textbasierter Antworten mit LLMs oder die Erstellung neuer Graphstrukturen für wissenschaftliche Aufgaben wie Moleküldesign oder Erweiterung von Wissensgraphen umfassen. Auf die Anfrage „Wer entwickelte die Relativitätstheorie?“ ermittelt GraphRAG „Albert Einstein“ aus dem Graphen und generiert die Antwort: „Albert Einstein entwickelte die Relativitätstheorie.“ Generative KI-Verfahren werden eingesetzt, um die endgültige Antwort zu synthetisieren. 

GraphRAG-Beispiel

Anwendungen von GraphRAG

GraphRAG ist transformativ über Branchen hinweg, kombiniert graphbasiertes Denken, Vektorsuche und generative KI, um domänenspezifische Aufgaben zu bewältigen, die tiefgründige Kontextinformationen erfordern. Im Folgenden erkunden wir einige der wichtigsten Anwendungen von GraphRAG:

  1. Abfrageorientierte Textzusammenfassung (QFS)

  2. Personalisierte Empfehlungen

  3. Entscheidungsunterstützung

  4. Betrugserkennung und -prävention

  5. Wissensmanagement und Abruf

Abfragefokussierte Textzusammenfassung (QFS)

GraphRAG kann für abfragebasierte Textzusammenfassungen verwendet werden. Der Fokus liegt auf der Beantwortung spezifischer Benutzeranfragen durch das Abrufen und Synthetisieren von Informationen aus einer als Graph strukturierten Darstellung des Textes. Eine Studie zeigte die Effektivität von GraphRAG bei der Beantwortung globaler, explorativer Fragen über große Datensätze wie Podcast-Transkripte und Nachrichtenartikel.3 Es übertraf traditionelle vektorbasierte RAG-Systeme bei Aufgaben, die umfassende und vielfältige Einblicke erforderten. Zum Beispiel wurde GraphRAG mit einem Podcast-Datensatz (~1 Mio. Token) getestet, der Gespräche mit Technologie-Führungskräften umfasst, sowie mit einem News-Datensatz (~1,7 Mio. Token), der Themen aus Gesundheit, Wirtschaft und Technologie abdeckt. Die Fragen lauteten unter anderem: „Wie sehen Technologie-Führungskräfte Datenschutzgesetze?“ und „Was sind die wichtigsten Prioritäten im Bereich der öffentlichen Gesundheit?“ 

GraphRAG verarbeitet diese Datensätze, indem es einen Wissensgraphen mit Entitäten (z. B. „Datenschutzgesetze“) und Beziehungen (z. B. „Auswirkungen auf die Technologie“) erstellt und diese in hierarchische Gemeinschaften (Gruppen verbundener Knoten, die übergeordnete Themen in spezifische Unterthemen gliedern) organisiert. Vorab generierte Community-Zusammenfassungen ermöglichen es dem System, relevante Erkenntnisse effizient abzurufen und zu kombinieren. Im Vergleich zum traditionellen RAG erreichte GraphRAG einen höheren Umfang (72-83 %) und eine größere Vielfalt (62-82 %) der generierten Antworten und benötigte dabei bis zu 97 % weniger Token für Zusammenfassungen auf Root-Ebene. Diese Fähigkeit macht GraphRAG zu einem idealen Werkzeug für sinnvolle Aufgaben in Bereichen wie Journalismus, Bildung und Forschung.

Personalisierte Empfehlungen

In Bereichen wie E-Commerce und Unterhaltung ermöglicht GraphRAG Chatbots und Empfehlungsengines, personalisierte Erfahrungen zu bieten. Im E-Commerce beispielsweise können die bisherigen Interaktionen zwischen Nutzern und Produkten einen Graphen bilden. GraphRAG hilft bei der Verwaltung der wachsenden Menge an Benutzerinteraktionsdaten, indem es wichtige Teilgraphen extrahiert, die Aufschluss über die Vorlieben und das Verhalten der Benutzer geben. Forschung hat gezeigt, dass die Verwendung mehrerer Retriever zum Extrahieren relevanter Unterdiagramme die Vorhersage von Benutzeraktionen verbessert, während das Abrufen von Unterdiagrammen ähnlicher früherer Probleme die Qualität der Frage-Antwort-Systeme des Kundenservice verbessert.4

Entscheidungsunterstützung

Im Gesundheitswesen unterstützt GraphRAG Ärzte bei der Diagnose von Patienten mit komplexen Symptomen, indem es Zusammenhänge zwischen Krankheiten, Symptomen und Behandlungen innerhalb einer Graphdatenbank analysiert. Es ruft relevante medizinische Studien, Fallberichte und Arzneimittelinformationen ab, um mögliche Diagnosen vorzuschlagen, wirksame Behandlungsoptionen hervorzuheben und sogar vor möglichen Wechselwirkungen mit anderen Medikamenten zu warnen. Diese Fähigkeit ermöglicht es medizinischen Fachkräften, fundiertere Entscheidungen zu treffen, Diagnosefehler zu reduzieren und Patienten eine personalisierte Betreuung zu bieten.  

Zum Beispiel führte eine aktuelle Studie MedGraphRAG ein, ein Framework für medizinische Anwendungen.5 Es ordnet medizinische Daten in drei Ebenen: private Benutzerdaten (z. B. medizinische Berichte), aktuelle, von Fachkollegen begutachtete medizinische Literatur und grundlegende medizinische Wörterbücher, wodurch Genauigkeit, Nachvollziehbarkeit und Relevanz gewährleistet werden. Durch die Verwendung einer hierarchischen Graphstruktur und einer „U-Retrieve“-Strategie werden Informationen für Benutzeranfragen effizient abgerufen und synthetisiert, wodurch die Leistung von LLMs verbessert wird, indem zuverlässige, evidenzbasierte Antworten mit Quellenangaben generiert werden. Dieses Framework verdeutlicht das Potenzial für sichere, transparente und effiziente klinische Workflows und unterstützt medizinische Fachkräfte mit fundierten, umsetzbaren Erkenntnissen.

Betrugserkennung und -prävention

GraphRAG identifiziert ungewöhnliche Muster, die vom erwarteten Verhalten abweichen. Im Finanzdienstleistungsbereich kann es zum Beispiel verdächtige Transaktionsmuster erkennen, um Betrug zu verhindern oder Cross-Selling-Möglichkeiten durch die Analyse des Kundenverhaltens aufzudecken. Durch die Verknüpfung zahlreicher kleiner Transaktionen über verschiedene Konten hinweg kann GraphRAG größere Betrugsmaschen aufdecken und Banken so dabei helfen, das Risikomanagement zu verbessern und personalisiertere Dienstleistungen anzubieten. 

Wissensverwaltung und -abruf

GraphRag kann das Wissensmanagement verbessern, indem Dokumente so organisiert und abgerufen werden, dass Wissen leichter zugänglich und auf bestimmte Abfragen zugeschnitten ist. Es analysiert den Kontext und die Beziehungen zwischen verschiedenen Dokumenten und hilft, die wichtigsten Informationen schnell und effektiv zu extrahieren. Ein prominenter Anwendungsfall für GraphRAG sind beispielsweise Anwaltskanzleien, wo es sich hervorragend für die Verwaltung riesiger Sammlungen von Rechtsdokumenten eignet. Durch die Analyse der Beziehungen und des Kontexts in Tausenden von Rechtsdokumenten kann GraphRAG relevante Fallbeispiele oder Rechtsreferenzen effizient abrufen, Workflow und die Genauigkeit erheblich verbessern.

AI Academy

Der Aufstieg der generativen KI für Unternehmen

Erfahren Sie mehr über den historischen Aufstieg der generativen KI sowie darüber, was sie für Unternehmen bedeutet.

Herausforderungen von GraphRAG

GraphRAG-Systeme stellen Herausforderungen dar, wie die Verwaltung komplexer Datenbeziehungen, die Gewährleistung eines effizienten Datenabrufs und die Integration in Sprachmodelle. Diese Herausforderungen können durch sorgfältiges Diagrammdesign, optimierte Abfragestrategien und den Einsatz robuster Werkzeuge bewältigt werden. Die wichtigsten Herausforderungen im Zusammenhang mit GraphRAG sind:

  1. Skalierbarkeit

  2. Optimierte Integration der Komponenten

  3. Zuverlässigkeit

  4. Datenschutz und Sicherheit

  5. Erklärbarkeit

Skalierbarkeit

Mit wachsendem Datenvolumen gestaltet sich das Skalieren von GraphRAG‑Systemen schwierig. Zu den Herausforderungen gehören der Umgang mit unstrukturierten Daten, eine effiziente Graphspeicherung, die Optimierung von Graphabfragen, Subgraph-Sampling, eine reaktionsschnelle Generierung, die Organisation der abgerufenen Komponenten sowie Training und Feineinstellung. Der Einsatz moderner Hardwarelösungen, wie GPU‑Beschleunigung, Modellkomprimierung und Wartung, erhöht die Komplexität zusätzlich.

Optimierung der Integration von Komponenten

Die Entwicklung eines zusammenhängenden GraphRAG-Systems erfordert ein nahtloses Zusammenspiel zwischen den Komponenten Abfrageprozessor, Retriever, Organisator und Generator. Das harmonische Zusammenspiel dieser Komponenten unter Beibehaltung von Effizienz und Genauigkeit ist eine komplexe Herausforderung.

Zuverlässigkeit

Die Gewährleistung niedriger Fehlerquoten bei mehrstufigen Schlussfolgerungen ist eine Herausforderung, da sich bei der Abfrage und Generierung von Daten in mehreren Schritten Fehler ansammeln.

Privatsphäre und Sicherheit

Die relationale Struktur von Graphen birgt erhebliche Risiken sensibler Informationslecks, da Verbindungen und Muster innerhalb des Graphen private Daten offenbaren können. Der Schutz solcher Informationen über die gesamte GraphRAG-Pipeline hinweg erfordert robuste Techniken zur Wahrung des Datenschutzes. GraphRAG-Systeme sind anfällig für gegnerische Angriffe, einschließlich der Ausbeutung von Graphstrukturen und der Manipulation von Prompts, was die Notwendigkeit verstärkter Sicherheitsmaßnahmen weiter unterstreicht.

Erklärbarkeit

GraphRAG bietet zwar eine verbesserte Erklärbarkeit durch explizite Beziehungen zwischen Knoten, doch die Generierung klarer, interpretierbarer Schlussfolgerungspfade oder Erklärungen bleibt eine Herausforderung. Sicherzustellen, dass diese Erklärungen sowohl umfassend als auch logisch konsistent mit dem System sind, ist entscheidend, um Vertrauen in kritischen Bereichen wie Gesundheitswesen, Rechtswesen und Finanzwesen zu schaffen.

Frameworks zum Aufbau eines GraphRAG-Systems

GraphRAG-Systeme können mithilfe verschiedener Werkzeuge und Frameworks, einschließlich Open-Source-Optionen, implementiert werden, um Dokumentenverarbeitung, Wissensgraphen-Erstellung, semantische Suche und LLM-Integration zu unterstützen. Zu den gängigen Tools gehören LangChain, LlamaIndex, Neo4j und OpenAI. Zusätzliche Ressourcen und Tutorials sind auf Plattformen wie GitHub verfügbar. 

LlamaIndex wird zum Indexieren von Dokumenten, zur Extraktion von Entitäten und Beziehungen zur Erstellung von Knowledge Graphs, zur Generierung von Vektoreinbettungen und zur Integration in LLMs wie GPT verwendet. Neo4j dient als Datenbank zur Speicherung und Verwaltung von Graphstrukturen und ermöglicht durch Graphdurchläufe und semantische Beziehungen eine effiziente Datenabfrage. 

Diese Tools arbeiten zusammen und ermöglichen eine semantische Suche mit Vektoreinbettungrn, Verarbeitung von Metadaten für Transparenz und kontextbezogene Antwortgenerierung. LLMs, einschließlich OpenAI-GPT-Modelle, die über APIs integriert sind, helfen dabei, genaue und relevante Antworten auf Basis abgerufener Graphdaten zu liefern. 

GraphRAG ist ein großer Fortschritt gegenüber traditionellen RAG-Systemen, die durch lineare Rückfindungsmethoden eingeschränkt sind. Es kombiniert die Leistungsfähigkeit von Wissensgraphen, semantischer Suche und erweiterten Sprachmodellen. Da immer mehr Branchen ein tieferes Verständnis und vernetzte Erkenntnisse fordern, dürfte GraphRAG zu einer Schlüsseltechnologie werden. Sie wird in Zukunft intelligentere, dynamischere und hochgradig anpassungsfähige Informationssysteme ermöglichen.

AI Academy

Der Aufstieg der generativen KI für Unternehmen

Erfahren Sie mehr über den historischen Aufstieg der generativen KI sowie darüber, was sie für Unternehmen bedeutet.

Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Buchen Sie eine Live-Demo
Fußnoten

1 Han, H., Wang, Y., Shomer, H., Guo, K., Ding, J., Lei, Y., ... & Tang, J. (2024). Retrieval-augmented generation with graphs (graphrag). arXiv preprint arXiv:2501.00309.

2 Larson, J., & Truitt, S. (2024). GraphRAG: Unlocking LLM discovery on narrative private data. Microsoft Research Blog. https://www.microsoft.com/de-de/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/

3 Edge, D., Trinh, H., Cheng, N., Bradley, J., Chao, A., Mody, A., ... & Larson, J. (2024). From local to global: A graph rag approach to query-focused summarization. arXiv preprint arXiv:2404.16130.

4 Peng, B., Zhu, Y., Liu, Y., Bo, X., Shi, H., Hong, C., ... & Tang, S. (2024). Graph retrieval-augmented generation: A survey. arXiv preprint arXiv:2408.08921.

5 Wu, J., Zhu, J., Qi, Y., Chen, J., Xu, M., Menolascina, F., & Grau, V. (2024). Medical graph rag: Towards safe medical large language model via graph retrieval-augmented generation. arXiv preprint arXiv:2408.04187.