RAG-Techniken

watsonx digitales Rendering

Autor

Shalini Harkar

Lead AI Advocate

Verschiedene RAG-Techniken 

Große Sprachmodelle (Large Language Models, LLMs), die in großem Maßstab generiert wurden, haben die KI-Anwendungen verändert; sie haben jedoch auch verschiedene Nachteile, da ihr Wissen statisch ist und nur aus ihren Trainingsdaten stammen kann. An dieser Stelle kommt die Retrieval-Augmented Generation (RAG) ins Spiel.

RAG erweitert die Möglichkeiten generativer KI-Modelle, indem es den Datenabruf in Echtzeit einsetzt und so sicherstellt, dass der Abrufprozess ein genaueres und zeitnahes Ergebnis liefert. Die RAG-Modelle gibt es jedoch in unterschiedlichen Formen, die sich vor allem für unterschiedliche Anwendungen eignen1.

In diesem Artikel werden verschiedene RAG-Techniken sowie ihre Funktionsweise, die Stärken und Einschränkungen der einzelnen RAG-Typen sowie ihre Verwendbarkeit in verschiedenen Anwendungsfallen untersucht.

RAG-Paradigma

Um die Gesamteffektivität und Nachhaltigkeit von RAG-Modellen zu verbessern, haben sich die Abfragesysteme von naivem RAG zu fortschrittlichem RAG und modularem RAG weiterentwickelt, um Herausforderungen in der Leistung, den Kosten und der Effizienz zu bewältigen. Lassen Sie uns jede RAG-Technik im Detail erkunden.

Naive RAG

Naive RAG ist eine grundlegende Implementierung der Retrieval-Augmented Generation, bei der das Abrufen von Informationen und das Generieren von Antworten ohne jegliche Optimierung oder Feedback erfolgen. In dieser einfachen Einstellung ruft das System relevante Daten auf der Grundlage einer Abfrage ab, die dann einfach in ein Sprachmodell (z. B. GPT) eingespeist werden, um die endgültige Antwortzu generieren 2.

Wie funktioniert die naive RAG?

Naive RAG stützt sich auf einen recht einfachen dreistufigen Prozess für die Abfrage und Inhaltserstellung. In den folgenden Schritten wird der Ablauf des Abrufprozesses erläutert:

  1. Codierung der Abfrage: Die vom Benutzer gestellte Anfrage wird mithilfe eines Einbetten-Modells in einen hochdimensionalen Vektor umgewandelt, der die semantische Bedeutung der gesamten Anfrage erfasst.
  2. Abrufen von Dokumenten: Es wird eine Ähnlichkeitssuche durchgeführt, indem dieser Vektor gegen Vektordatenbank durch Repositories abgeglichen wird, um die Top-N Dokumente zu finden, die für die Anfrage relevant sind. Die Wissensbasis kann aus strukturierten und unstrukturierten Datenquellen erstellt werden, wie z. B. Open-Source-Datensätze oder Unternehmens-Datensätze.
  3. Generierung von Antworten: Die abgerufenen Datenquellen werden dann als zusätzlicher Kontext in einem Sprachmodell bereitgestellt, das eine kohärente und informative Antwort synthetisiert, die auf externem Wissen basiert 3, 4.

 

Naives RAG-Diagramm

Abbildung 1 veranschaulicht den dreistufigen Prozess (Kodierung, Abfrage und Antwortgenerierung) der Funktionsweise von Naive RAG.

Anwendungen der naiven RAG

Naive RAG eignet sich am besten für Szenarien, in denen Einfachheit, Geschwindigkeit und einfache Bereitstellung über erweiterte Genauigkeit und Flexibilität hinausgehen. Die Einfachheit der Architektur macht sie ideal für die Entwicklung von Proof-of-Concept-Anwendungen und für das schnelle Testen von Ideen ohne umständliche Modellanpassungen. Sie kann zum Beispiel effektiv eingesetzt werden in:

a. Chatbots für den Kundensupport: Umgang mit häufig gestellten, sich wiederholenden Frage-Antwort-Szenarien mithilfe von LLM-Antworten.

b. Zusammenfassung und Informationsabruf: Bereitstellung eines grundlegenden Maß an Zusammenfassung durch den Einsatz von Techniken zur Verarbeitung natürlicher Sprache.

c. KI-Systeme für Unternehmen: Schnelles Abrufen relevanter Daten aus Repositories, um häufige Anfragen zu beantworten.

Obwohl naive RAG einfach und schnell ist, bietet fortgeschrittene RAG mehr Flexibilität, Skalierbarkeit und Leistung und eignet sich daher für komplexe, reale Anwendungen.  

Fortschrittliche RAG

Lassen Sie uns verstehen, was Advanced RAG ist und welche wichtigen Angebote es bietet.

Advanced RAG kombiniert die Möglichkeiten einer besseren Abfrage und Generierung durch den Einsatz von Advanced Algorithmen – einer Reihe von Ideen wie Rerankern, fein abgestimmten LLMs und Feedback-Schleifen. Diese Verbesserungen bringen Verbesserungen in Bezug auf Genauigkeit, Anpassungsfähigkeit und Leistung mit sich, die diese Modelle zur besseren Wahl für komplexere und produktionstaugliche Anwendungen machen 5.

 

Wie funktioniert die fortschrittliche RAG?

Advanced RAG funktioniert als sequenzieller, schrittbasierter Prozess wie folgt:

1. Abfrageverarbeitung: Nach Erhalt einer Benutzeranfrage wird sie mithilfe des Einbettenmodells, das die semantische Bedeutung der Abfrage erfasst, in einen hochdimensionalen Vektor umgewandelt.

2. Abrufen von Dokumenten: Die kodierte Abfrage durchläuft eine riesige Wissensdatenbank, die eine hybride Abfrage ermöglicht, indem sie sowohl die dichte Vektorsuche als auch die spärliche Abfrage, d. h. die semantische Ähnlichkeit und die schlagwortbasierte Suche, verwendet. Die Ergebnisse führen somit semantische Schlüsselwortübereinstimmungen in die abgerufenen Dokumente ein.

3. Neubewertung der abgerufenen Dokumente: Der Retriever gibt eine Endbewertung ab, die auf dem Kontext und in Bezug auf die Abfrage, bei der die Dokumente abgerufen wurden, basiert.

4. Kontextuelle Fusion für die Generierung: Da jedes Dokument anders codiert ist, fusioniert der Decoder alle codierten Kontexte, um sicherzustellen, dass die generierten Antworten mit der codierten Abfrage kohärent sind.

5. Antwortgenerierung: Der Generator für fortgeschrittene RAG, in der Regel ein LLM, wie das IBM Granite®-Modell oder Llama, liefert die Antwort auf der Grundlage der abgerufenen Dokumente.

6. Feedback-Schleife: Als Fortgeschrittene verwendet RAG verschiedene Techniken wie aktives Lernen, Reinforcement Learning und Retriever-Generator-Cotraining, um seine Leistung kontinuierlich zu verbessern. Während dieser Phase treten implizite Signale auf, wie z. B. Klicks auf abgerufene Dokumente, die auf eine Relevanz schließen lassen und explizites Feedback wie Korrekturen oder Bewertungen zur weiteren Anwendung während der Generierung auslösen. Daher verbessern diese Strategien im Laufe der Jahre sowohl den Abruf als auch die Antwortgenerierungsprozesse, so dass genauere und relevantere Antworten erstellt werden können6.

 

 

Advanced RAG-Diagramm

   Abbildung 2 veranschaulicht den schrittweisen Prozess, wie fortgeschrittene RAG funktioniert.

Anwendung der fortschrittlichen RVG

Advanced RAG ist äußerst vielseitig für eine Vielzahl von Anwendungen in verschiedenen Branchen, da es Informationen in Echtzeit abrufen kann und dynamische, genaue und kontextbasierte Antworten liefert. Ihre Anwendung reicht von der Unterstützung des Kundenservice bis zur Bereitstellung relevanter Informationen, wodurch die Entscheidungsfindung verbessert und personalisierte Lernerfahrungen verbessert werden. Die verbesserte Abfrage und Generierung durch fortschrittliche RAG macht es für Anwendungen in Echtzeit praktisch, aber Skalierbarkeit und Benutzerfreundlichkeit sind für Anwendungsfälle auf Produktionsebene unterdurchschnittlich.

Modulare RAG

Modulare RAG ist die fortschrittlichste Variante von RAG, bei der die Informationsabfrage und das generative Modell in einer offenen, zusammensetzbaren linearen Pipeline-ähnlichen Architektur arbeiten. Dieser Ansatz ermöglicht es, dass verschiedene Anwendungsfälle durch Anpassbarkeit und Skalierbarkeit besser funktionieren.

Durch die Zerlegung des Aktes von RAG in Module kann jede Komponente unabhängig voneinander besser angepasst, debuggt und optimiert werden. Schauen wir uns nun an, wie modulares RAG in der Praxis funktioniert7.

1. Verarbeitung von Benutzeranfragen: Im ersten Schritt stellt der Benutzer eine Anfrage, z. B.: „Welches Buch ist derzeit das beliebteste?“ Ein Abfrageverarbeitungsmodul wandelt dann die Eingabe um. Dies kann eine Umformulierung der Anfrage, die Beseitigung von Mehrdeutigkeiten und eine semantische Analyse umfassen, um einen fundierteren Kontext bereitzustellen, bevor die Anfrage zum Abruf abgesendet wird.

2. Retrieval-Modul: Das Retrieval-Modul verarbeitet die Abfrage in der Vektordatenbank oder Wissensdatenbank, um relevante Dokumente zu erhalten. Die Abfrage erfolgt unter Verwendung des einbettungsbasierten Ähnlichkeitsparadigmas.

3. Filter- und Ranking-Modul: Die abgerufenen Dokumente werden dann anhand von Metadaten, Aktualität oder Relevanz gefiltert. Und ein Reranking-Modell bewertet und priorisiert die nützlichsten Informationen.

4. Modul zur Kontexterweiterung: Dieses Modul füttert die abgerufenen Informationen mit Wissensgraphen, bettet strukturierte Daten aus Datenbanken und APIs ein und wendet eine Abrufkomprimierung an, um den besten Abruf von Inhalten zu erzielen.

5. Antwortgenerierung: Das LLM verarbeitet die Benutzeranfrage zusammen mit dem abgerufenen Kontext, um eine kohärente und genaue Antwort zu generieren, die Halluzinationen minimiert und Relevanz sicherstellt.

6. Nachbearbeitungsmodul: Dieses Modul stellt durch Überprüfung von Fakten die Genauigkeit sicher, verbessert die Lesbarkeit durch strukturierte Formatierung und erhöht die Glaubwürdigkeit durch die Generierung von Zitaten.

7. Output und die Feedback-Schleife: Die endgültige Ausgabe der Antwort wird dem Benutzer präsentiert, während aus seiner Interaktion eine Feedback-Schleife entsteht, die dabei hilft, die Abfrage und die Modellleistung im Laufe der Zeit zu verfeinern.

Modulares RAG-Diagramm

   Abbildung 3 veranschaulicht den schrittweisen Prozess der Funktionsweise von modularem RAG.

Anwendungen der modularen RAG 

Advanced RAG eignet sich für Anwendungsfälle, bei denen die Anwendung umfangreiche Anpassungen erfordert, z. B. domänenspezifische Abruf- und Ranglisten-Techniken. Skalierbarkeit und Wartbarkeit sind wichtig für Anwendungen, die große Systeme umfassen, und es wird kontinuierlich mit verschiedenen Retrievalmodellen und Strategien experimentiert8.

Vor- und Nachteile der RAG-Techniken  

Während naive RAG einfach und schnell ist, bietet modulare RAG – oft mit Frameworks wie LangChain erstellt – verbesserte Flexibilität, Skalierbarkeit und Leistung, wodurch sie besser für komplizierte, reale Anwendungen geeignet ist. Advanced RAG verbessert die Genauigkeit, indem es kontextspezifische Informationen in Echtzeit abruft, die zur Minimierung von Fehlern beitragen. Es passt sich dynamisch an und berücksichtigt das Feedback der Benutzer durch aktives Lernen und Verstärkungslernen (RLHF). Darüber hinaus stärkt es das fachspezifische Wissen durch die Integration spezialisierter Datenbanken. Außerdem optimiert es das Kontextfenster des LLM, indem es nur die relevantesten Daten abruft, wodurch die Effizienz gesteigert wird. Dennoch sind fortschrittliche RAG-Systeme mit Herausforderungen wie einem höheren Rechenbedarf und Latenz aufgrund von Abruf- und Generierungsprozessen konfrontiert. Sie erfordern erhebliche Ressourcen für die Verwaltung umfangreicher Wissensdatenbanken und beinhalten eine komplexe Implementierung und Wartung – insbesondere bei der Feinabstimmung von Abrufgeräten, Ranking-Modellen und Antwortgeneratoren. Hier kommen modulare RAG-Architekturen, die mit LangChain entwickelt werden, zum Tragen. Ihr modularer Aufbau ermöglicht eine flexible Anpassung, sodass einzelne Komponenten – wie Retriever, Raner und Generatoren – unabhängig voneinander angepasst oder ausgetauscht werden können. Diese Methode verbessert die Wartbarkeit, indem sie das Debugging und die Aktualisierungen erleichtert, ohne das gesamte System zu unterbrechen. Skalierbarkeit wird durch die Verteilung der Module auf verschiedene Ressourcen erreicht, während die Kosten durch die Optimierung der Abrufprozesse und die Minimierung der LLM-Nutzung gesteuert werden 9, 10.

 

Künftige Weiterentwicklungen bei RAG-Systemen

Aktive Entwicklung von Abfragesystemen, die fortschrittliche Prompt-Engineering-Techniken und Feinabstimmungsmethoden nutzen, um RAG-Modelle für die hochpräzise Inhaltserstellung zu verbessern, ist im Gange, um eine bessere Leistung und Skalierbarkeit zu gewährleisten.

Zukünftige Fortschritte bei Self-RAG-Ansätzen, multimodale KI-Modelle und verbesserte Metriken werden den Abrufprozess weiter verfeinern und eine bessere Handhabung von zusätzlichem Kontext bei Interaktionen in natürlicher Sprache gewährleisten, indem sie fortsetzen.

Fußnoten:

1. Gao, Y., Zhang, Z., Peng, M., Wang, J., & Huang, J. (2023). Retrieval-Augmented Generation for Large Language Models: A Survey. arXiv   preprint arXiv:2312.10997. 


2. Wu, S., Wang, D., Lin, Z., Yang, Y., Li, H., & Li, Z. (2024). Retrieval-Augmented Generation for Natural Language Processing: A Survey. arXiv preprint arXiv:2407.13193. 


3. Huang, Y. & Huang, J. (2024). Eine Umfrage zur Retrieval-Augmented Text Generation für große Sprachmodelle. arXiv preprint arXiv:2404.10981. 


4. Li, S., Stenzel, L., Eickhoff, C., & Bahrainian, S. A. (2025). Enhancing Retrieval-Augmented Generation: A Study of Best Practices. Proceedings of the 31st International Conference on Computational Linguistics, 6705–6717. 

5. Sakar, T. & Emekci, H. (2024). Maximizing RAG Efficiency: A Comparative Analysis of RAG Methods. Verarbeitung natürlicher Sprache, 1—15.

6. Su, W., Tang, Y., KI, Q., Wu, Z., & Liu, Y. (2024). DRAGIN: Dynamic Retrieval Augmented Generation based on the Information Needs of Large Language Models. arXiv-Vorabdruck arXiv:2403.10081.

7. Gao, Y., Xiong, Y., Wang, M., & Wang, H. (2024). Modular RAG: Transforming RAG Systems into LEGO-like Reconfigurable Frameworks. arXiv preprint arXiv:2407.21059.

8. Shi, Y., Zi, X., Shi, Z., Zhang, H., Wu, Q., & Xu, M. (2024). Enhancing Retrieval and Managing Retrieval: A Four-Module Synergy for Improved Quality and Efficiency in RAG Systems. arXiv preprint arXiv:2407.10670.

9. Zhu, Y., Yang, X., Zhang, C., & Dou, Z. (2024). Future Trends and Research Directions in Retrieval-Augmented Generation. Computational Intelligence and Neuroscience, 2024, 1–15. 

10. Atos. 2024. Ein praktischer Blueprint für die Implementierung von generativer KI Retrieval-Augmented Generation. Atos. Abgerufen am 12. Februar 2025. 

Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

  1. watsonx.ai erkunden
  2. Buchen Sie eine Live-Demo