Was ist Retrieval-Augmented Generation (RAG)?

Was ist Retrieval-Augmented Generation (RAG)?

Retrieval-Augmented Generation (RAG) ist eine Architektur zur Optimierung der Leistung eines Modells für künstliche Intelligenz (KI), indem es mit externen Wissensdatenbanken verbunden wird. RAG hilft großen Sprachmodellen (LLMs) dabei, relevantere Antworten in höherer Qualität zu liefern.

Generative KI (Gen AI) Modelle sind anhand großer Datensätze trainiert und beziehen sich auf diese Informationen, um Ausgaben zu generieren. Allerdings sind Trainingsdatensätze endlich und auf die Informationen beschränkt, auf die der KI-Entwickler zugreifen kann – gemeinfreie Werke, Internetartikel, Inhalte aus sozialen Medien und andere öffentlich zugängliche Daten.

RAG ermöglicht generativen KI-Modellen den Zugriff auf zusätzliche externe Wissensdatenbanken, wie interne Unternehmensdaten, wissenschaftliche Zeitschriften und spezialisierte Datensätze. Durch die Integration relevanter Informationen in den Generierungsprozess können Chatbots und andere Tools zur Verarbeitung natürlicher Sprache (NLP) präzisere domänenspezifische Inhalte erstellen, ohne dass eine weitere Schulung erforderlich ist.

Was sind die Vorteile von RAG?

RAG ermöglicht es Unternehmen, hohe Umschulungskosten zu vermeiden, wenn sie generative KI-Modelle an domänenspezifische Anwendungsfälle anpassen. Unternehmen können RAG nutzen, um Lücken in der Wissensbasis eines maschinellen Lernmodells zu schließen, damit dieses bessere Antworten liefern kann.

Zu den Hauptvorteilen von RAG zählen:

  • Zugriff auf aktuelle domänenspezifische Daten
  • Erhöhtes Vertrauen der Benutzer
  • Erweiterte Anwendungsfälle
  • Verbesserte Entwicklerkontrolle und Modellwartung
  • Höhere Datensicherheit

Kosteneffiziente KI-Implementierung und KI-Skalierung

Wenn Unternehmen KI implementieren, wählen die meisten Unternehmen zunächst ein Foundation Model aus: die Deep Learning-Modelle, die als Grundlage für die Entwicklung fortgeschrittenerer Versionen dienen. Foundation Models verfügen in der Regel über allgemeine Wissensdatenbanken, die mit öffentlich zugänglichen Trainingsdaten gefüllt sind, beispielsweise mit Internetinhalten, die zum Zeitpunkt des Trainings verfügbar waren.

Das Umtrainieren oder Feinabstimmen eines Foundation Models – wobei ein Foundation Model anhand neuer Daten in einem kleineren, domänenspezifischen Datensatz weiter trainiert wird – ist rechenintensiv und ressourcenaufwendig. Das Modell passt einige oder alle seine Parameter an, um seine Leistung an die neuen spezialisierten Daten anzupassen.

Mit RAG können Unternehmen interne, maßgebliche Datenquellen nutzen und ähnliche Steigerungen der Modellleistung ohne Umschulung erzielen. Unternehmen können die Implementierung von KI-Anwendungen nach Bedarf skalieren und gleichzeitig den Anstieg der Kosten und des Ressourcenbedarfs minimieren.

Zugriff auf aktuelle und domänenspezifische Daten

Generative KI-Modelle haben einen Wissens-Cutoff, den Zeitpunkt, zu dem ihre Trainingsdaten zuletzt aktualisiert wurden. Wenn ein Modell über seine Wissensgrenze hinaus altert, verliert es mit der Zeit an Relevanz. RAG-Systeme verbinden Modelle in Echtzeit mit ergänzenden externen Daten und integrieren aktuelle Informationen in die generierten Antworten.

Unternehmen nutzen RAG, um Modelle mit spezifischen Informationen wie proprietären Kundendaten, maßgeblichen Forschungsergebnissen und anderen relevanten Dokumenten auszustatten.

RAG-Modelle können sich auch über Anwendungsprogrammierschnittstellen (APIs) mit dem Internet verbinden und Zugriff auf Social-Media-Feeds und Kundenbewertungen in Echtzeit erhalten, um ein besseres Verständnis der Marktstimmung zu erlangen. Der Zugriff auf aktuelle Nachrichten und Suchmaschinen kann zu genaueren Antworten führen, da die Modelle die abgerufenen Informationen in den Textgenerierungsprozess einbeziehen.

Geringeres Risiko von KI-Halluzinationen

Generative KI-Modelle wie GPT von OpenAI erkennen Muster in ihren Daten und verwenden diese Muster dann, um die wahrscheinlichsten Ergebnisse für Benutzereingaben vorherzusagen. Manchmal erkennen Modelle Muster, die gar nicht existieren. Eine Halluzination oder Konfabulation tritt auf, wenn Modelle falsche oder erfundene Informationen als Tatsachen präsentieren.

RAG verankert LLMs in spezifischem Wissen, das durch sachliche, zuverlässige und aktuelle Daten untermauert ist. Im Vergleich zu einem generativen Modell, das nur mit seinen Trainingsdaten arbeitet, liefern RAG-Modelle in der Regel genauere Antworten im Kontext ihrer externen Daten. RAG kann zwar das Risiko von Halluzinationen verringern, aber ein Modell nicht fehlersicher machen.

Erhöhtes Vertrauen der Benutzer

Chatbots, eine gängige Implementierung von generativer KI, beantworten Fragen, die von menschlichen Benutzern gestellt werden. Damit ein Chatbot wie ChatGPT erfolgreich ist, müssen Benutzer seine Ausgabe als vertrauenswürdig ansehen. RAG-Modelle können als Teil ihrer Antworten Verweise auf die Wissensquellen in ihren externen Daten enthalten.

Wenn RAG-Modelle ihre Quellen angeben, können menschliche Nutzer diese Ergebnisse überprüfen, um ihre Richtigkeit zu bestätigen, und gleichzeitig die angegebenen Werke zur weiteren Klärung und für zusätzliche Informationen heranziehen. Die Speicherung von Unternehmensdaten ist oft ein komplexes und isoliertes Labyrinth. RAG-Antworten mit Zitaten führen Benutzer direkt zu den Materialien, die sie benötigen.

Erweiterte Anwendungsfälle

Der Zugriff auf mehr Daten bedeutet, dass ein Modell eine größere Bandbreite an Prompts verarbeiten kann. Unternehmen können Modelle optimieren und mehr Wert aus ihnen schöpfen, indem sie ihre Wissensbasis erweitern und damit die Kontexte ausbauen, in denen diese Modelle zuverlässige Ergebnisse liefern.

Durch die Kombination von generativer KI mit Abrufsystemen können RAG-Modelle Informationen aus mehreren Datenquellen abrufen und integrieren, um komplexe Anfragen zu beantworten.

Verbesserte Entwicklerkontrolle und Modellwartung

Moderne Unternehmen verarbeiten ständig riesige Datenmengen, von Auftragseingängen über Marktprognosen bis hin zur Mitarbeiterfluktuation und vielem mehr. Ein effektiver Aufbau einer Datenpipeline und ein effektiver Datenspeicher sind für eine starke RAG-Implementierung von entscheidender Bedeutung.

Gleichzeitig können Entwickler und Data Scientists jederzeit die Datenquellen anpassen, auf die die Modelle zugreifen können. Die Umstellung eines Modells von einer Aufgabe auf eine andere wird zu einer Aufgabe der Anpassung seiner externen Wissensquellen und nicht zu einer Feinabstimmung oder einem erneuten Training. Wenn eine Feinabstimmung erforderlich ist, können Entwickler diese Arbeit priorisieren, anstatt die Datenquellen des Modells zu verwalten.

Höhere Datensicherheit

Da RAG ein Modell mit externen Wissensquellen verbindet, anstatt dieses Wissen in die Trainingsdaten des Modells zu integrieren, bleibt eine Trennung zwischen dem Modell und diesem externen Wissen bestehen. Unternehmen können RAG nutzen, um First-Party-Daten zu schützen und gleichzeitig Modellen Zugriff darauf zu gewähren – ein Zugriff, der jederzeit widerrufen werden kann.

Unternehmen müssen jedoch wachsam sein, um die Sicherheit der externen Datenbanken selbst zu gewährleisten. RAG verwendet Vektordatenbanken, die Einbettungen nutzen, um Datenpunkte in numerische Darstellungen umzuwandeln. Wenn diese Datenbanken kompromittiert werden, können Angreifer den Vektor-Einbettungsprozess umkehren und auf die Originaldaten zugreifen, insbesondere wenn die Vektordatenbank unverschlüsselt ist.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

RAG-Anwendungsfälle

RAG-Systeme ermöglichen es Benutzern im Wesentlichen, Datenbanken mit natürlicher Sprache abzufragen. Die datengestützten Frage-Antwort-Fähigkeiten von RAG-Systemen wurden bereits in einer Reihe von Anwendungsfällen eingesetzt, darunter:

  • Spezialisierte Chatbots und virtuelle Assistenten
     

  • Forschung
     

  • Erstellung von Inhalten
     

  • Marktanalyse und Produktentwicklung
     

  • Wissens-Engines
     

  • Empfehlungsdienste

Spezialisierte Chatbots und virtuelle Assistenten

Unternehmen, die den Kundensupport automatisieren möchten, stellen möglicherweise fest, dass ihren KI-Modellen das Fachwissen fehlt, um Kunden angemessen zu unterstützen. Die KI-Systeme von RAG verbinden Modelle mit internen Daten, um Chatbots für den Kundensupport mit dem neuesten Wissen über die Produkte, Dienstleistungen und Richtlinien eines Unternehmens auszustatten.

Das gleiche Prinzip gilt für KI-Avatare und persönliche Assistenten. Die Verknüpfung des zugrundeliegenden Modells mit den persönlichen Daten des Benutzers und die Bezugnahme auf frühere Interaktionen sorgt für eine individuellere Benutzererfahrung.

Forschung

RAG-Modelle können interne Dokumente lesen und mit Suchmaschinen arbeiten und eignen sich hervorragend für die Recherche. Finanzanalysten können kundenspezifische Berichte mit aktuellen Marktinformationen und früheren Anlageaktivitäten erstellen, während medizinische Fachkräfte auf Patienten- und Institutionsakten zugreifen können.

Erstellung von Inhalten

Die Fähigkeit von RAG-Modellen, maßgebliche Quellen zu zitieren, kann zu einer zuverlässigeren Generierung von Inhalten führen. Während alle generativen KI-Modelle Halluzinationen erzeugen können, erleichtert RAG den Benutzern die Überprüfung der Ergebnisse auf ihre Richtigkeit.

Marktanalyse und Produktentwicklung

Führungskräfte können Trends in sozialen Medien, Aktivitäten von Wettbewerbern, branchenrelevante aktuelle Nachrichten und andere Online-Quellen konsultieren, um fundiertere Geschäftsentscheidungen zu treffen. Produktmanager können sich bei der Planung zukünftiger Entwicklungen auf Kundenfeedback und Nutzerverhalten stützen.

Wissens-Engines

RAG-Systeme können Mitarbeiter mit internen Unternehmensinformationen versorgen. Optimierte Onboarding-Prozesse, schnellerer HR-Support und On-Demand-Beratung für Mitarbeiter im Außendienst sind nur einige Beispiele dafür, wie Unternehmen RAG nutzen können, um die Arbeitsleistung zu verbessern.

Empfehlungsdienste

Durch die Analyse des bisherigen Nutzerverhaltens und den Vergleich mit aktuellen Angeboten ermöglichen RAG-Systeme präzisere Empfehlungsdienste. Sowohl eine E-Commerce-Plattform als auch ein Content-Delivery-Service können RAG nutzen, um Kunden zu binden und ihre Ausgaben zu steigern.

AI Academy

Der Aufstieg der generativen KI für Unternehmen

Erfahren Sie mehr über den historischen Aufstieg der generativen KI sowie darüber, was sie für Unternehmen bedeutet.

Wie funktioniert RAG?

RAG kombiniert Informationsabrufmodelle mit generativen KI-Modellen, um aussagekräftigere Inhalte zu erstellen. RAG-Systeme fragen eine Wissensdatenbank ab und fügen einer Benutzeraufforderung mehr Kontext hinzu, bevor sie eine Antwort generieren.

Standard-LLMs beziehen ihre Informationen aus ihren Trainingsdatensätzen. RAG fügt dem KI-Workflow eine Komponente zur Informationsgewinnung hinzu, sammelt relevante Informationen und speist diese in das generative KI-Modell ein, um die Qualität und den Nutzen der Antworten zu verbessern.

RAG-Systeme folgen einem fünfstufigen Prozess:

Ein Diagramm, das einen RAG-Prozess (Retrieval-Augmented Generation) zeigt
  1. Der Benutzer sendet einen Prompt ab.
     

  2. Das Information-Retrieval-Modell fragt die Wissensdatenbank nach relevanten Daten ab.
     

  3. Relevante Informationen werden aus der Wissensdatenbank an die Integrationsschicht zurückgegeben.
     

  4. Das RAG-System entwickelt eine erweiterte Eingabeaufforderung für das LLM mit verbessertem Kontext aus den abgerufenen Daten.
     

  5. Das LLM generiert eine Ausgabe und gibt eine Ausgabe an den Benutzer zurück.

Dieser Prozess zeigt, wie RAG zu seinem Namen kommt. Das RAG-System ruft Daten aus der Wissensbasis ab, ergänzt den Prompt mit zusätzlichem Kontext und generiert eine Antwort.

Komponenten eines RAG-Systems

RAG-Systeme bestehen im Wesentlichen aus vier Komponenten:

  • Die Wissensdatenbank: Das externe Datenrepository für das System.
  • Der Retriever: Ein KI-Modell, das die Wissensdatenbank nach relevanten Daten durchsucht.
  • Die Integrationsebene: Der Teil der RAG-Architektur, der ihre Gesamtfunktionalität koordiniert.
  • Der Generator: Ein generatives KI-Modell, das basierend auf der Benutzerabfrage und den abgerufenen Daten eine Ausgabe erzeugt.

Zu den weiteren Komponenten gehören z. B. ein Ranker, der die abgerufenen Daten nach ihrer Relevanz einstuft, und ein Ausgabeverarbeitungsprogramm, der die generierte Antwort für den Benutzer formatiert.

Die Wissensdatenbank

Der erste Schritt beim Aufbau eines RAG-Systems ist die Erstellung einer abfragbaren Wissensbasis. Das externe Datenrepository kann Daten aus unzähligen Quellen enthalten: PDFs, Dokumente, Leitfäden, Websites, Audiodateien und vieles mehr. Ein Großteil davon wird aus unstrukturierten Daten bestehen, was bedeutet, dass sie noch nicht gekennzeichnet wurden.

RAG-Systeme verwenden einen Prozess namens Einbettung, um Daten in numerische Darstellungen, sogenannte Vektoren, umzuwandeln. Das Einbettungsmodell vektorisiert die Daten in einem mehrdimensionalen mathematischen Raum und ordnet die Datenpunkte nach ihrer Ähnlichkeit an. Datenpunkte, deren Relevanz zueinander als größer eingeschätzt wird, werden näher beieinander platziert.

Wissensdatenbanken müssen kontinuierlich aktualisiert werden, um die Qualität und Relevanz des RAG-Systems aufrechtzuerhalten.

LLM-Eingaben sind auf das Kontextfenster des Modells beschränkt: die Datenmenge, die es verarbeiten kann, ohne den Kontext zu verlieren. Das Chunking eines Dokuments in kleinere Einheiten trägt dazu bei, dass die resultierenden Einbettungen das Kontextfenster des LLM im RAG-System nicht überfordern.

Die Chunk-Größe ist ein wichtiger Hyperparameter für das RAG-System. Wenn die Datenblöcke zu groß sind, können die Datenpunkte zu allgemein werden und nicht mehr direkt mit potenziellen Benutzeranfragen korrespondieren. Sind die Blöcke jedoch zu klein, können die Datenpunkte ihre semantische Kohärenz verlieren.

Der Retriever

Durch die Vektorisierung der Daten wird die Wissensbasis für die semantische Vektorsuche vorbereitet, eine Technik, die Punkte in der Datenbank identifiziert, die der Suchanfrage des Benutzers ähneln. Semantische Suchalgorithmen für maschinelles Lernen können riesige Datenbanken abfragen und relevante Informationen schnell identifizieren, wodurch die Latenzzeit im Vergleich zu herkömmlichen Stichwortsuchen reduziert wird.

Das Informationsabrufmodell wandelt die Suchanfrage des Benutzers in eine Einbettung um und durchsucht dann die Wissensdatenbank nach ähnlichen Einbettungen. Anschließend werden die Ergebnisse aus der Wissensdatenbank zurückgegeben.

Die Integrations-Schicht

Die Integrationsschicht ist das Zentrum der RAG-Architektur, koordiniert die Prozesse und leitet Daten im Netzwerk weiter. Mit den zusätzlichen Daten aus der Wissensdatenbank erstellt das RAG-System eine neue Eingabeaufforderung für die LLM-Komponente. Dieser Prompt besteht aus der ursprünglichen Benutzerabfrage und dem vom Abrufmodell zurückgegebenen erweiterten Kontext.

RAG-Systeme verwenden verschiedene Prompt-Engineering-Techniken, um die effektive Erstellung von Prompts zu automatisieren und dem LLM dabei zu helfen, die bestmögliche Antwort zu geben. In der Zwischenzeit steuern LLM-Orchestrierungs-Frameworks wie die Open-Source-Plattformen LangChain und LlamaIndex oder IBM watsonx Orchestrate die Gesamtfunktionalität eines KI-Systems.

Der Generator

Der Generator erstellt eine Ausgabe auf der Grundlage des erweiterten Prompts, der ihm von der Integrationsschicht zugeführt wird. Der Prompt synthetisiert die Benutzereingabe mit den abgerufenen Daten und weist den Generator an, diese Daten in seiner Antwort zu berücksichtigen. Generatoren sind typischerweise vortrainierte Sprachmodelle wie GPT, Claude oder Llama.

Was ist der Unterschied zwischen RAG und Feinabstimmung?

Der Unterschied zwischen RAG und Feinabstimmung besteht darin, dass RAG es einem LLM ermöglicht, eine externe Datenquelle abzufragen, während die Feinabstimmung ein LLM mit domänenspezifischen Daten schult. Beide verfolgen das gleiche allgemeine Ziel: die Leistung eines LLM in einem bestimmten Bereich zu verbessern.

RAG und Feinabstimmung werden einander oft gegenübergestellt, können aber auch zusammen verwendet werden. Die Feinabstimmung erhöht die Vertrautheit eines Modells mit dem vorgesehenen Bereich und den Ausgabevorgaben, während RAG das Modell dabei unterstützt, relevante, qualitativ hochwertige Ergebnisse zu generieren.

Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Buchen Sie eine Live-Demo