Mein IBM Anmelden Abonnieren

RAG vs. Fine Tuning

14. August 2024 

Autoren

Ivan Belcic

Staff writer

Cole Stryker

Editorial Lead, AI Models

RAG vs. Fine Tuning

Retrieval-Augmented Generation (RAG) und Fine Tuning sind zwei Methoden, mit denen Unternehmen mehr Nutzen aus Large Language Models (LLMs) ziehen können. Bei beiden wird das LLM auf die spezifischen Anwendungsfälle zugeschnitten, aber die zugrunde liegenden Methoden unterscheiden sich erheblich.

Obwohl die generative KI seit ihrer Einführung große Fortschritte gemacht hat, stellt die Aufgabe, in Echtzeit automatisierte Antworten auf Benutzeranfragen zu generieren, noch immer eine erhebliche Herausforderung dar. Während Unternehmen darum wetteifern, künstliche Intelligenz in ihre Prozesse zu integrieren, um Kosten zu senken, Workflows zu optimieren und der Konkurrenz einen Schritt voraus zu sein, haben sie oft Schwierigkeiten, mit ihren Chatbots und anderen Modellen zuverlässig präzise Antworten zu generieren.

Was ist der Unterschied zwischen RAG und Fine Tuning?

Der Unterschied zwischen RAG und Fine Tuning besteht darin, dass RAG ein Modell zur Natural Language Processing (NLP) erweitert, indem es dieses mit der proprietären Datenbank eines Unternehmens verbindet, während Fine Tuning Deep-Learning-Modelle für fachspezifische Aufgaben optimiert. RAG und Feinabstimmung haben das gleiche Ziel: Sie sollen die Leistung eines Modells verbessern, um den Wert für das Unternehmen, das es verwendet, zu maximieren.

RAG nutzt die internen Daten eines Unternehmens, um das Prompt Engineering zu verbessern, während beim Fine Tuning ein Modell mit einem fokussierten Satz externer Daten neu trainiert wird, um die Leistung zu verbessern.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Warum sind RAG und Fine Tuning wichtig?

RAG bindet ein LLM in Speicher mit aktuellen, privaten Daten ein, auf die es sonst keinen Zugriff hätte. RAG-Modelle können mit dem zusätzlichen Kontext interner Daten genauere Antworten geben, als sie es ohne diese Daten könnten.

Ein feinabgestimmtes Modell übertrifft in der Regel sein entsprechendes Basismodell, z. B. GPT-3 oder GPT-4, wenn es auf sein Training mit fachspezifischen Daten zurückgreift. Das fein abgestimmte LLM hat ein besseres Verständnis des spezifischen Fachgebiets und seiner Terminologie, so dass es präzise Antworten generieren kann.

Large Language Models stagnieren, wenn sie nicht kontinuierlich Zugriff auf neue Daten haben. Moderne LLMs sind riesige Neural Networks, für deren Training enorm große Datensätze und Rechenressourcen nötig sind. Selbst die größten LLM-Anbieter wie Meta, Microsoft und OpenAI trainieren ihre Modelle regelmäßig neu – sodass jedes LLM sobald es veröffentlicht wird fast augenblicklich veraltet ist.

Wenn Modelle nicht aus neuen Daten lernen können, halluzinieren oder konfabulieren sie oft: ein Phänomen, das auftritt, wenn generative KI-Modelle Antworten auf Fragen „erfinden“, die sie nicht definitiv beantworten können. Generative KI-Modelle verwenden komplexe statistische Algorithmen, um Antworten auf Benutzeranfragen vorherzusagen. Wenn ein Benutzer etwas fragt, das die KI nicht einfach in ihrem Trainingsdatensatz finden kann, bleibt ihr nichts anderes übrig, als zu raten.

Mixture of Experts | Podcast

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Was ist Retrieval-Augmented Generation (RAG)?

RAG ist eine LLM-Optimierungsmethode, die von Meta AI in einem Artikel aus dem Jahr 2020 mit dem Titel „Retrieval-Augmented Generation for Knowledge-Intensive Tasks“ vorgestellt wurde.[1] Es handelt sich um ein Datenarchitektur-Framework, das ein LLM mit den firmeneigenen Daten eines Unternehmens verbindet, die oft in Data Lakehouses gespeichert sind. Diese riesigen Datenplattformen sind dynamisch und enthalten alle Daten, die über alle internen und externen Kontaktpunkte hinweg durch das Unternehmen fließen.

Wie funktioniert RAG?

Bei der Retrieval-Augmented Generation werden für die Anfrage des Benutzers relevante Informationen in internen Datenquellen gesucht. Anschließend werden diese Daten verwendet, um präzisere“ Antworten zu generieren. Ein Datenabrufmechanismus (data „retrieval“ mechanism) wurde hinzugefügt, um das LLM zu erweitern („augment“), indem er ihm hilft, relevantere Antworten zu generieren („generate“).

RAG-Modelle generieren Antworten in einem vierstufigen Prozess:

  1. Anfrage: Ein Benutzer sendet eine Anfrage ab, die das RAG-System initialisiert.

  2. Abrufen von Informationen: Komplexe Algorithmen durchkämmen die Wissensdatenbanken des Unternehmens auf der Suche nach relevanten Informationen.

  3. Integration: Die abgerufenen Daten werden mit der Anfrage des Benutzers kombiniert und dem RAG-Modell zur Beantwortung übergeben. Bis zu diesem Zeitpunkt hat das LLM die Anfrage noch nicht verarbeitet.

  4. Antwort: Indem es die abgerufenen Daten mit seinem eigenen Training und gespeichertem Wissen kombiniert, generiert das LLM eine präzise, kontextbezogene Antwort.

Beim Durchsuchen interner Dokumente verwenden RAG-Systeme die semantische Suche. Vektordatenbanken organisieren Daten nach Ähnlichkeit und ermöglichen so die Suche nach Bedeutung und nicht nach Keywords. Durch semantische Suchtechniken können RAG-Algorithmen, über Keywords hinaus bis zur Absicht einer Abfrage gelangen und die relevantesten Daten zurückzugeben.

RAG-Systeme erfordern den Aufbau und die Wartung einer umfangreichen Datenarchitektur. Dateningenieure müssen die erforderlichen Datenpipelines aufbauen, um die Data Lakehouses ihrem Unternehmen mit dem LLM zu verbinden.

Wenn Sie sich das Konzept von RAG klarmachen wollen, stellen Sie sich ein generatives KI-Modell als Hobbykoch vor. Es kennt die Grundlagen des Kochens, aber ihm fehlt die Expertise – eine unternehmenseigene Datenbank – eines Kochs, der in einer ganz bestimmten kulinarischen Richtung ausgebildet wurde. RAG ist, als würde man dem Hobbykoch ein Kochbuch für diese kulinarische Richtung in die Hand geben. Indem er sein generelles Wissen über das Kochen mit den Rezepten aus dem Kochbuch kombiniert, kann der Hobbykoch mühelos seine Lieblingsgerichte aus dieser Küche kreieren.

Der RAG-Datenabrufprozess

Um RAG effektiv nutzen zu können, müssen Dateningenieure Datenspeichersysteme und Pipelines aufbauen, die eine Reihe wichtiger Kriterien erfüllen.

Datenspeicherung in Unternehmen

Um die Funktionen des RAG-Systems zu erweitern und einen Datenabruf in Echtzeit zu ermöglichen, müssen die Daten sorgfältig organisiert und gepflegt werden. Aktuelle Metadaten und minimale Datenredundanz tragen zu einer effektiven Abfrage bei.

Dokumentenspeicherung

Die Aufteilung unstrukturierter Daten, wie z. B. Dokumente, in kleinere Teile kann eine effektivere Suche ermöglichen. Durch diese „Aufteilung“ der Daten können RAG-Systeme genauere Daten zurückgeben und gleichzeitig die Kosten senken, da nur der relevanteste Teil des Dokuments in den Prompt für das LLM aufgenommen wird.

Anschließend werden die Chunks in eine Vektordatenbank eingebettet – ein Prozess, der Text in Zahlen umwandelt.

Datenschutz

Datenpipelines müssen Sicherheitsbeschränkungen enthalten, um zu verhindern, dass Mitarbeiter auf Daten zugreifen, die außerhalb ihres jeweiligen Zuständigkeitsbereichs liegen. Und im Zuge wegweisender Datenschutzgesetze wie der EU-DSGVO müssen Unternehmen strenge Datenschutzmaßnahmen auf alle internen Daten anwenden. Unbefugte Nutzer dürfen niemals Zugriff auf personenbezogene Daten (PBD) erhalten.

Prompt Tuning

Das RAG-System kombiniert die Benutzeranfrage mit den gesammelten Daten, um einen maßgeschneiderten Prompt für das LLM zu erstellen. Ein kontinuierlicher Prompt-Tuning-Prozess, der durch andere maschinelle Lernmodelleunterstützt wird, kann die Fähigkeit des RAG-Systems zur Beantwortung von Fragen im Laufe der Zeit stärken.

Was ist Fine Tuning?

Als Fine Tuning bezeichnet man das erneute Training eines vortrainierten Modells mit einem kleineren, fokussierteren Satz von Trainingsdaten, um ihm fachspezifisches Wissen zu vermitteln. Das Modell passt dann seine Parameter – die Richtlinien, die sein Verhalten steuern – und seine Einbettungen an, um sie besser auf den spezifischen Datensatz abzustimmen.

Wie funktioniert Fine Tuning?

Beim Fine Tuning wird ein Modell einem Datensatz mit gekennzeichneten Beispielen ausgesetzt. Das Modell verbessert sich im Vergleich zum ersten Training, indem es seine Modellgewichtungen auf der Grundlage der neuen Daten aktualisiert. Fine Tuning ist eine Methode des supervised Learning, was bedeutet, dass die im Training verwendeten Daten organisiert und gekennzeichnet sind. Im Gegensatz dazu durchlaufen die meisten Basismodelle ein unsupervised Learning mit unsortierten Daten – das Modell muss sie selbst kategorisieren.

Wenn man sich ein generatives KI-Modell wieder als Hobbykoch vorstellt, wäre Fine Tuning ein Kochkurs in einer bestimmten kulinarischen Richtung. Bevor er den Kurs besucht, hat der Hobbykoch ein allgemeines Verständnis für die Grundlagen des Kochens. Aber nachdem er eine kulinarische Ausbildung absolviert und fachspezifisches Wissen erworben hat, ist er viel kompetenter darin, diese Art von Essen zu kochen.

Vollständiges Fine Tuning vs. parametereffizientes Fine Tuning

Bei Modellen kann entweder eine vollständiges Fine Tuning erfolgen, bei der alle Parameter aktualisiert werden, oder das Fine Tuning erfolgt lediglich durch Aktualisierung der wichtigsten Parameter. Dieser Prozess ist als parametereffizientes Fine Tuning (PEFT) bekannt und zeichnet sich dadurch aus, dass er Modelle auf einem bestimmten Gebiet effektiver macht, wobei die Trainingskosten gering bleiben.

Das Fine Tuning eines Modells ist rechenintensiv und erfordert mehrere leistungsstarke, parallel laufende GPUs – ganz zu schweigen von dem Speicherplatz für das LLM selbst. PEFT ermöglicht es LLM-Benutzern, ihre Modelle auf einfacheren Hardware-Setups neu zu trainieren und gleichzeitig vergleichbare Leistungsverbesserungen im beabsichtigten Anwendungsfall des Modells zu erzielen, z. B. im Kundensupport oder in der Stimmungsanalyse. Die Feinabstimmung eignet sich besonders gut dafür, Modelle bei der Überwindung von Verzerrungen zu unterstützen. Dies sind Lücken zwischen den Vorhersagen des Modells und den tatsächlichen Ergebnissen aus der realen Welt.

Fine Tuning vs. kontinuierliches Vortraining

Das Vortraining steht ganz am Anfang des Trainingsprozesses. Die Modellgewichtungen oder -parameter werden nach dem Zufallsprinzip initialisiert und das Modell beginnt mit dem Training anhand seines ursprünglichen Datensatzes. Kontinuierliches Vortraining führt ein trainiertes Modell in einen neuen, nicht gekennzeichneten Datensatz ein, was als Transferlernen bekannt ist. Das vortrainierte Modell „überträgt“ das bisher Gelernte auf neue externe Informationen.

Im Gegensatz dazu nutzt Fine Tuning gekennzeichnete Daten, um die Leistung eines Modells in einem ausgewählten Anwendungsfall zu verbessern. Fine Tuning eignet sich hervorragend, um das Fachwissen eines Modells in Bezug auf bestimmte Aufgaben zu verbessern, während ein kontinuierliches Vortraining das Fachwissen eines Modells vertiefen kann.

Weiterführende Lösungen

Weiterführende Lösungen

IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Buchen Sie eine Live-Demo
Fußnoten