Lesezeit
Prompt-Engineering, Feinabstimmung und Retrieval Augmented Generation (RAG) sind drei Optimierungsmethoden, mit denen Unternehmen mehr Nutzen aus Large Language Models (LLMs) ziehen können. Alle drei optimieren das Modellverhalten, aber welche Lösung verwendet werden soll, hängt vom Zielanwendungsfall und den verfügbaren Ressourcen ab.
Generative KI-Modelle werden mit riesigen Datenpools trainiert, von denen ein Großteil aus dem Internet stammt. Entwickler künstlicher Intelligenz haben in der Regel keinen Zugriff auf Nischendaten, wie z. B. firmeneigene und interne Daten. Wenn Unternehmen Large Language Models (LLMs) auf spezifische Bedürfnisse anwenden wollen, müssen sie die Funktionsweise des generativen KI-Modells optimieren, um die gewünschten Ausgaben und das gewünschte Verhalten zu erzielen.
Prompt Engineering, RAG und Feinabstimmung helfen alle, die Ausgaben eines LLM für den jeweiligen Anwendungsfall zu optimieren. Mit ihnen können Data Scientists eine bessere Leistung, eine höhere bereichsspezifische Genauigkeit und eine Ausgabe erzielen, die relevanten Formatierungs-, Sprach- oder Regulierungsanforderungen entspricht.
Der Unterschied zwischen Prompt Engineering, RAG und Feinabstimmung umfasst vier Hauptunterscheidungsbereiche:
Lösung
Ziele
Ressourcenanforderungen
Anwendungen
Prompt Engineering optimiert Eingaben, um ein Modell zu besseren Ausgaben zu führen. Durch die Feinabstimmung von LLMs werden diese mit domänenspezifischen Datensätzen trainiert, um die Leistung in nachgelagerten Aufgaben zu steigern. RAG verbindet ein LLM mit einer Datenbank und automatisiert den Informationsabruf, um Prompts mit relevanten Daten zu ergänzen und so die Genauigkeit zu erhöhen.
RAG, Prompt Engineering und Feinabstimmung haben im Großen und Ganzen dasselbe Ergebnis: die Verbesserung der Leistung eines Modells, um den Wert für das Unternehmen, das es nutzt, zu maximieren. Aber genauer gesagt sollte Prompt Engineering dazu führen, dass ein Modell die vom Benutzer gewünschten Ergebnisse liefert. RAG zielt darauf ab, ein Modell dazu zu bringen, relevantere und genauere Ausgaben zu liefern.
Ein Feinabstimmungsmodell wird anhand eines gezielten Satzes externer Daten neu trainiert, um die Leistung in bestimmten Anwendungsfällen zu verbessern. Die drei Methoden schließen sich nicht gegenseitig aus und werden oft kombiniert, um optimale Ergebnisse zu erzielen.
Prompt Engineering ist die am wenigsten zeitaufwändige und ressourcenintensive der drei Optimierungstechniken. Grundlegendes Prompt Engineering kann manuell durchgeführt werden, ohne dass Investitionen in zusätzliche Rechenleistung erforderlich sind.
RAG benötigt Data-Science-Fachwissen, um Unternehmensdatensätze zu organisieren und die Datenpipelines zu konstruieren, die LLMs mit diesen Datenquellen verbinden. Die Feinabstimmung ist wohl die anspruchsvollste Technik, weil die Prozesse der Datenaufbereitung und des Trainings so rechenintensiv und zeitintensiv sind.
Das Prompt Engineering ist am flexibelsten und glänzt in offenen Situationen mit einer potenziell vielfältigen Palette von Ausgaben, z. B. wenn ein LLM gebeten wird, Inhalte von Grund auf zu generieren. Der Erfolg bei der Erstellung von Bildern, Videos und Texten hängt von starken Prompts ab.
Bei der Feinabstimmung wird ein Modell für eine hochgradig fokussierte Arbeit verfeinert – wenn Data Scientists ein Modell benötigen, das eine bestimmte Aufgabe sehr gut erfüllt. RAG ist eine ideale Lösung, wenn genaue, relevante, aktuelle Informationen von größter Bedeutung sind, wie zum Beispiel bei Chatbots für Kundenservice.
Prompt Engineering bietet eine Reihe von Methoden, um Modellen explizite Anweisungen für ihr Verhalten zu geben. Mit klaren Anweisungen kann das Modellverhalten präziser gestaltet werden, ohne in ressourcenintensive Abfragesysteme oder Trainings investieren zu müssen.
RAG verbindet ein LLM mit proprietären Echtzeitdaten, die ihm ansonsten nicht zugänglich wären. RAG-Modelle können mit dem zusätzlichen Kontext interner Daten genauere Antworten geben, als sie es ohne diese Daten könnten.
Ein feinabgestimmtes Modell übertrifft in der Regel sein entsprechendes Basismodell, wie beispielsweise die Modelle aus der GPT-Familie, wenn es auf sein Training mit fachspezifischen Daten zurückgreift. Durch den besseren Zugang zu externem Wissen ermöglicht ein fein abgestimmtes LLM ein besseres Verständnis des spezifischen Fachgebiets und seiner Terminologie.
Prompt Engineering ist der Prozess der Erstellung effektiver Prompts, die ein Modell zu den gewünschten Ausgaben führen, ohne seine Wissensbasis zu erweitern. Der Prompt-Engineering-Prozess verändert die Parameter eines vorab trainierten Modells nicht wesentlich.
Das Ziel des Prompt Engineering ist es, Prompts zu entwickeln, die dazu führen, dass die Ausgaben eines Modells die spezifischen Anforderungen des beabsichtigten Anwendungsfalls erfüllen. Weiteres Training und ein besserer Datenzugriff können ein schlechtes Prompting nicht ausgleichen.
Prompt Engineering funktioniert durch die Anpassung der Struktur und des Inhalts von Eingaben auf der Grundlage früherer Ausgaben. Mit jeder Iteration lernt der Prompt Engineer, wie das Modell auf frühere Eingaben reagiert, und verwendet diese Ergebnisse dann für den nächsten Prompt. Ziel ist es, das Modellverhalten durch klare Anweisungen zu modifizieren.
Gutes Prompt Engineering basiert auf Prompts, die einem Modell für die Verarbeitung natürlicher Sprache (NLP) genau sagen, was es tun soll. Beim Prompt-Engineering-Prozess wird mit Inhalt, Struktur und Sprache des Prompts experimentiert, um das optimale Format zu finden, das zur benötigten Ausgabe des Modells führt.
Ein ML-Modell kann mit einem angehenden Hobbykoch verglichen werden, der ein großartiges Abendessen zubereiten möchte. Prompt Engineering wäre vergleichbar mit einem sachkundigen Freund oder Verwandten, der ihn bei der Planung seiner Vorgehensweise hilft. Mit soliden Ratschlägen, was und wie man es zubereitet, ist es wahrscheinlicher, dass der eifrige Hobbykoch etwas Köstliches zubereitet.
RAG ist ein Datenarchitektur-Framework, das ein LLM mit anderen Daten verbindet, wie zum Beispiel den firmeneigenen Daten eines Unternehmens, die oft in Data Lakehouses gespeichert sind. RAG-Systeme fügen LLM-Prompts relevante Daten hinzu, damit das LLM genauere Antworten generieren kann.
Bei der Retrieval-Augmented Generation werden Daten gesucht, die für die Abfrage des Benutzers relevant sind. Diese Daten werden dann verwendet, um informativere Prompts zu erstellen. Ein Informationsabrufmechanismus wird hinzugefügt, um die Prompts für das LLM zu ergänzen und ihm zu helfen, relevantere Antworten zu generieren.
RAG-Modelle generieren Antworten in einem vierstufigen Prozess:
Anfrage: Ein Benutzer sendet eine Anfrage ab, die das RAG-System initialisiert.
Abrufen von Informationen: Komplexe Algorithmen oder APIs durchsuchen interne und externe Wissensdatenbanken nach relevanten Informationen.
Integration: Die abgerufenen Daten werden mit der Anfrage des Benutzers kombiniert und dem RAG-Modell zur Beantwortung übergeben. Bis zu diesem Zeitpunkt hat das LLM die Anfrage noch nicht verarbeitet.
Antwort: Indem es die abgerufenen Daten mit seinem eigenen Training und gespeichertem Wissen kombiniert, generiert das LLM eine präzise, kontextbezogene Antwort.
Beim Durchsuchen von Dokumenten verwenden RAG-Systeme die semantische Suche. Vektordatenbanken organisieren Daten nach Ähnlichkeit und ermöglichen so die Suche nach Bedeutung und anstelle von Stichwörtern. Mithilfe semantischer Suchtechniken können RAG-Algorithmen über Schlüsselwörter hinaus bis zur Absicht einer Abfrage gelangen und die relevantesten Daten zurückgeben.
RAG-Systeme erfordern den Aufbau und die Wartung einer umfangreichen Datenarchitektur. Dateningenieure müssen die erforderlichen Datenpipelines aufbauen, um die Data Lakehouses ihres Unternehmens mit dem LLM zu verbinden und RAG zu verwenden. RAG-Systeme benötigen außerdem ein präzises Prompt Engineering, um die richtigen Daten zu finden und sicherzustellen, dass das LLM weiß, was damit zu tun ist.
Stellen Sie sich noch einmal ein generatives KI-Modell als einen Hobbykoch vor. Er kennt die Grundlagen des Backens, aber es fehlen ihm die neuesten Informationen und das Expertenwissen eines Kochs, der in einer bestimmten Küche ausgebildet wurde. RAG ist, als würde man dem Hobbykoch ein Kochbuch für diese kulinarische Richtung in die Hand geben. Indem er sein generelles Wissen über das Kochen mit den Rezepten aus dem Kochbuch kombiniert, kann der Hobbykoch mühelos seine Lieblingsgerichte aus dieser Küche kreieren.
Als Feinabstimmung bezeichnet man das erneute Training eines vortrainierten Modells mit einem kleineren, fokussierteren Satz von Trainingsdaten, um ihm fachspezifisches Wissen zu vermitteln. Das Modell passt dann seine Parameter – die Richtlinien, die sein Verhalten steuern – und seine Einbettungen an, um sie besser auf den spezifischen Datensatz abzustimmen.
Zur Feinabstimmung wird ein Modell einem Datensatz mit gekennzeichneten Beispielen ausgesetzt. Das Modell verbessert sich im Vergleich zum ersten Training, indem es seine Modellgewichtungen auf der Grundlage der neuen Daten aktualisiert. Feinabstimmung ist eine Methode des überwachten Lernens, was bedeutet, dass die im Training verwendeten Daten organisiert und gekennzeichnet sind. Im Gegensatz dazu durchlaufen die meisten Basismodelle ein unüberwachtes Lernen mit unsortierten Daten – das Modell muss sie selbst kategorisieren.
Wenn man sich ein generatives KI-Modell wieder als Hobbykoch vorstellt, wäre die Feinabstimmung ein Kochkurs in einer bestimmten kulinarischen Richtung. Bevor er den Kurs besucht, hat der Hobbykoch ein allgemeines Verständnis der Grundlagen des Kochens. Aber nachdem er eine kulinarische Ausbildung absolviert und fachspezifisches Wissen erworben hat, ist er viel kompetenter darin, diese Art von Gerichten zu kochen.
Bei Modellen kann entweder eine vollständige Feinabstimmung erfolgen, bei der alle Parameter aktualisiert werden, oder die Feinabstimmung erfolgt lediglich durch Aktualisierung der wichtigsten Parameter. Letzteres Verfahren wird als parametereffiziente Feinabstimmung (PEFT) bezeichnet und ist eine kostengünstige Methode, um Modelle in einem bestimmten Bereich effektiver zu machen.
Die Feinabstimmung eines Modells ist rechenintensiv und erfordert mehrere leistungsstarke, parallel laufende GPUs – ganz zu schweigen von dem Speicherplatz für das LLM selbst. PEFT ermöglicht es LLM-Benutzern, ihre Modelle auf einfacheren Hardware-Setups neu zu trainieren und gleichzeitig vergleichbare Leistungsverbesserungen im beabsichtigten Anwendungsfall des Modells zu erzielen, z. B. im Kundensupport oder in der Stimmungsanalyse. Die Feinabstimmung eignet sich besonders gut dafür, Modelle bei der Überwindung von Verzerrungen zu unterstützen. Dies sind Lücken zwischen den Vorhersagen des Modells und den tatsächlichen Ergebnissen aus der realen Welt.
Das Vortraining steht ganz am Anfang des Trainingsprozesses. Die Modellgewichtungen oder -parameter werden nach dem Zufallsprinzip initialisiert und das Modell beginnt mit dem Training anhand seines ursprünglichen Datensatzes. Kontinuierliches Vortraining führt ein trainiertes Modell in einen neuen, nicht gekennzeichneten Datensatz ein, was als Transferlernen bezeichnet wird. Das vortrainierte Modell „überträgt“ das bisher Gelernte auf neue externe Informationen.
Im Gegensatz dazu nutzt die Feinabstimmung gekennzeichnete Daten, um die Leistung eines Modells in einem ausgewählten Anwendungsfall zu verbessern. Die Feinabstimmung eignet sich hervorragend, um das Fachwissen eines Modells in Bezug auf bestimmte Aufgaben zu verbessern, während ein kontinuierliches Vortraining das Fachwissen eines Modells vertiefen kann.
Erfahren Sie, wie CEOs den Wert, den generative KI schaffen kann, gegen die erforderlichen Investitionen und die damit verbundenen Risiken abwägen können.
Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.
Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.
Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.
Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.
IBM Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Erkunden Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.
Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.
Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.
Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.