Was ist LLM-Anpassung?

Autoren

Staff writer

Staff Editor, AI Models

IBM Think

Was ist LLM-Anpassung?

Die LLM-Anpassung oder die Anpassung großer Sprachmodelle ist der Prozess der Anpassung eines vortrainierten LLM an bestimmte Aufgaben. Der LLM-Anpassungsprozess umfasst die Auswahl eines vortrainierten Modells, das auch als Foundation Model bezeichnet wird, und die anschließende Anpassung des Modells an den beabsichtigten Anwendungsfall.

Der LLM-Workflow

Der Prozess der Erstellung eines benutzerdefinierten LLM ist darauf ausgelegt, generalisierte Modelle auf spezifischere Kontexte anzuwenden. Obwohl verschiedene Methoden zur LLM-Anpassung zur Verfügung stehen, folgt der allgemeine Prozess in der Regel einer ähnlichen Abfolge von Schritten.

Datenaufbereitung: Eine optimale Modellleistung hängt von aussagekräftigen Trainingsdaten ab. Modellersteller und Data Scientist müssen einen domänenspezifischen Trainings-Datensatz zusammenstellen, der für den beabsichtigten Zweck des Modells relevant ist. Mit einer Wissensbasis aus hochwertigen Daten ist es wahrscheinlicher, dass die Antworten des Modells genau und nützlich sind.
Modellauswahl: Die Liste der LLMs ist ebenso lang wie vielfältig. KI-Modelle unterscheiden sich in ihrer Größe, Effektivität, Nutzung von Rechenressourcen und Architektur, was sich komplett auf die Leistung auswirkt. Die Auswahl des richtigen Modells erfordert ein Verständnis sowohl der Ziele als auch der Grenzen des maschinellen Lernprojekts.
Modellanpassung: Hier verwandeln Spezialisten für maschinelles Lernen das Foundation Model in ein spezielles Tool. Der Output des Modells wird auf bestimmte nachgelagerte Aufgaben zugeschnitten. Die Entwickler müssen die Funktionsweise des Foundation Models und die gewählte Anpassungsmethode verstehen, um das Verhalten des Modells erfolgreich zu optimieren.
Iteration: ML-Algorithmen funktionieren am besten, wenn sie Schritt für Schritt trainiert werden, anstatt große Anpassungen vorzunehmen. Entwickler können die Auswirkungen der Anpassungstechnik bei jedem Schritt messen und diese Erkenntnisse für die nächste Iteration nutzen.
Testen: Nachdem das Training abgeschlossen ist und bevor das Modell in der realen Welt eingesetzt wird, wird es auf zuverlässige Leistung getestet. Entwickler stellen sicher, dass ihre Anpassungen effektiv sind und dass das Modell sein neu gewonnenes spezifisches Wissen anwendet, ohne dass es zu einem katastrophalen Vergessen kommt.
Modell-Bereitstellung: Das benutzerdefinierte Modell wird in seine Produktionsumgebung, z. B. in einer KI-gestützten Anwendung oder einer API, und für bestimmte Anwendungsfälle in der realen Welt bereitgestellt.

Branchen-Newsletter

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

LLM-Anpassungstechniken

Je nach Anwendungsfall und gewünschtem Output wählen Entwickler und Spezialisten für maschinelles Lernen aus einer Reihe von LLM-Anpassungsmethoden. Alle Arten der LLM-Anpassung können die Leistung eines generativen KI-Modells für spezifische nachgelagerte Aufgaben beeinflussen.

Zu den LLM-Anpassungstechniken gehören:

Retrieval-Augmented Generation (RAG)

Die Retrieval-Augmented Generation (RAG) verbindet ein LLM mit einer externen Datenquelle, um seine Wissensbasis zu erweitern. Wenn ein Benutzer eine Abfrage sendet, durchsucht das RAG-System die gepaarte Datenbank nach relevanten Informationen und kombiniert diese dann mit der Abfrage, um dem LLM bei der Generierung einer Antwort mehr Kontext zu geben.

RAG verwendet Einbettungen, um eine Datenbank, einen Quellcode oder andere Informationen in eine durchsuchbare Vektordatenbank umzuwandeln. Einbettungen stellen jeden Datenpunkt in einem dreidimensionalen Vektorraum mathematisch dar. Um relevante Daten zu finden, wandelt das Information-Retrieval-Modell in einem RAG-System Benutzeranfragen in Einbettungen um und sucht ähnliche Einbettungen in der Vektordatenbank.

RAG-Systeme folgen in der Regel der gleichen Standardabfolge:

Prompt: Der Benutzer sendet einen Prompt an die Benutzeroberfläche, z. B. einen KI-gestützten Chatbot.
Abfrage: Ein Information-Retrieval-Modell wandelt den Prompt in eine Einbettung um und fragt die Datenbank nach ähnlichen Daten ab.
Abruf: Das Retrieval-Modell ruft die relevanten Daten aus der Datenbank ab.
Generierung: Das RAG-System kombiniert die abgerufenen Daten mit der Anfrage des Benutzers und sendet sie an das LLM, das eine Antwort generiert.
Lieferung: Das RAG-System gibt die generierte Antwort an den Benutzer zurück.

RAG hat seinen Namen aufgrund der Art und Weise, wie RAG-Systeme relevante Daten abrufen und sie verwenden, um die vom LLM generierte Antwort zu ergänzen. Komplexere RAG-Systeme führen zusätzliche Komponenten ein, um den Prozess zu optimieren und die Antwortqualität weiter zu verbessern.

Vorteile der RAG

Indem man dem LLM Zugriff auf domänenspezifisches Wissen gewährt, kann es diese Daten in den Prozess der Antworterstellung einbeziehen. Dies erhöht die Genauigkeit und Zuverlässigkeit von KI-Lösungen ohne allzu hohe Kosteninvestitionen, insbesondere wenn die externen Daten bereits verfügbar und für die Nutzung durch maschinelles Lernen bereit sind.

Zum Beispiel kann ein RAG-Modell, das für die Beantwortung von Fragen entwickelt wurde, bessere Antworten geben, wenn es in der Lage ist, die richtigen Antworten in seiner verlinkten Wissensdatenbank zu finden.

Die Verwendung von RAG bei kleineren Modellen kann ihnen helfen, eine höhere Leistung zu erbringen. Kleine Sprachmodelle (SLMs) bieten geringere Rechenanforderungen, schnellere Trainingszeiten und weniger Latenz bei der Inferenz. Beim Aufbau eines RAG-Systems um ein SLM herum bleiben diese Vorteile erhalten und nutzen gleichzeitig die größere kontextspezifische Genauigkeit der RAG.

AI Academy

Warum Foundation Models einen Paradigmenwechsel für die KI bedeuten

Erfahren Sie mehr über eine neue Klasse flexibler, wiederverwendbarer KI-Modelle, die neue Einnahmen erschließen, Kosten senken und die Produktivität steigern können. Dann nutzen Sie unseren Leitfaden, um mehr zu erfahren.

Zur Episode wechseln

Feinabstimmung

Die Feinabstimmung eines LLM umfasst iterative Anpassungen der internen Einstellungen, die sein Verhalten steuern. Diese Einstellungen werden als Modellparameter oder Gewichtungen bezeichnet und steuern, wie das Modell Daten verarbeitet und auswertet.

Während des Trainings passt der Lernalgorithmus eines Modells die Parameter an, bis die optimale Leistung erreicht ist. An diesem Punkt gilt der Trainingsprozess als erfolgreich abgeschlossen.

Fortgeschrittene LLMs, insbesondere Transformer wie GPT von OpenAI und Llama 2 von Meta, können Milliarden von Parametern aufweisen. Da diese Modelle so groß sind, ist eine vollständige Feinabstimmung oft unerschwinglich teuer und zeitaufwändig.

Differenziertere Feinabstimmungsmethoden passen einige Parameter des Modells an oder fügen neue mit dem Ziel hinzu, sowohl die Trainingsleistung zu erhalten als auch die Kompetenz bei bestimmten Aufgaben zu steigern.

Zu den wichtigsten Feinabstimmungsmethoden gehören:

Parametereffiziente Feinabstimmung (PEFT)
Reinforcement Learning mit menschlichem Feedback (RLHF)
Kontinuierliche Feinabstimmung (CFT)

Parametereffiziente Feinabstimmung (PEFT)

PEFT friert die meisten Parameter eines vorab trainierten Modells ein und konzentriert sich darauf, diejenigen anzupassen, die für die neue Aufgabe am relevantesten sind. Dabei verbraucht es weit weniger Rechenressourcen als eine vollständige Feinabstimmung. PEFT ist ein weitreichendes Gebiet mit vielen Implementierungen.

Transferlernen

Transfer Learning nutzt das Wissen eines vorab trainierten Modells für neue Aufgaben und wendet das, was es bereits weiß, in einem neuen Kontext an. Es funktioniert am besten, wenn sich die neue Aufgabe auf die ursprüngliche Aufgabe bezieht, zum Beispiel, wenn Sie einen Klassifikator verwenden, um neue Kategorien oder Objekttypen zu erkennen und zu klassifizieren.

In diesem Beispiel wird die als Multitasking-Learning bekannte Art des Transfer Learnings angewandt: Ein Modell wird mit mehreren Aufgaben gleichzeitig abgestimmt. In diesem Fall sind diese neuen Aufgaben die Objekterkennung und -klassifizierung.

Low-Rank-Adaption (LoRA)

Die Low-Rank-Adaption (LoRA) ist ein modularer Ansatz zur Feinabstimmung, bei dem zusätzliche Parameter zu einem vorab trainierten Modell hinzugefügt werden. LoRA friert die Parameter des vortrainierten Modells ein und fügt eine so genannte Low-Rank-Matrix hinzu, die die Antworten des Modells an die Anforderungen eines bestimmten Anwendungsfalls oder einer Aufgabe anpasst.

Stellen Sie sich LoRA als die Hüte eines Zauberers vor, die es dem Träger ermöglichen, eine damit verbundene Fähigkeit auszuführen. Setzen Sie die magische Kochmütze auf und kochen Sie ein Fünf-Sterne-Menü. Setzen Sie den magischen Schutzhelm auf und bauen Sie ein Haus. Tragen Sie den magischen Motorradhelm und gewinnen Sie die Isle of Man TT. Schnappen Sie sich eine magische Baseballmütze und holen Sie sich den Sieg im Spiel.

Reinforcement Learning mit menschlichem Feedback (RLHF)

Reinforcement Learning mit Human Feedback (RLHF) verwendet ein partnerschaftliches Belohnungsmodell, um ein vorab trainiertes Modell mit Feinabstimmung für komplexe, subjektive Aufgaben zu optimieren. Ein ML-Modell kann nicht beurteilen, ob eine Schrift evokativ ist, ganz im Gegensatz zum Menschen. Genau diese Menschen können einem Modell beibringen, ihre Vorlieben nachzuahmen.

Mit RLHF trainieren Menschen ein Belohnungsmodell für die neue Aufgabe. Die Aufgabe des Belohnungsmodells besteht darin, erfolgreich vorherzusagen, wie ein Mensch auf eine bestimmte Eingabe reagieren würde. Während das standardmäßige Modelltraining Fehler bestraft, regt das Belohnungstraining zu guter Leistung an.

Daraufhin bringt das Belohnungsmodell wiederum dem Foundation Model bei, wie es sich entsprechend den Vorlieben der menschlichen Trainer verhalten soll. Sobald das Belohnungsmodell trainiert ist, kann es das Foundation Model ohne menschliches Eingreifen trainieren.

Wie bei allen Arten von maschinellem Lernen denkt das Modell nicht kritisch und in manchen Fällen überhaupt nicht. Vielmehr wählt es mathematisch das Ergebnis, das am ehesten den Vorlieben der menschlichen Trainer entspricht.

Kontinuierliche Feinabstimmung (CFT)

Continual Fine-Tuning (CFT) ist eine Art des kontinuierlichen Lernens, bei der ein Modell Schritt für Schritt an neue Aufgaben angepasst wird. Mithilfe der Befehlsoptimierung (Training eines Modells mithilfe beschrifteter Instruktionseingabepaare und zugehörigen Ausgaben) wird das Modell an einen breiteren Datensatz für nachgelagerte Aufgaben angepasst. CFT bringt Modellen oft bei, dieselbe Aufgabe auf verschiedenen Datenverteilungen auszuführen.

Ein Risiko bei allen Arten des kontinuierlichen Lernens ist das katastrophale Vergessen: Wenn ein Modell die Fähigkeit verliert, ältere Aufgaben auszuführen, nachdem es für neue Aufgaben angepasst wurde. Glücklicherweise haben ML-Forscher mehrere Techniken entwickelt, die Entwicklern dabei helfen, katastrophale Vergesslichkeit im Streben nach kontinuierlichem Lernen zu vermeiden.

Vorteile der Feinabstimmung

Durch die Feinabstimmung werden Modelle an neue Anwendungsfälle angepasst, während die Kosten für die Entwicklung neuer Modelle umgangen werden. Viele Arten der Feinabstimmung erhöhen die Effizienz weiter, indem nur eine kleine Anzahl von Parametern angepasst wird. Die Feinabstimmung zeigt sich auch in Situationen, in denen nicht genügend Daten vorhanden sind, um ein Modell von Grund auf zu trainieren.

Prompt Engineering

Prompt Engineering, auch bekannt als kontextbezogenes Lernen oder Prompt-basiertes Lernen, fügt relevante Informationen in den Prompt ein, die dem LLM helfen, bessere Antworten zu generieren. Während der Inferenz – wenn das Modell einen Prompt erhält – gibt der Benutzer in der Regel explizite Anweisungen und Beispiele an, die befolgt werden müssen.

Beispielsweise kann ein Modell, das aufgefordert wird, eine Textzusammenfassung durchzuführen, von einem Prompt profitieren, der ihm zeigt, wie seine Zusammenfassung formatiert werden soll, beispielsweise als Aufzählung. Umfassendere Prompts helfen dem Modell dabei, die Art von Antwort zurückzugeben, die der Benutzer erwartet.

Deep-Learning-Forscher haben zahlreiche Arten von Prompt-Engineering-Techniken entwickelt. Zu den wichtigsten Entwicklungen gehören:

Few-Shot-Prompting: Das Modell erhält ein paar Beispiel-Outputs (sogenannte Shots), nach denen es seine Antworten modellieren kann. Das Modell kann den Beispielen folgen und sich an den Shots orientieren, die der Benutzer im Prompt abgibt.
Chain-of-thought (CoT) Prompt: Der Prompt enthält eine schrittweise Argumentationsmethode, die das Modell befolgen soll. Das Modell strukturiert seine Antwortgenerierung entsprechend dem vom Benutzer bereitgestellten CoT. CoT-Prompts stellen eine fortgeschrittene Technik dar, die ein geübtes Verständnis dafür erfordert, wie LLMs Antworten generieren.

Vorteile des Prompt Engineering

Im Gegensatz zu vielen anderen LLM-Anpassungstechniken erfordert Prompt Engineering keine zusätzliche Codierung oder Entwicklung. Stattdessen müssen Prompt-Entwickler den Kontext, in dem das LLM bereitgestellt werden soll, gut kennen, um effektive und fundierte Prompts zu erstellen.

Mit der richtigen Umsetzung ist Prompt Engineering eine wertvolle Technik zur Verarbeitung natürlicher Sprache (NLP), mit der jeder, insbesondere Anfänger im Bereich der künstlichen Intelligenz (KI), LLMs anpassen kann. Neben der weit verbreiteten Verfügbarkeit von Open-Source-LLMs und Open-Source-KI-Tools ist Prompt Engineering ein zugänglicher Einstieg zu maschinellem Lernen, der Experimentieren, Neugier und Beharrlichkeit belohnt.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie bei der Vorbereitung von Datensätzen und dem Einsatz von Foundation Models den richtigen Ansatz wählen.

Was ist LLM-Anpassung?

Autoren

Was ist LLM-Anpassung?

Der LLM-Workflow

Die neuesten KI-Trends, präsentiert von Experten

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

LLM-Anpassungstechniken

Retrieval-Augmented Generation (RAG)

Vorteile der RAG

Warum Foundation Models einen Paradigmenwechsel für die KI bedeuten

Feinabstimmung

Parametereffiziente Feinabstimmung (PEFT)

Transferlernen

Low-Rank-Adaption (LoRA)

Reinforcement Learning mit menschlichem Feedback (RLHF)

Kontinuierliche Feinabstimmung (CFT)

Vorteile der Feinabstimmung

Prompt Engineering

Vorteile des Prompt Engineering

Ressourcen