Bestärkendes Lernen durch menschliches Feedback (Reinforcement Learning from Human Feedback, RLHF) ist eine Technik des maschinellen Lernens, bei der ein „Belohnungsmodell“ durch direktes menschliches Feedback trainiert und dann zur Optimierung der Leistung eines Agenten der künstlichen Intelligenz durch bestärkendes Lernen verwendet wird.
RLHF, auch bestärkendes Lernen aus menschlichen Vorlieben genannt, eignet sich hervorragend für Aufgaben mit komplexen, unklar definierten oder schwer zu spezifizierenden Zielen. Beispielsweise wäre es für eine algorithmische Lösung unpraktisch (oder sogar unmöglich), den Begriff „lustig“ mathematisch zu definieren, aber für Menschen wäre es einfach, Witze zu bewerten, die von einem großen Sprachmodell (LLM) generiert wurden. Dieses menschliche Feedback, destilliert in eine Belohnungsfunktion, könnte dann dazu verwendet werden, die Fähigkeiten des LLM beim Schreiben von Witzen zu verbessern.
In einer Veröffentlichung aus dem Jahr 2017 beschrieb Paul F. Christiano von OpenAI zusammen mit anderen Forschern von OpenAI und DeepMind den Erfolg von RLHF beim Training von KI-Modellen für komplizierte Aufgaben wie Atari-Spiele und simulierte Roboterfortbewegung.1 Nach diesem Durchbruch waren Videospiele weiterhin ein wichtiges Testfeld für RLHF: 2019 hatten mit RLHF trainierte KI-Systeme wie OpenAI Five und AlphaStar von DeepMind die besten menschlichen Profispieler in den weitaus komplexeren Spielen Dota22 undStarCraft3 besiegt.
Am wichtigsten ist vielleicht, dass OpenAI in seinem Artikel von 2017 feststellte, dass seine Methodik – insbesondere die Einführung des Proximal Policy Optimization (PPO)-Algorithmus für die Aktualisierung der Modellgewichte – die Kosten für die Erfassung und Destillation des erforderlichen menschlichen Feedbacks erheblich reduzierte. Dies ebnete den Weg für die spätere Integration von RLHF in den Bereich der Verarbeitung natürlicher Sprache (NLP), und die daraus resultierenden Fortschritte trugen dazu bei, sowohl LLMs als auch RLHF an die Spitze der KI-Forschung zu führen.
Die erste Veröffentlichung von Code, der die Verwendung von RLHF auf Sprachmodellen beschreibt, kam 2019 von OpenAI4, das dann Anfang 2022 das RLHF-trainierte InstructGPT veröffentlichte.5 Dies war ein entscheidender Schritt, um die Lücke zwischen den Modellen GPT-3 und GPT-3.5-turbo, die die Einführung von ChatGPT vorantrieben, zu schließen.
RLHF wird seitdem für das Trainieren modernster LLMs von OpenAI, DeepMind, Google6 und Anthropic verwendet.7
Das Konzept des bestärkenden Lernens (Reinforcement Learning, RL) zielt darauf ab, die Art und Weise des menschlichen Lernens nachzuahmen: KI-Agenten lernen – motiviert durch starke Anreize zum Erfolg – ganzheitlich durch Versuch und Irrtum.
Um diese Strategie in die Praxis umzusetzen, umfasst ein mathematischer Rahmen für Reinforcement Learning die folgenden Komponenten:
Der Zustandsraum umfasst alle verfügbaren Informationen über die jeweilige Aufgabe, die für Entscheidungen relevant sind, die der KI-Agent treffen könnte, einschließlich bekannter und unbekannter Variablen. Der Zustandsraum ändert sich normalerweise mit jeder Entscheidung, die der Agent trifft.
Der Aktionsraum enthält alle Entscheidungen, die der KI-Agent treffen könnte. Bei einem Brettspiel beispielsweise ist der Aktionsraum getrennt und klar definiert: Er besteht aus allen legalen Zügen, die dem KI-Spieler zu einem bestimmten Zeitpunkt zur Verfügung stehen. Im Kontext der Texterzeugung ist der Aktionsraum riesig und umfasst das gesamte „Vokabular“ der Token, die einem LLM zur Verfügung stehen.
Belohnung ist das Maß für Erfolg oder Fortschritt, das dem KI-Agenten einen Anreiz gibt. In einigen Fällen, wie bei Brettspielen, ist die Definition von Erfolg – in diesem Fall der Gewinn des Spiels – objektiv und einfach. Aber wenn die Definition von „Erfolg“ nebulös ist, kann die Entwicklung einer effektiven Belohnungsfunktion eine große Herausforderung sein. In einem mathematischen Rahmen muss dieses Feedback in ein Belohnungssignal übersetzt werden: eine skalare Quantifizierung des positiven (oder negativen) Feedbacks.
Eine Belohnungsfunktion könnte durch Strafen – negative Belohnungen – für Handlungen ergänzt werden, die als kontraproduktiv für die anstehende Aufgabe angesehen werden. So könnte ein Unternehmen beispielsweise einem Chatbot die Verwendung von Schimpfwörtern oder anderen vulgären Ausdrücken untersagen; ein selbstfahrendes Automodell könnte für Kollisionen oder das Verlassen einer Fahrspur bestraft werden.
Eine Richtlinie ist im Wesentlichen die Strategie oder der „Gedankenprozess“, der das Verhalten eines KI-Agenten steuert. Einfach ausgedrückt ist eine Richtlinie („π“) eine Funktion, die einen Zustand („s“) als Eingabe annimmt und eine Aktion („a“) zurückgibt: π(s)→a.
Das Ziel eines RL-Algorithmus ist es, eine Strategie so zu optimieren, dass eine maximale Belohnung erzielt wird. Beim Deep Reinforcement Learning wird die Strategie als neuronales Netz dargestellt, das während des Trainingsprozesses entsprechend der Belohnungsfunktion kontinuierlich aktualisiert wird. Der KI-Agent lernt aus Erfahrung, ähnlich wie Menschen.
Während die konventionelle RL in vielen Bereichen beeindruckende Ergebnisse in der Praxis erzielt hat, kann es schwierig sein, eine Belohnungsfunktion für komplexe Aufgaben zu konstruieren, bei denen eine eindeutige Definition des Erfolgs schwer zu finden ist. Der Hauptvorteil von RLHF ist seine Fähigkeit, Nuancen und Subjektivität einzufangen, indem es positives menschliches Feedback anstelle von formell definierten Zielen verwendet.
Eine der wichtigsten Anwendungen von RLHF ist die Verbesserung der Relevanz, Genauigkeit und Ethik von LLM – insbesondere für die Verwendung als Chatbots.
LLMs versuchen wie alle generativen KI-Modelle, die Wahrscheinlichkeitsverteilung von Trainingsdaten zu replizieren. Obwohl die jüngsten Fortschritte die Verwendung von LLMs als Motoren für Chatbots oder sogar als logische Motoren für allgemeine KI gefördert haben, verwenden diese Sprachmodelle einfach Muster, die aus ihren Trainingsdaten gelernt wurden, um das nächste Wort bzw. die nächsten Wörter in einer bestimmten Sequenz vorherzusagen, die durch eine Eingabeaufforderung eingeleitet wird. Grundsätzlich antworten diese Modelle nicht wirklich auf eine Eingabeaufforderung: Sie hängen lediglich Text daran an.
Ohne sehr spezifische Anweisungen sind Sprachmodelle kaum in der Lage, die Absicht des Benutzers zu verstehen. Obwohl Prompt-Engineering dazu beitragen kann, den Kontext zu liefern, den ein LLM benötigt, um seine Antwort auf die Bedürfnisse eines Benutzers abzustimmen, ist es unpraktisch, Prompt-Engineering für jeden einzelnen Austausch mit einem Chatbot zu verlangen.
Während LLMs mit konventionellen Methoden trainiert wurden, um grammatikalisch kohärente Ausgaben zu produzieren, ist es ein Problem, LLMs zu trainieren, um „gute“ Ausgaben zu produzieren. Begriffe wie Wahrheit, Hilfsbereitschaft, Kreativität oder auch die Frage, was ein Codeschnipsel ausführbar macht, sind weitaus kontextabhängiger als Wortbedeutungen und sprachliche Strukturen.
Um Sprachmodelle für die menschliche Interaktion zu verbessern, wandten sich Data Scientists dem Reinforcement Learning mit menschlichem Feedback zu. Die RLHF-erweiterten InstructGPT-Modelle übertrafen ihre GPT-3-Vorgänger deutlich, insbesondere in Bezug auf die Befolgung von Anweisungen, die Aufrechterhaltung der sachlichen Genauigkeit und die Vermeidung von Modellhalluzinationen.5 Ebenso hat laut einer Studie, die OpenAI zum Start von GPT-4 veröffentlichte, RLHF die Genauigkeit bei gegensätzlichen Fragen verdoppelt.8
Die Vorteile von RLHF können sogar den Wert größerer Trainingsdatensätze übertreffen und eine dateneffizientere Modellentwicklung ermöglichen: OpenAI stellte fest, dass seine Etikettierer die Ergebnisse der 1,3B-Parameter-Version von InstructGPT sogar den Ergebnissen der 175B-Parameter-Version von GPT-3.5vorzogen.
Das Training eines LLM mit RLHF findet in der Regel in vier Phasen statt:
RLHF wird im Allgemeinen zur Feinabstimmung und Optimierung eines vorab trainierten Modells und nicht als durchgängige Trainingsmethode eingesetzt. Beispielsweise verwendete InstructGPT RLHF, um das bereits vorhandene GPT-Modell (Generative Pre-Trained Transformer) zu verbessern. In der Ankündigung der Veröffentlichung von InstructGPT erklärte OpenAI, dass „eine Art, über diesen Prozess nachzudenken, darin besteht, dass er Fähigkeiten „freischaltet“, die GPT-3 bereits besaß, die aber durch Prompt Engineering allein nur schwer zu erlangen waren.“5
Das Vortraining bleibt mit Abstand die ressourcenintensivste Phase von RLHF. OpenAI stellte fest, dass der RLHF-Trainingsprozess für InstructGPT weniger als 2 Prozent der für das Vortrainieren von GPT-3 erforderlichen Berechnungen und Daten umfasste.
Vor dem Beginn des expliziten bestärkenden Lernens wird die überwachte Feinabstimmung (supervised fine-tuning, SFT) verwendet, um das Modell darauf vorzubereiten, seine Antworten in dem vom Benutzer erwarteten Format zu erzeugen.
Wie bereits angedeutet, optimiert der LLM-Pre-Trainingsprozess die Modelle für die Vervollständigung: Die Vorhersage der nächsten Wörter in einer Sequenz, die mit der Eingabeaufforderung des Benutzers beginnt, wird durch die Wiederholung der linguistischen Muster, die während des Modell-Pre-Trainings gelernt wurden, ermöglicht. Manchmal vervollständigen LLMs eine Sequenz nicht so, wie es der Benutzer wünscht: Wenn die Aufforderung des Benutzers zum Beispiel lautet: „Zeige mir, wie man einen Lebenslauf erstellt“, könnte der LLM mit „mit Microsoft Word“ antworten. Dies ist eine gültige Möglichkeit, den Satz zu vervollständigen, aber nicht auf das Ziel des Benutzers abgestimmt.
SFT nutzt daher überwachtes Lernen, um Modelle zu trainieren, angemessen auf verschiedene Arten von Eingabeaufforderungen zu reagieren. Menschliche Experten erstellen beschriftete Beispiele, die dem Format(Aufforderung, Antwort) folgen, um zu demonstrieren, wie man auf Aufforderungen für verschiedene Anwendungsfälle, wie z. B. die Beantwortung von Fragen, Zusammenfassungen oder Übersetzungen, reagiert.
Die Generierung dieser Demonstrationsdaten ist zwar leistungsstark, aber zeitaufwändig und teuer. Anstatt maßgeschneiderte neue Beispiele zu erstellen, hat DeepMind den Ansatz eingeführt, „eine Filterheuristik anzuwenden, die auf einem gemeinsamen schriftlichen Dialogformat basiert („Interviewtranskript“-Stil)“, um geeignete Frage/Antwort-Beispielpaare aus dem MassiveWeb-Datensatz zu isolierenl9
Damit menschliches Feedback eine Belohnungsfunktion beim Verstärkungslernen antreiben kann, ist ein Belohnungsmodell erforderlich, das die menschliche Präferenz in ein numerisches Belohnungssignal übersetzt. Das Entwerfen eines effektiven Prämienmodells ist ein entscheidender Schritt in RLHF, da keine einfache mathematische oder logische Formel vorhanden ist, um subjektive menschliche Werte zu definieren.
Der Hauptzweck dieser Phase besteht darin, das Belohnungsmodell mit ausreichenden Trainingsdaten zu versorgen, die aus direktem Feedback von menschlichen Bewertern bestehen, damit das Modell lernen kann, die Art und Weise nachzuahmen, wie menschliche Präferenzen Belohnungen für verschiedene Arten von Modellantworten zuweisen. Dadurch kann das Training offline fortgesetzt werden, ohne dass ein Mensch eingreift.
Ein Belohnungsmodell muss eine Textsequenz aufnehmen und einen skalaren Belohnungswert ausgeben, der numerisch vorhersagt, wie viel ein menschlicher Benutzer diesen Text belohnen (oder bestrafen) würde. Diese Ausgabe, die ein Skalarwert ist, ist für das Zusammenführen der Ausgabe des Belohnungsmodells mit anderen Komponenten des RL-Algorithmus unerlässlich.
Auch wenn es intuitiv erscheinen mag, die menschlichen Bewerter einfach ihre Meinung zu jeder Modellantwort in skalarer Form ausdrücken zu lassen – wie etwa die Bewertung der Antwort auf einer Skala von eins (schlechteste) bis zehn (beste) –, so ist es doch äußerst schwierig, alle menschlichen Bewerter dazu zu bringen, sich auf den relativen Wert einer bestimmten Punktzahl zu einigen, ganz zu schweigen davon, die menschlichen Bewerter dazu zu bringen, sich darauf zu einigen, was eine „gute“ oder „schlechte“ Antwort in einem Vakuum ist. Dies kann dazu führen, dass die direkte Skalarbewertung verrauscht und schwierig zu kalibrieren ist.
Stattdessen wird ein Bewertungssystem normalerweise durch den Vergleich menschlicher Rückmeldung für verschiedene Modellergebnisse aufgebaut. Eine gängige Methode besteht darin, die Benutzer zwei analoge Textsequenzen miteinander vergleichen zu lassen, z. B. die Ausgabe von zwei verschiedenen Sprachmodellen, die auf dieselbe Eingabeaufforderung reagieren, und dann ein Elo-Rating-System zu verwenden, um eine Gesamtwertung der einzelnen Textabschnitte im Vergleich zueinander zu erstellen. Ein einfaches System könnte es Nutzern ermöglichen, für jede Ausgabe einen „Daumen hoch“ oder „Daumen runter“ zu vergeben, wobei die Ausgaben dann nach ihrer relativen Beliebtheit geordnet werden. Komplexere Systeme könnten von den Kennzeichnern verlangen, eine Gesamtbewertung abzugeben und kategorische Fragen zu den Mängeln jeder Antwort zu beantworten, und dieses Feedback dann algorithmisch zu einer gewichteten Qualitätsbewertung zusammenzufassen.
Die Ergebnisse der verschiedenen Bewertungssysteme werden schließlich in ein skalares Belohnungssignal umgewandelt, um das Belohnungsmodell zu trainieren.
Die letzte Hürde von RLHF besteht darin, zu bestimmen, wie – und in welcher Höhe – das Belohnungsmodell verwendet werden soll, um die Richtlinien des KI-Agenten zu aktualisieren. Einer der erfolgreichsten Algorithmen für die Belohnungsfunktion, die RL-Modelle aktualisiert, ist die Proximal Policy Optimization (PPO).
Im Gegensatz zu den meisten Modellarchitekturen für maschinelles Lernen und neuronale Netze, die mit dem Gradientenabstieg ihre Verlustfunktion minimieren, um den kleinstmöglichen Fehler zu erzielen, verwenden Algorithmen des bestärkenden Lernens häufig den Gradientenaufstieg, um die Belohnung zu maximieren.
Wird die Belohnungsfunktion jedoch ohne Leitplanken zum Trainieren des LLM verwendet, kann das Sprachmodell seine Gewichte so stark verändern, dass es Kauderwelsch ausgibt, um das Belohnungsmodell zu „überlisten“. PPO bietet ein stabileres Mittel zur Aktualisierung der Richtlinie des KI-Agenten, indem es begrenzt, wie stark die Richtlinie in jeder Trainingsiteration aktualisiert werden kann.
Zuerst wird eine Kopie des ursprünglichen Modells erstellt und seine trainierbaren Gewichte werden eingefroren. Der PPO-Algorithmus berechnet einen Bereich von [1-ε, 1+ε], wobei ε ein Hyperparameter ist, der grob bestimmt, wie weit die neue (aktualisierte) Richtlinie von der alten (eingefrorenen) Richtlinie abweichen darf. Anschließend wird ein Wahrscheinlichkeitsverhältnis berechnet: das Verhältnis zwischen der Wahrscheinlichkeit, dass eine bestimmte Aktion von der alten Richtlinie ausgeführt wird, und der Wahrscheinlichkeit, dass diese Aktion von der neuen Richtlinie ausgeführt wird. Wenn das Wahrscheinlichkeitsverhältnis größer als 1+ε (oder unter1-ε) ist, kann die Größe der Richtlinienaktualisierung abgeschnitten werden, um starke Änderungen zu verhindern, die das gesamte Modell destabilisieren könnten.
Die Einführung von PPO bot eine attraktive Alternative zu seinem Vorgänger, der Trust Region Policy Optimization (TRPO), die ähnliche Vorteile bietet, aber komplizierter und rechenintensiver ist als PPO. Während andere Frameworks zur Richtlinienoptimierung wie Advantage Actor-Critic (A2C) ebenfalls praktikabel sind, wird PPO oft als einfache und kostengünstige Methode favorisiert.
Obwohl RLHF-Modelle beeindruckende Ergebnisse beim Training von KI-Agenten für komplexe Aufgaben von Robotik über Videospiele bis hin zu NLP gezeigt haben, ist die Verwendung von RLHF nicht ohne Einschränkungen.
Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.
IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.
Greifen Sie auf unseren vollständigen Katalog mit über 100 Online-Kursen zu, indem Sie noch heute ein Abonnement für Einzel- oder Mehrbenutzer erwerben, mit dem Sie Ihre Fähigkeiten in einer Reihe unserer Produkte zu einem günstigen Preis erweitern können.
Das Programm, das von führenden IBM Experten geleitet wird, soll Führungskräften dabei helfen, das nötige Wissen zu erwerben, um die Prioritäten für KI-Investitionen zu setzen, die zu mehr Wachstum führen.
Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.
Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.
Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.
1 „Deep reinforcement Learning from human preferences“, arXiv, letzte Überarbeitung am 17. Februar 2023
2 „OpenAI Five defeats Dota 2 world champions“,OpenAI, 15. April 2019.
3 „AlphaStar: Mastering the real-time strategy game StarCraft II“, Google DeepMind, 24. Januar 2019
4 „lm-human-preferences“, OpenAI (auf GitHub), 2019
5 „Aligning language models to follow instructions“, OpenAI, 27. Januar 2022
6 „An overview of Bard: an early experiment with generative AI“, Google AI, letzte Aktualisierung am 19. Oktober 2023
7 „Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback“, arXiv, 12. April 2022
8 „Research: GPT-4,“ OpenAI, 14. März 2023
9 „Scaling Language Models: Methods, Analysis & Insights from Training Gopher“, arXiv, Stand: 21. Januar 2022
10 „Constitutional AI: Harmlessness from AI Feedback“, Anthropic, 15. Dezember 2022
11 „RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback“, arXiv, 1. September 2023
12 „Why We Should Have Seen That Coming: Comments on Microsoft's Tay 'Experiment' and Wider Implications“, The ORBIT Journal, 2017