Was ist Reinforcement Learning from Human Feedback (RLHF)?

10. November 2023

Autoren

Dave Bergmann

Senior Writer, AI Models, IBM

Was ist RLHF?

Bestärkendes Lernen durch menschliches Feedback (Reinforcement Learning from Human Feedback, RLHF) ist eine Technik des maschinellen Lernens, bei der ein „Belohnungsmodell“ durch direktes menschliches Feedback trainiert und dann zur Optimierung der Leistung eines Agenten der künstlichen Intelligenz durch bestärkendes Lernen verwendet wird.

RLHF, auch bestärkendes Lernen aus menschlichen Vorlieben genannt, eignet sich hervorragend für Aufgaben mit komplexen, unklar definierten oder schwer zu spezifizierenden Zielen. Beispielsweise wäre es für eine algorithmische Lösung unpraktisch (oder sogar unmöglich), den Begriff „lustig“ mathematisch zu definieren, aber für Menschen wäre es einfach, Witze zu bewerten, die von einem großen Sprachmodell (LLM) generiert wurden. Dieses menschliche Feedback, destilliert in eine Belohnungsfunktion, könnte dann dazu verwendet werden, die Fähigkeiten des LLM beim Schreiben von Witzen zu verbessern.

In einer Veröffentlichung aus dem Jahr 2017 beschrieb Paul F. Christiano von OpenAI zusammen mit anderen Forschern von OpenAI und DeepMind den Erfolg von RLHF beim Training von KI-Modellen für komplizierte Aufgaben wie Atari-Spiele und simulierte Roboterfortbewegung.1 Nach diesem Durchbruch waren Videospiele weiterhin ein wichtiges Testfeld für RLHF: 2019 hatten mit RLHF trainierte KI-Systeme wie OpenAI Five und AlphaStar von DeepMind die besten menschlichen Profispieler in den weitaus komplexeren Spielen Dota22 undStarCraft3 besiegt.

Am wichtigsten ist vielleicht, dass OpenAI in seinem Artikel von 2017 feststellte, dass seine Methodik – insbesondere die Einführung des Proximal Policy Optimization (PPO)-Algorithmus für die Aktualisierung der Modellgewichte – die Kosten für die Erfassung und Destillation des erforderlichen menschlichen Feedbacks erheblich reduzierte. Dies ebnete den Weg für die spätere Integration von RLHF in den Bereich der Verarbeitung natürlicher Sprache (NLP), und die daraus resultierenden Fortschritte trugen dazu bei, sowohl LLMs als auch RLHF an die Spitze der KI-Forschung zu führen.

Die erste Veröffentlichung von Code, der die Verwendung von RLHF auf Sprachmodellen beschreibt, kam 2019 von OpenAI4, das dann Anfang 2022 das RLHF-trainierte InstructGPT veröffentlichte.5 Dies war ein entscheidender Schritt, um die Lücke zwischen den Modellen GPT-3 und GPT-3.5-turbo, die die Einführung von ChatGPT vorantrieben, zu schließen.

RLHF wird seitdem für das Trainieren modernster LLMs von OpenAI, DeepMind, Google6 und Anthropic verwendet.7

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Wie bestärkendes Lernen funktioniert

Das Konzept des bestärkenden Lernens (Reinforcement Learning, RL) zielt darauf ab, die Art und Weise des menschlichen Lernens nachzuahmen: KI-Agenten lernen – motiviert durch starke Anreize zum Erfolg – ganzheitlich durch Versuch und Irrtum.

Um diese Strategie in die Praxis umzusetzen, umfasst ein mathematischer Rahmen für Reinforcement Learning die folgenden Komponenten:

Zustandsraum

Der Zustandsraum umfasst alle verfügbaren Informationen über die jeweilige Aufgabe, die für Entscheidungen relevant sind, die der KI-Agent treffen könnte, einschließlich bekannter und unbekannter Variablen. Der Zustandsraum ändert sich normalerweise mit jeder Entscheidung, die der Agent trifft.

Aktionsraum

Der Aktionsraum enthält alle Entscheidungen, die der KI-Agent treffen könnte. Bei einem Brettspiel beispielsweise ist der Aktionsraum getrennt und klar definiert: Er besteht aus allen legalen Zügen, die dem KI-Spieler zu einem bestimmten Zeitpunkt zur Verfügung stehen. Im Kontext der Texterzeugung ist der Aktionsraum riesig und umfasst das gesamte „Vokabular“ der Token, die einem LLM zur Verfügung stehen.

Belohnungsfunktion

Belohnung ist das Maß für Erfolg oder Fortschritt, das dem KI-Agenten einen Anreiz gibt. In einigen Fällen, wie bei Brettspielen, ist die Definition von Erfolg – in diesem Fall der Gewinn des Spiels – objektiv und einfach. Aber wenn die Definition von „Erfolg“ nebulös ist, kann die Entwicklung einer effektiven Belohnungsfunktion eine große Herausforderung sein. In einem mathematischen Rahmen muss dieses Feedback in ein Belohnungssignal übersetzt werden: eine skalare Quantifizierung des positiven (oder negativen) Feedbacks.

Einschränkungen

Eine Belohnungsfunktion könnte durch Strafen – negative Belohnungen – für Handlungen ergänzt werden, die als kontraproduktiv für die anstehende Aufgabe angesehen werden. So könnte ein Unternehmen beispielsweise einem Chatbot die Verwendung von Schimpfwörtern oder anderen vulgären Ausdrücken untersagen; ein selbstfahrendes Automodell könnte für Kollisionen oder das Verlassen einer Fahrspur bestraft werden.

Richtlinie

Eine Richtlinie ist im Wesentlichen die Strategie oder der „Gedankenprozess“, der das Verhalten eines KI-Agenten steuert. Einfach ausgedrückt ist eine Richtlinie („π“) eine Funktion, die einen Zustand („s“) als Eingabe annimmt und eine Aktion („a“) zurückgibt: π(s)→a.

Das Ziel eines RL-Algorithmus ist es, eine Strategie so zu optimieren, dass eine maximale Belohnung erzielt wird. Beim Deep Reinforcement Learning wird die Strategie als neuronales Netz dargestellt, das während des Trainingsprozesses entsprechend der Belohnungsfunktion kontinuierlich aktualisiert wird. Der KI-Agent lernt aus Erfahrung, ähnlich wie Menschen.

Während die konventionelle RL in vielen Bereichen beeindruckende Ergebnisse in der Praxis erzielt hat, kann es schwierig sein, eine Belohnungsfunktion für komplexe Aufgaben zu konstruieren, bei denen eine eindeutige Definition des Erfolgs schwer zu finden ist. Der Hauptvorteil von RLHF ist seine Fähigkeit, Nuancen und Subjektivität einzufangen, indem es positives menschliches Feedback anstelle von formell definierten Zielen verwendet.

RLHF für Großsprachenmodelle

Eine der wichtigsten Anwendungen von RLHF ist die Verbesserung der Relevanz, Genauigkeit und Ethik von LLM – insbesondere für die Verwendung als Chatbots.

LLMs versuchen wie alle generativen KI-Modelle, die Wahrscheinlichkeitsverteilung von Trainingsdaten zu replizieren. Obwohl die jüngsten Fortschritte die Verwendung von LLMs als Motoren für Chatbots oder sogar als logische Motoren für allgemeine KI gefördert haben, verwenden diese Sprachmodelle einfach Muster, die aus ihren Trainingsdaten gelernt wurden, um das nächste Wort bzw. die nächsten Wörter in einer bestimmten Sequenz vorherzusagen, die durch eine Eingabeaufforderung eingeleitet wird. Grundsätzlich antworten diese Modelle nicht wirklich auf eine Eingabeaufforderung: Sie hängen lediglich Text daran an.

Ohne sehr spezifische Anweisungen sind Sprachmodelle kaum in der Lage, die Absicht des Benutzers zu verstehen. Obwohl Prompt-Engineering dazu beitragen kann, den Kontext zu liefern, den ein LLM benötigt, um seine Antwort auf die Bedürfnisse eines Benutzers abzustimmen, ist es unpraktisch, Prompt-Engineering für jeden einzelnen Austausch mit einem Chatbot zu verlangen.

Während LLMs mit konventionellen Methoden trainiert wurden, um grammatikalisch kohärente Ausgaben zu produzieren, ist es ein Problem, LLMs zu trainieren, um „gute“ Ausgaben zu produzieren. Begriffe wie Wahrheit, Hilfsbereitschaft, Kreativität oder auch die Frage, was ein Codeschnipsel ausführbar macht, sind weitaus kontextabhängiger als Wortbedeutungen und sprachliche Strukturen.

Um Sprachmodelle für die menschliche Interaktion zu verbessern, wandten sich Data Scientists dem Reinforcement Learning mit menschlichem Feedback zu. Die RLHF-erweiterten InstructGPT-Modelle übertrafen ihre GPT-3-Vorgänger deutlich, insbesondere in Bezug auf die Befolgung von Anweisungen, die Aufrechterhaltung der sachlichen Genauigkeit und die Vermeidung von Modellhalluzinationen.5 Ebenso hat laut einer Studie, die OpenAI zum Start von GPT-4 veröffentlichte, RLHF die Genauigkeit bei gegensätzlichen Fragen verdoppelt.8

Die Vorteile von RLHF können sogar den Wert größerer Trainingsdatensätze übertreffen und eine dateneffizientere Modellentwicklung ermöglichen: OpenAI stellte fest, dass seine Etikettierer die Ergebnisse der 1,3B-Parameter-Version von InstructGPT sogar den Ergebnissen der 175B-Parameter-Version von GPT-3.5vorzogen.

Mixture of Experts | Podcast

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Wie funktioniert RLHF?

Das Training eines LLM mit RLHF findet in der Regel in vier Phasen statt:

Modelle vortrainieren

RLHF wird im Allgemeinen zur Feinabstimmung und Optimierung eines vorab trainierten Modells und nicht als durchgängige Trainingsmethode eingesetzt. Beispielsweise verwendete InstructGPT RLHF, um das bereits vorhandene GPT-Modell (Generative Pre-Trained Transformer) zu verbessern. In der Ankündigung der Veröffentlichung von InstructGPT erklärte OpenAI, dass „eine Art, über diesen Prozess nachzudenken, darin besteht, dass er Fähigkeiten „freischaltet“, die GPT-3 bereits besaß, die aber durch Prompt Engineering allein nur schwer zu erlangen waren.“5

Das Vortraining bleibt mit Abstand die ressourcenintensivste Phase von RLHF. OpenAI stellte fest, dass der RLHF-Trainingsprozess für InstructGPT weniger als 2 Prozent der für das Vortrainieren von GPT-3 erforderlichen Berechnungen und Daten umfasste.

Überwachte Feinabstimmung

Vor dem Beginn des expliziten bestärkenden Lernens wird die überwachte Feinabstimmung (supervised fine-tuning, SFT) verwendet, um das Modell darauf vorzubereiten, seine Antworten in dem vom Benutzer erwarteten Format zu erzeugen.

Wie bereits angedeutet, optimiert der LLM-Pre-Trainingsprozess die Modelle für die Vervollständigung: Die Vorhersage der nächsten Wörter in einer Sequenz, die mit der Eingabeaufforderung des Benutzers beginnt, wird durch die Wiederholung der linguistischen Muster, die während des Modell-Pre-Trainings gelernt wurden, ermöglicht. Manchmal vervollständigen LLMs eine Sequenz nicht so, wie es der Benutzer wünscht: Wenn die Aufforderung des Benutzers zum Beispiel lautet: „Zeige mir, wie man einen Lebenslauf erstellt“, könnte der LLM mit „mit Microsoft Word“ antworten. Dies ist eine gültige Möglichkeit, den Satz zu vervollständigen, aber nicht auf das Ziel des Benutzers abgestimmt.

SFT nutzt daher überwachtes Lernen, um Modelle zu trainieren, angemessen auf verschiedene Arten von Eingabeaufforderungen zu reagieren. Menschliche Experten erstellen beschriftete Beispiele, die dem Format(Aufforderung, Antwort) folgen, um zu demonstrieren, wie man auf Aufforderungen für verschiedene Anwendungsfälle, wie z. B. die Beantwortung von Fragen, Zusammenfassungen oder Übersetzungen, reagiert.

Die Generierung dieser Demonstrationsdaten ist zwar leistungsstark, aber zeitaufwändig und teuer. Anstatt maßgeschneiderte neue Beispiele zu erstellen, hat DeepMind den Ansatz eingeführt, „eine Filterheuristik anzuwenden, die auf einem gemeinsamen schriftlichen Dialogformat basiert („Interviewtranskript“-Stil)“, um geeignete Frage/Antwort-Beispielpaare aus dem MassiveWeb-Datensatz zu isolierenl9

Belohnungsmodell-Training

Damit menschliches Feedback eine Belohnungsfunktion beim Verstärkungslernen antreiben kann, ist ein Belohnungsmodell erforderlich, das die menschliche Präferenz in ein numerisches Belohnungssignal übersetzt. Das Entwerfen eines effektiven Prämienmodells ist ein entscheidender Schritt in RLHF, da keine einfache mathematische oder logische Formel vorhanden ist, um subjektive menschliche Werte zu definieren.

Der Hauptzweck dieser Phase besteht darin, das Belohnungsmodell mit ausreichenden Trainingsdaten zu versorgen, die aus direktem Feedback von menschlichen Bewertern bestehen, damit das Modell lernen kann, die Art und Weise nachzuahmen, wie menschliche Präferenzen Belohnungen für verschiedene Arten von Modellantworten zuweisen. Dadurch kann das Training offline fortgesetzt werden, ohne dass ein Mensch eingreift.

Ein Belohnungsmodell muss eine Textsequenz aufnehmen und einen skalaren Belohnungswert ausgeben, der numerisch vorhersagt, wie viel ein menschlicher Benutzer diesen Text belohnen (oder bestrafen) würde. Diese Ausgabe, die ein Skalarwert ist, ist für das Zusammenführen der Ausgabe des Belohnungsmodells mit anderen Komponenten des RL-Algorithmus unerlässlich.

Auch wenn es intuitiv erscheinen mag, die menschlichen Bewerter einfach ihre Meinung zu jeder Modellantwort in skalarer Form ausdrücken zu lassen – wie etwa die Bewertung der Antwort auf einer Skala von eins (schlechteste) bis zehn (beste) –, so ist es doch äußerst schwierig, alle menschlichen Bewerter dazu zu bringen, sich auf den relativen Wert einer bestimmten Punktzahl zu einigen, ganz zu schweigen davon, die menschlichen Bewerter dazu zu bringen, sich darauf zu einigen, was eine „gute“ oder „schlechte“ Antwort in einem Vakuum ist. Dies kann dazu führen, dass die direkte Skalarbewertung verrauscht und schwierig zu kalibrieren ist.

Stattdessen wird ein Bewertungssystem normalerweise durch den Vergleich menschlicher Rückmeldung für verschiedene Modellergebnisse aufgebaut. Eine gängige Methode besteht darin, die Benutzer zwei analoge Textsequenzen miteinander vergleichen zu lassen, z. B. die Ausgabe von zwei verschiedenen Sprachmodellen, die auf dieselbe Eingabeaufforderung reagieren, und dann ein Elo-Rating-System zu verwenden, um eine Gesamtwertung der einzelnen Textabschnitte im Vergleich zueinander zu erstellen. Ein einfaches System könnte es Nutzern ermöglichen, für jede Ausgabe einen „Daumen hoch“ oder „Daumen runter“ zu vergeben, wobei die Ausgaben dann nach ihrer relativen Beliebtheit geordnet werden. Komplexere Systeme könnten von den Kennzeichnern verlangen, eine Gesamtbewertung abzugeben und kategorische Fragen zu den Mängeln jeder Antwort zu beantworten, und dieses Feedback dann algorithmisch zu einer gewichteten Qualitätsbewertung zusammenzufassen.

Die Ergebnisse der verschiedenen Bewertungssysteme werden schließlich in ein skalares Belohnungssignal umgewandelt, um das Belohnungsmodell zu trainieren.

Optimierung der Richtlinien

Die letzte Hürde von RLHF besteht darin, zu bestimmen, wie – und in welcher Höhe – das Belohnungsmodell verwendet werden soll, um die Richtlinien des KI-Agenten zu aktualisieren. Einer der erfolgreichsten Algorithmen für die Belohnungsfunktion, die RL-Modelle aktualisiert, ist die Proximal Policy Optimization (PPO).

Im Gegensatz zu den meisten Modellarchitekturen für maschinelles Lernen und neuronale Netze, die mit dem Gradientenabstieg ihre Verlustfunktion minimieren, um den kleinstmöglichen Fehler zu erzielen, verwenden Algorithmen des bestärkenden Lernens häufig den Gradientenaufstieg, um die Belohnung zu maximieren.

Wird die Belohnungsfunktion jedoch ohne Leitplanken zum Trainieren des LLM verwendet, kann das Sprachmodell seine Gewichte so stark verändern, dass es Kauderwelsch ausgibt, um das Belohnungsmodell zu „überlisten“. PPO bietet ein stabileres Mittel zur Aktualisierung der Richtlinie des KI-Agenten, indem es begrenzt, wie stark die Richtlinie in jeder Trainingsiteration aktualisiert werden kann.

Zuerst wird eine Kopie des ursprünglichen Modells erstellt und seine trainierbaren Gewichte werden eingefroren. Der PPO-Algorithmus berechnet einen Bereich von [1-ε, 1+ε], wobei ε ein Hyperparameter ist, der grob bestimmt, wie weit die neue (aktualisierte) Richtlinie von der alten (eingefrorenen) Richtlinie abweichen darf. Anschließend wird ein Wahrscheinlichkeitsverhältnis berechnet: das Verhältnis zwischen der Wahrscheinlichkeit, dass eine bestimmte Aktion von der alten Richtlinie ausgeführt wird, und der Wahrscheinlichkeit, dass diese Aktion von der neuen Richtlinie ausgeführt wird. Wenn das Wahrscheinlichkeitsverhältnis größer als 1+ε (oder unter1-ε) ist, kann die Größe der Richtlinienaktualisierung abgeschnitten werden, um starke Änderungen zu verhindern, die das gesamte Modell destabilisieren könnten.

Die Einführung von PPO bot eine attraktive Alternative zu seinem Vorgänger, der Trust Region Policy Optimization (TRPO), die ähnliche Vorteile bietet, aber komplizierter und rechenintensiver ist als PPO. Während andere Frameworks zur Richtlinienoptimierung wie Advantage Actor-Critic (A2C) ebenfalls praktikabel sind, wird PPO oft als einfache und kostengünstige Methode favorisiert.

Einschränkungen von RLHF

Obwohl RLHF-Modelle beeindruckende Ergebnisse beim Training von KI-Agenten für komplexe Aufgaben von Robotik über Videospiele bis hin zu NLP gezeigt haben, ist die Verwendung von RLHF nicht ohne Einschränkungen.

  • Menschliche Präferenzdaten sind teuer. Die Notwendigkeit, menschlichen Input aus erster Hand zu sammeln, kann einen kostspieligen Engpass darstellen, der die Skalierbarkeit des RLHF-Prozesses einschränkt. Sowohl Anthropic10 als auch Google 11 haben Methoden des bestärkenden Lernens aus KI-Feedback (RLAIF) vorgeschlagen, bei denen ein Teil oder das gesamte menschliche Feedback durch die Bewertung der Modellantworten durch ein anderes LLM ersetzt wird, was zu Ergebnissen geführt hat, die mit denen von RLHF vergleichbar sind.
  • Menschlicher Input ist sehr subjektiv. Es ist schwierig, wenn nicht gar unmöglich, einen festen Konsens darüber zu erzielen, was eine „qualitativ hochwertige“ Ausgabe ausmacht, da menschliche Kommentatoren oft nicht nur in Bezug auf angebliche Fakten, sondern auch in Bezug auf ein „angemessenes“ Modellverhalten unterschiedlicher Meinung sind. Menschliche Meinungsverschiedenheiten verhindern somit die Schaffung einer echten „Grundwahrheit“, anhand derer die Leistung des Modells beurteilt werden kann.
  • Menschliche Gutachter können fehlbar oder sogar absichtlich feindselig und böswillig sein. Unabhängig davon, ob es sich um echte konträre Ansichten handelt oder um absichtliches Trolling des Lernprozesses, werden die menschlichen Hinweise zum Modell nicht immer in gutem Glauben gegeben. In einem Papier aus dem Jahr 2016 postulierten Wolf et al., dass toxisches Verhalten eine grundlegende Erwartung bei Interaktionen zwischen Mensch und Bot sein sollte, und schlugen vor, eine Methode zu entwickeln, um die Glaubwürdigkeit menschlicher Eingaben zu bewerten.12 Im Jahr 2022 veröffentlichte Meta KI ein Papier über nachteilige menschliche Eingaben, in dem automatisierte Methoden untersucht wurden, „um eine maximale Lerneffizienz aus qualitativ hochwertigen Daten zu erzielen, während sie gleichzeitig maximal robust gegenüber qualitativ schlechten und nachteiligen Daten sind“. Der Artikel identifiziert verschiedene „Troll“-Archetypen und die unterschiedlichen Arten, wie sie Feedbackdaten verzerren.
  • Bei RLHF besteht das Risiko einer Überanpassung und Verzerrung. Wenn menschliches Feedback von einer zu eng gefassten Bevölkerungsgruppe eingeholt wird, kann das Modell Leistungsprobleme aufweisen, wenn es von verschiedenen Gruppen verwendet oder zu Themen aufgefordert wird, für die die menschlichen Bewerter bestimmte Vorurteile haben.
Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein
– mit branchenführendem Fachwissen im Bereich KI und dem umfassenden Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen