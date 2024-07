RLHF, auch bestärkendes Lernen aus menschlichen Vorlieben genannt, eignet sich hervorragend für Aufgaben mit komplexen, unklar definierten oder schwer zu spezifizierenden Zielen. Beispielsweise wäre es für eine algorithmische Lösung unpraktisch (oder sogar unmöglich), den Begriff „lustig“ mathematisch zu definieren, aber für Menschen wäre es einfach, Witze zu bewerten, die von einem großen Sprachmodell (LLM) generiert wurden. Dieses menschliche Feedback, destilliert in eine Belohnungsfunktion, könnte dann dazu verwendet werden, die Fähigkeiten des LLM beim Schreiben von Witzen zu verbessern.

In einer Veröffentlichung aus dem Jahr 2017 beschrieb Paul F. Christiano von OpenAI zusammen mit anderen Forschern von OpenAI und DeepMind den Erfolg von RLHF beim Training von KI-Modellen für komplizierte Aufgaben wie Atari-Spiele und simulierte Roboterfortbewegung.1 Nach diesem Durchbruch waren Videospiele weiterhin ein wichtiges Testfeld für RLHF: 2019 hatten mit RLHF trainierte KI-Systeme wie OpenAI Five und AlphaStar von DeepMind die besten menschlichen Profispieler in den weitaus komplexeren Spielen Dota22 undStarCraft3 besiegt.

Am wichtigsten ist vielleicht, dass OpenAI in seinem Artikel von 2017 feststellte, dass seine Methodik – insbesondere die Einführung des Proximal Policy Optimization (PPO)-Algorithmus für die Aktualisierung der Modellgewichte – die Kosten für die Erfassung und Destillation des erforderlichen menschlichen Feedbacks erheblich reduzierte. Dies ebnete den Weg für die spätere Integration von RLHF in den Bereich der Verarbeitung natürlicher Sprache (NLP), und die daraus resultierenden Fortschritte trugen dazu bei, sowohl LLMs als auch RLHF an die Spitze der KI-Forschung zu führen.

Die erste Veröffentlichung von Code, der die Verwendung von RLHF auf Sprachmodellen beschreibt, kam 2019 von OpenAI4, das dann Anfang 2022 das RLHF-trainierte InstructGPT veröffentlichte.5 Dies war ein entscheidender Schritt, um die Lücke zwischen den Modellen GPT-3 und GPT-3.5-turbo, die die Einführung von ChatGPT vorantrieben, zu schließen.

RLHF wird seitdem für das Trainieren modernster LLMs von OpenAI, DeepMind, Google6 und Anthropic verwendet.7