Während man dem Modell durch die Abstimmung von Anweisungen konkrete, einfache Verhaltensweisen beibringen kann, wie z. B. die Strukturierung seiner Antworten, kann es sehr mühsam und schwierig sein, abstrakte menschliche Eigenschaften wie Hilfsbereitschaft, sachliche Richtigkeit, Humor oder Empathie durch gekennzeichnete Beispiele zu vermitteln.
Um den Output des Modells besser an das ideale menschliche Verhalten anzupassen, insbesondere bei dialogorientierten Anwendungsfällen wie Chatbots, kann SFT durch Reinforcement Learning ergänzt werden – genauer gesagt durch Reinforcement Learning mit menschlichem Feedback (Reinforcement Learning from Human Feedback, RLHF). RLHF, auch Reinforcement Learning anhand menschlicher Präferenzen genannt, hilft bei der Feinabstimmung von Modellen für Eigenschaften, die komplex, schlecht definiert oder durch diskrete Beispiele schwer zu spezifizieren sind.
Nehmen wir das Beispiel Comedy: Um einem Modell mit SFT beizubringen, „witzig“ zu sein, muss man nicht nur die Kosten und den Arbeitsaufwand aufbringen, um ausreichend Witze zu schreiben (oder zu erwerben) und damit ein erlernbares Muster zu erstellen, sondern auch dafür sorgen, dass das, was ein bestimmter Data Scientist für witzig hält, mit dem übereinstimmt, was die Nutzerbasis witzig finden würde. RLHF bietet im Wesentlichen eine mathematische Crowdsourcing-Alternative: Fordern Sie das LLM auf, Witze zu generieren und lassen Sie menschliche Tester deren Qualität bewerten. Diese Bewertungen können verwendet werden, um ein Belohnungsmodell zu trainieren, das vorhersagt, welche Art von Witzen positives Feedback erhalten werden. Dieses Belohnungsmodell kann wiederum verwendet werden, um das LLM durch Reinforcement Learning zu trainieren.
In der Praxis zielt RLHF darauf ab, existenzielle Herausforderungen von LLMs wie Halluzinationen, gesellschaftliche Bias in den Trainingsdaten oder den Umgang mit unhöflichen oder feindseligen Benutzereingaben anzugehen.