Reinforcement Learning mit Human Feedback (RLHF) verwendet ein partnerschaftliches Belohnungsmodell, um ein vorab trainiertes Modell mit Feinabstimmung für komplexe, subjektive Aufgaben zu optimieren. Ein ML-Modell kann nicht beurteilen, ob eine Schrift evokativ ist, ganz im Gegensatz zum Menschen. Genau diese Menschen können einem Modell beibringen, ihre Vorlieben nachzuahmen.
Mit RLHF trainieren Menschen ein Belohnungsmodell für die neue Aufgabe. Die Aufgabe des Belohnungsmodells besteht darin, erfolgreich vorherzusagen, wie ein Mensch auf eine bestimmte Eingabe reagieren würde. Während das standardmäßige Modelltraining Fehler bestraft, regt das Belohnungstraining zu guter Leistung an.
Daraufhin bringt das Belohnungsmodell wiederum dem Foundation Model bei, wie es sich entsprechend den Vorlieben der menschlichen Trainer verhalten soll. Sobald das Belohnungsmodell trainiert ist, kann es das Foundation Model ohne menschliches Eingreifen trainieren.
Wie bei allen Arten von maschinellem Lernen denkt das Modell nicht kritisch und in manchen Fällen überhaupt nicht. Vielmehr wählt es mathematisch das Ergebnis, das am ehesten den Vorlieben der menschlichen Trainer entspricht.