Training des Richtlinienmodells mit überwachter Feinabstimmung (SFT, supervised fine-tuning)
Der Prozess des Trainings des Richtlinienmodells beginnt mit einer überwachten Feinabstimmung (Supervised Fine-Tuning, SFT) anhand eines vortrainierten Modells wie T5, GPT-2 oder einem anderen geeigneten LLM. Der Schlüsselgedanke besteht darin, ein kleineres Richtlinienmodell auf der Grundlage von Trainingsdaten abzustimmen, das direktionale Stimuli erzeugt, anstatt das LLM direkt zu verändern.
Dieser Prozess ist effizient, weil die Feinabstimmung eines kleineren, aufgabenspezifischen Richtlinienmodells die Herausforderungen und Rechenkosten vermeidet, die mit dem direkten Training großer, komplexer Modelle verbunden sind.
Um dieses Richtlinienmodell zu schulen, wird ein kleiner gekennzeichneter Datensatz erstellt, in dem jede Eingabe mit einem Pseudoreiz gepaart wird. Diese Pseudosreize sollen die Antworten des LLM je nach Aufgabe in die gewünschte Richtung lenken.
In einer Zusammenfassungsaufgabe könnte der Pseudoreiz beispielsweise aus Schlüsselwörtern oder Phrasen bestehen, die aus einer Referenzzusammenfassung stammen. In ähnlicher Weise können Dialoghandlungen wie Bitten, Fragen oder Aussagen als Pseudoreize für Aufgaben zur Dialoggenerierung verwendet werden.
Diese Stimuli dienen als Signale, die das Richtlinienmodell verwendet, um aufgabenspezifische Eingaben zu generieren, die die Ausgaben des LLM effektiv auf das Zielverhalten ausrichten.
Der für SFT verwendete beschriftete Datensatz ist möglicherweise relativ klein, da der Schwerpunkt darauf liegt, das Policy-Language-Modell mit dem notwendigen Wissen zur Generierung von Reizen auszustatten und nicht darauf, ein umfangreiches LLM von Grund auf neu zu trainieren. Dies macht SFT zu einer ressourceneffizienten Möglichkeit, das Richtlinienmodell mit grundlegendem Wissen über die aufgabenspezifischen Anforderungen zu versorgen.4