Der Nutzen der Anweisungsoptimierung liegt, wie bei den meisten Feinabstimmungstechniken, darin, dass vorab trainierte LLMs nicht für Gespräche oder das Folgen von Anweisungen optimiert sind. Im wörtlichen Sinne antworten LLMs nicht auf einen Prompt: Sie fügen nur Text hinzu. Anweisungsoptimierung hilft, den angehängten Text nützlicher zu machen.
Der Vortrainings-Prozess für autoregressive Sprachmodelle (LLMs, die zur Texterstellung verwendet werden, wie Meta's Llama 2, OpenAI's GPT, Google's Gemini oder IBM's Granite) optimiert diese LLMs, um einfach das/die nächste(n) Wort(e) in einer gegebenen Sequenz vorherzusagen, bis diese vollständig ist.
LLMs werden durch selbstüberwachtes Lernen anhand eines riesigen Korpus geschriebener Daten vortrainiert. Beim Vortraining erhalten die Modelle den Anfang eines Beispieltextes aus den Trainingsdaten und werden wiederholt mit der Vorhersage des nächsten Wortes in der Sequenz bis zum Ende des Auszugs beauftragt. Für jede Vorhersage dient das tatsächliche nächste Wort des ursprünglichen Beispielsatzes als „Ground Truth”. Durch Optimierungsalgorithmen wie den Gradientenabstieg, bei dem Modellparameter (die unterschiedlichen Gewichte und Verzerrungen, die auf die mathematischen Operationen an jedem Knoten in einem neuronalen Netz angewendet werden) iterativ so angepasst werden, dass die Vorhersagen des Modells näher an den Originaltext herankommen, „lernt“ das Modell die linguistischen Muster in seinen Trainingsdaten (und damit auch das in diesen linguistischen Mustern vermittelte „Wissen“).
Obwohl dieses Vortraining eine beeindruckende Fähigkeit vermittelt, sprachlich kohärente Texte zu erstellen, stimmt die Modellleistung nicht unbedingt mit den praktischen Bedürfnissen menschlicher Benutzer überein. Ohne Feinabstimmung könnte ein Basismodell auf die Aufforderung „Bring Sie mir bei, wie man Brot backt“ mit „in einem Ofen“ antworten.Die Antwort ist grammatikalisch korrekt, aber nicht das, was der Benutzer wollte.
Dennoch ist ein Vortraining eines LLM für einen bestimmten Zweck (wie das Befolgen von Anweisungen) unpraktisch. Das „groß“ in „große Sprachmodelle“ bezieht sich auf die Tatsache, dass diese Modelle oft Milliarden von Parametern haben: Das Training dieser riesigen Modelle von Grund auf erfordert eine enorme Menge an Energie, Zeit, Rechenressourcen und Trainingsdaten. Umgekehrt erfordert die Feinabstimmung eines bereits trainierten LLM weitaus weniger Daten und, insbesondere bei Verwendung von Methoden zur parametereffizienten Feinabstimmung (PEFT) wie der partiellen Feinabstimmung oder der Low-Rank-Adaption (LoRA), nur einen Bruchteil des Rechenaufwands.
Obwohl die Feinabstimmung durch fast jedes Paradigma des maschinellen Lernens erreicht werden kann, einschließlich des verstärkenden Lernens, des halbüberwachtes Lernens oder des zusätzlichen selbstüberwachten Lernens, erfordert die Anweisungsoptimierung ein überwachtes Lernen an gekennzeichneten (Eingabe, Output) Paaren. Was die Anweisungsoptimierung von anderen Formen der überwachten Feinabstimmung (SFT) unterscheidet, ist, dass die Eingabe-Beispiele in einem Anweisungsdatensatz ausschließlich aus Aufgaben bestehen, die Anfragen ähneln, die Benutzer in ihren Prompts stellen könnten. Die Outputs zeigen die gewünschten Antworten auf diese Anfragen. Durch die Anpassung der Modellgewichte, um die Outputs des LLM den Beispielen im Anweisungsdatensatz anzugleichen, „lernt“ das LLM, auf eine Aufforderung wie „bring mir bei, wie man Brot backt“ zu reagieren, indem es Text anhängt, der konkrete Ratschläge zum Brotbacken enthält.
Die Anweisungsoptimierung hilft somit, die Lücke zwischen dem grundlegenden Ziel des Modells – der Vorhersage des nächsten Wortes – und dem Ziel des Benutzers, dass das Modell Anweisungen befolgt und bestimmte Aufgaben ausführt, zu schließen. Dadurch wird das Modellverhalten nützlicher und vorhersehbarer.