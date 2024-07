Die vollständige Feinabstimmung ist, wie auch der ähnliche Prozess des Vortrainings, sehr rechenintensiv. Für moderne Deep-Learning-Modelle mit Hunderten von Millionen oder gar vielen Milliarden Parametern ist dies oft unerschwinglich teuer und unpraktisch.

Parametereffiziente Feinabstimmung (PEFT) umfasst eine Reihe von Methoden, um die Anzahl der trainierbaren Parameter zu reduzieren, die aktualisiert werden müssen, um ein großes vortrainiertes Modell effektiv an spezifische nachgelagerte Anwendungen anzupassen. Auf diese Weise verringert PEFT die Rechenressourcen und den Speicherplatz, die für ein effektiv abgestimmtes Modell erforderlich sind, erheblich. PEFT-Methoden haben sich oft als stabiler erwiesen als vollständige Feinabstimmungsmethoden, insbesondere für NLP-Anwendungsfälle.3



Partielle Feinabstimmung

Partielle Feinabstimmungsmethoden, die auch als selektive Feinabstimmung bezeichnet werden, zielen darauf ab, den Rechenaufwand zu reduzieren, indem nur die ausgewählte Teilmenge der vortrainierten Parameter aktualisiert wird, die für die Modellleistung relevanter nachgelagerter Aufgaben am wichtigsten sind. Die restlichen Parameter werden „eingefroren“, sodass sichergestellt ist, dass sie nicht geändert werden.

Der intuitivste Ansatz zur partiellen Feinabstimmung besteht darin, nur die äußeren Schichten des neuronalen Netzes zu aktualisieren. In den meisten Modellarchitekturen erfassen die inneren Schichten des Modells (die der Eingabeschicht am nächsten liegen) nur breite, allgemeine Merkmale: In einem CNN, das zur Bildklassifizierung verwendet wird, erkennen die ersten Schichten beispielsweise typischerweise Kanten und Texturen; jede nachfolgende Schicht erkennt zunehmend feinere Merkmale, bis die endgültige Klassifizierung in der äußersten Schicht vorhergesagt wird. Im Allgemeinen gilt: Je ähnlicher die neue Aufgabe (für die das Modell feinabgestimmt wird) der ursprünglichen Aufgabe ist, desto nützlicher sind die vortrainierten Gewichtungen der inneren Schichten bereits für diese neue, verwandte Aufgabe – und desto weniger Schichten müssen aktualisiert werden.

Andere partielle Feinabstimmungsmethoden umfassen nur die Aktualisierung der schichtweiten Bias-Terme des Modells (anstatt der knotenspezifischen Gewichtungen)4 und „spärliche“ Feinabstimmungsmethoden, die nur eine ausgewählte Teilmenge der Gesamtgewichtungen im Modell aktualisieren.5



Additive Feinabstimmung

Anstatt die bestehenden Parameter eines vortrainierten Modells fein abzustimmen, fügen additive Methoden dem Modell zusätzliche Parameter oder Schichten hinzu, frieren die bestehenden vortrainierten Gewichtungen ein und trainieren nur diese neuen Komponenten. Dieser Ansatz trägt dazu bei, die Stabilität des Modells aufrechtzuerhalten, indem sichergestellt wird, dass die ursprünglichen vorab trainierten Gewichtungen unverändert bleiben.

Dies kann zwar die Trainingszeit verlängern, reduziert aber den Speicherbedarf erheblich, da viel weniger Gradienten und Optimierungszustände gespeichert werden müssen: Laut Lialin et al. erfordert das Training aller Parameter eines Modells 12 bis 20 Mal mehr GPU-Speicher als die Modellgewichtungen allein.6 Weitere Speichereinsparungen können durch die Quantisierung der eingefrorenen Modellgewichtungen erzielt werden: Hierbei handelt es sich um eine Verringerung der Präzision, die zur Darstellung der Modellparameter verwendet wird, ähnlich wie bei der Verringerung der Bitrate einer Audiodatei.

Ein Unterzweig der additiven Methoden ist das Prompt Tuning. Vom Konzept her ähnelt es dem Prompt Engineering, bei dem es darum geht, „Hard Prompts“ – d. h. Prompts, die von einem Menschen in natürlicher Sprache geschrieben wurden – so anzupassen, dass sie das Modell zum gewünschten Output führen, z. B. durch die Vorgabe eines bestimmten Tons oder durch die Bereitstellung von Beispielen, die das Few-Shot-Learning erleichtern. Beim Prompt Tuning werden von der KI erstellte Soft Prompts eingeführt: d. h. lernfähige Vektoreinbettungen, die mit dem Hard Prompt des Benutzers verknüpft werden. Anstatt das Modell neu zu trainieren, werden beim Prompt Tuning die Modellgewichtungen eingefroren und stattdessen der Soft Prompt selbst trainiert. Dank dem schnellen und effizienten Prompt Tuning können Modelle leichter zwischen bestimmten Aufgaben hin- und herwechseln, wenn auch mit einem Kompromiss in der Interpretationsfähigkeit.



Adapter

Eine andere Untergruppe der additiven Feinabstimmung injiziert Adaptermodule – neue, aufgabenspezifische Schichten, die dem neuronalen Netz hinzugefügt werden – und trainiert diese Adaptermodule anstelle der Feinabstimmung der vortrainierten Modellgewichtungen (die eingefroren werden). Laut der Originalpublikation, in der die Ergebnisse des maskierten BERT-Sprachmodells gemessen wurden, erreichten die Adapter eine Leistung, die der einer vollständigen Feinabstimmung entspricht, obwohl nur 3,6 % der Parameter trainiert wurden.7



Reparametrisierung

Auf Reparametrisierung basierende Methoden wie Low Rank Adaptation (LoRA) nutzen die Transformation hochdimensionaler Matrizen mit niedrigem Rang (z. B. die massive Matrix der vortrainierten Modellgewichtungen in einem Transformer-Modell). Diese Low-Rank-Darstellungen lassen unwichtige höherdimensionale Informationen weg, um die zugrunde liegende niedrigdimensionale Struktur der Modellgewichtungen zu erfassen, wodurch die Anzahl der trainierbaren Parameter erheblich reduziert wird. Dadurch wird die Feinabstimmung enorm beschleunigt und der für die Speicherung von Modellaktualisierungen benötigte Speicherplatz reduziert.

LoRA verzichtet auf eine direkte Optimierung der Matrix der Modellgewichtungen und optimiert stattdessen eine Matrix von Aktualisierungen der Modellgewichtungen (oder Deltagewichtungen), die in das Modell eingefügt wird. Diese Matrix der Gewichtungsaktualisierungen wird wiederum als zwei kleinere Matrizen (d. h. mit niedrigerem Rang) dargestellt, wodurch die Anzahl der zu aktualisierenden Parameter stark reduziert wird. Dies wiederum beschleunigt die Feinabstimmung erheblich und reduziert den zum Speichern der Modellaktualisierungen erforderlichen Speicherplatz. Die vortrainierten Modellgewichtungen selbst bleiben eingefroren.

Ein zusätzlicher Vorteil von LoRA besteht darin, dass nicht neue Modellgewichtungen optimiert und gespeichert werden, sondern die Differenz (oder das Delta) zwischen den ursprünglichen, vorab trainierten Gewichtungen und den fein abgestimmten Gewichtungen. So können verschiedene aufgabenspezifische LoRAs je nach Bedarf „ausgetauscht“ werden, um das vorab trainierte Modell – dessen tatsächliche Parameter unverändert bleiben – an einen bestimmten Anwendungsfall anzupassen.

Es wurden eine Vielzahl von LoRA-Ableitungen entwickelt, wie z. B. QLoRA, welches die Rechenkomplexität weiter reduziert, indem das Transformer-Modell vor dem LoRA quantisiert wird.