Die Einrichtung großer und komplexer maschineller Lernmodelle, wie sie für große Sprachmodelle (LLMs) wie ChatGPT verwendet werden, erfordert viel Zeit und zahlreiche Ressourcen. Sie können Billionen von Parametern haben, die auf bestimmte Werte eingestellt sind. Sobald dieser Prozess abgeschlossen ist, mag das Modell im Allgemeinen leistungsfähig und genau sein, aber es ist nicht unbedingt fein abgestimmt, um bestimmte Aufgaben auszuführen.
Um ein Modell in bestimmten Kontexten zum Laufen zu bringen, kann dies ein erhebliches erneutes Training erfordern, bei dem alle Parameter geändert werden. Aufgrund der Anzahl von Parametern in solchen Modellen ist dieses erneute Training teuer und zeitaufwändig. LoRA bietet eine schnelle Möglichkeit, das Modell anzupassen, ohne es erneut zu trainieren.
Zum Beispiel erfordert eine vollständige Feinabstimmung des GPT-3-Modells aufgrund der Größe des Trainingsdatensatzes das Training von 175 Milliarden Parametern. Mit LoRa können die trainierbaren Parameter für GPT-3 auf etwa 18 Millionen Parameter reduziert werden, was den GPU-Speicherbedarf um etwa zwei Drittel reduziert.
LoRA ist nicht die einzige effiziente Feinabstimmungsmethode. Eine Variante von LoRa ist Quantisierung LoRa (QLora), eine Feinabstimmungstechnik, die eine hochpräzise Rechentechnik mit einer Speichermethode mit niedriger Präzision kombiniert. Dies trägt dazu bei, die Modellgröße klein zu halten und gleichzeitig sicherzustellen, dass das Modell weiterhin hochleistungsfähig und genau ist.