I modelli di machine learning grandi e complessi, come quelli utilizzati per i modelli linguistici di grandi dimensioni (LLM) come ChatGPT, richiedono molto tempo e numerose risorse per essere configurati, perché potrebbero avere trilioni di parametri impostati su valori specifici. Una volta completato questo processo, il modello potrebbe essere potente e preciso in generale, ma non necessariamente messo a punto per svolgere attività specifiche.
Per far funzionare un modello in contesti specifici può essere necessario un abbondante lavoro di riqualificazione per modificarne tutti i parametri. Con il numero di parametri in questi modelli, la ripetizione dell'addestramento è costosa e richiede molto tempo. LoRA offre un modo rapido per adattare il modello senza ripeterne l'addestramento.
Ad esempio, una messa a punto completa del modello GPT-3 richiede l'addestramento di 175 miliardi di parametri a causa delle dimensioni del suo set di dati di addestramento. Utilizzando LoRa, i parametri addestrabili per GPT-3 possono essere ridotti a circa 18 milioni, riducendo i requisiti di memoria della GPU di circa due terzi.
LoRA non è l'unico metodo di messa a punto efficiente. Una variante di LoRA è quantizzazione LoRA (QLoRA), una tecnica di messa a punto che combina una tecnica di calcolo ad alta precisione con un metodo di storage a bassa precisione. Questo aiuta a mantenere le dimensioni del modello ridotte pur assicurando che il modello sia ancora altamente performante e preciso.