La messa a punto efficiente dei parametri (PEFT) è un metodo per migliorare le prestazioni di modelli linguistici di grandi dimensioni (LLM) e reti neurali pre-addestrati per attività o set di dati specifici. Addestrando un piccolo set di parametri e preservando la maggior parte della struttura del modello pre-addestrato di grandi dimensioni, la PEFT consente di risparmiare tempo e risorse computazionali.
Le reti neurali addestrate per attività generali come l'elaborazione del linguaggio naturale (NLP) o la classificazione delle immagini possono specializzarsi in una nuova attività correlata senza dover essere completamente riqualificate. Il processo PEFT è un modo efficiente in termini di risorse per creare modelli altamente specializzati senza dover ricominciare ogni volta da zero.
La PEFT funziona bloccando la maggior parte dei parametri e dei livelli del modello linguistico pre-addestrato, aggiungendo alcuni parametri sottoponibili ad addestramento, noti come adattatori, ai livelli finali per le attività a valle predeterminate.
I modelli messi a punto conservano tutto l'apprendimento acquisito durante l'addestramento mentre si specializzano nelle rispettive attività a valle. Molti metodi PEFT migliorano ulteriormente l'efficienza con il checkpoint del gradiente, una tecnica di risparmio di memoria che aiuta i modelli ad apprendere senza memorizzare troppe informazioni contemporaneamente.
La messa a punto efficiente dei parametri bilancia efficienza e prestazioni per aiutare le organizzazioni a massimizzare le risorse computazionali riducendo al minimo i costi di archiviazione. Se ottimizzati con i metodi PEFT, i modelli basati su trasformatori come GPT-3, LLama e BERT possono utilizzare tutte le conoscenze contenute nei loro parametri di pre-addestramento e ottenere prestazioni migliori di quanto farebbero senza la messa a punto.
La PEFT viene spesso utilizzata durante il transfer learning, in cui i modelli addestrati in un'attività vengono applicati a una seconda attività correlata. Ad esempio, un modello addestrato nella classificazione delle immagini potrebbe essere utilizzato per il rilevamento degli oggetti. Se un modello di base è troppo grande per essere riaddestrato completamente o se la nuova attività è diversa dall'originale, la PEFT può essere la soluzione ideale.
I metodi tradizionali di messa a punto completa apportano lievi aggiustamenti a tutti i parametri negli LLM preformati per adattarli a compiti specifici. Ma, poiché gli sviluppi nell'intelligenza artificiale (AI) e nel deep learning (DL) hanno portato i modelli a diventare più grandi e complessi, il processo di messa a punto è diventato troppo impegnativo in termini di risorse computazionali ed energia.
Inoltre, ogni modello messo a punto ha le stesse dimensioni dell'originale. Tutti questi modelli occupano grandi quantità di spazio di archiviazione, facendo aumentare ulteriormente i costi per le organizzazioni che li utilizzano. Sebbene la messa a punto crei un machine learning (ML) più efficiente, il processo di messa a punto degli LLM è diventato di per sé inefficiente.
La PEFT regola i pochi parametri più rilevanti per il caso d'uso previsto del modello per fornire prestazioni specializzate e ridurre i pesi del modello, permettendo di risparmiare costi di elaborazione e tempo.
La messa a punto efficiente dei parametri offre una serie di vantaggi che l'hanno resa popolare tra le organizzazioni che utilizzano gli LLM nel loro lavoro:
La maggior parte dei modelli linguistici di grandi dimensioni utilizzati nell'AI generativa (Gen AI) sono alimentati da costose unità di elaborazione grafica (GPU) realizzate da produttori come Nvidia. Ogni LLM utilizza grandi quantità di risorse di elaborazione ed energia. La regolazione solo dei parametri più rilevanti permette di risparmiare notevolmente sui costi energetici e di cloud computing.
Il time to value è la quantità di tempo necessaria per sviluppare, addestrare e distribuire un LLM in modo che possa iniziare a generare valore per l'organizzazione che lo utilizza. Poiché la PEFT modifica solo alcuni parametri addestrabili, l'aggiornamento di un modello per una nuova attività richiede molto meno tempo. La PEFT può offrire prestazioni paragonabili a un processo di messa a punto completo in una frazione del tempo e dei costi.
La dimenticanza catastrofica si verifica quando gli LLM perdono o "dimenticano" le conoscenze acquisite durante il processo di addestramento iniziale, mentre vengono riqualificati o adattati a nuovi casi d'uso. Poiché la PEFT conserva la maggior parte dei parametri iniziali, protegge anche dalle dimenticanze catastrofiche.
L'overfitting si verifica quando un modello si avvicina troppo ai suoi dati di addestramento durante l'addestramento stesso, rendendolo incapace di generare previsioni accurate in altri contesti. I modelli di trasformatori sintonizzati con PEFT sono molto meno inclini all'overfitting, poiché la maggior parte dei loro parametri rimane statica.
Concentrandosi su alcuni parametri, la PEFT riduce i requisiti dei dati di addestramento per il processo di messa a punto. La messa a punto completa richiede un set di dati di addestramento molto più ampio perché tutti i parametri del modello vengono regolati durante il processo di messa a punto.
Senza PEFT, i costi di sviluppo di un LLM specializzato sono troppo alti per molte organizzazioni di piccole o medie dimensioni. La PEFT mette gli LLM a disposizione dei team che altrimenti non avrebbero il tempo o le risorse per addestrare e mettere a punto i modelli.
La PEFT consente ai data scientist e ad altri professionisti di personalizzare gli LLM generali in base ai singoli casi d'uso. I team di AI possono sperimentare l'ottimizzazione dei modelli senza preoccuparsi troppo di bruciare risorse computazionali, energetiche e di storage.
I team di AI hanno a disposizione diverse tecniche e algoritmi di PEFT, ciascuno con i suoi vantaggi e le sue specializzazioni. Molti degli strumenti PEFT più popolari si possono trovare su Hugging Face e in numerose altre community GitHub.
Gli adattatori sono una delle prime tecniche PEFT da applicare ai modelli di elaborazione del linguaggio naturale (NLP). I ricercatori si sono sforzati di superare la sfida di addestrare un modello per più attività a valle riducendo al minimo il peso del modello. La risposta sono stati i moduli adattatori, piccoli componenti aggiuntivi che inseriscono pochi parametri addestrabili e specifici per attività in ogni strato del trasformatore del modello.
Introdotto nel 2021, l'adattamento a basso rango di modelli linguistici di grandi dimensioni (LoRA) utilizza matrici gemelle di scomposizione a basso rango per ridurre al minimo i pesi del modello e il sottoinsieme di parametri addestrabili.
QLoRA è una versione estesa di LoRA che quantizza o standardizza il peso di ogni parametro pre-addestrato a soli 4 bit rispetto al tipico peso di 32 bit. In questo modo, QLoRA offre un notevole risparmio di memoria e consente di eseguire un LLM su una sola GPU.
Creato specificamente per i modelli di generazione di linguaggio naturale (NLG), il prefix-tuning aggiunge un vettore continuo specifico del compito, noto come prefisso, a ogni livello di trasformatore, mantenendo tutti i parametri congelati. Di conseguenza, i modelli sottoposti a prefix-tuning memorizzano un numero di parametri mille volte inferiore rispetto ai modelli completamente sintonizzati con prestazioni comparabili.
Il prompt-Tuning semplifica l'ottimizzazione dei prefissi e addestra i modelli inserendo prompt personalizzati nei dati di input o di addestramento. I prompt hard sono creati manualmente, mentre i prompt soft sono stringhe di numeri generate dall'AI che attingono alle conoscenze del modello di base. È stato riscontrato che i prompt soft superano i prompt hard generati dall'uomo durante l'ottimizzazione.
Il P-tuning è una variante del prompt-tuning progettata per attività di comprensione del linguaggio naturale (NLU). Piuttosto che utilizzare prompt creati manualmente, il P-tuning ha introdotto una formazione e una generazione automatiche di prompt che portano a istruzioni di formazione più efficaci nel tempo.
Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.