Cerchiamo di capire l'attività di analisi del sentiment che fornisce una spiegazione chiara dei meccanismi e dei beneficio della messa a punto dei prompt. Supponiamo che l'obiettivo sia quello di adattare un modello di 175 miliardi di parametri per classificare le recensioni dei film come "positive" o "negative". Un approccio di messa a punto completa sarebbe esageratamente costoso e lento. Con la messa a punto dei prompt, la procedura è la seguente:
Inizia con un modello preaddestrato congelato: il backbone dei parametri 175B rimane completamente intatto, preservando il suo vasto archivio di conoscenze generali apprese durante il pre-addestramento.5
Aggiungi i soft :prompt un piccolo set di vettori addestrabili (ad esempio, 20 token virtuali) viene allegato agli embedding di input di ogni recensione di film. Questi vettori non sono testo leggibile dall'uomo. Si tratta di embedding continui che esistono nello stesso spazio di dimensioni elevate del vocabolario del modello (ad esempio, uno spazio di 12.288 dimensioni per un modello di questa scala). Attraverso l'ottimizzazione, questi vettori imparano a codificare un segnale continuo, specifico per il compito, che guida il comportamento del modello.
Fornisci l'input: ad esempio,
[Soft prompt] Il film è stato assolutamente fantastico!
In questo esempio, supponiamo di inizializzare 20 token soft prompt per un'attività di analisi del sentiment. Dopo l'addestramento, l'input potrebbe essere il seguente:
[<v1>, <v2>, <v3>, ... <v20>, The, movie, was, absolutely, fantastic, !]
Qui, ogni v1 è un vettore di prompt appreso e ad alta dimensione. L'obiettivo dell'addestramento è trovare i valori ottimali per i vettori che guidano il modello congelato a classificare correttamente il sentiment del testo successivo.
Addestra solo i soft prompt: utilizzando un set di dati etichettati di recensioni di film, viene avviato il processo di formazione. Tramite la retropropagazione viene calcolato il gradiente di errore, ma la fase di ottimizzazione aggiorna solo i parametri degli embedding del prompt. Questo approccio prevede la messa a punto di poche migliaia di parametri invece dei 175 miliardi di pesi del modello.5
Distribuisci in modo modulare: una volta completato l'addestramento, il set di 20 vettori risultante costituisce l'intero adattamento specifico per l'attività. Per adattare lo stesso modello base a un'attività diversa, come il rilevamento dello spam, basterà addestrare un nuovo set di prompt su un set di dati antispam e scambiarli al momento dell'inferenza
Questa tecnica offre molti vantaggi in termini di efficienza. Invece di archiviare una copia completa e separata del modello per ogni attività (un modello da 175 B di parametri può richiedere fino a 350 GB), basterà memorizzare i parametri del prompt specifici dell'attività, che potrebbero avere una dimensione di appena pochi KB.1 Questa modularità rende la messa a punto dei prompt rapida una soluzione pratica ed economica per l'adattamento dei modelli su larga scala.2