I set di dati utilizzati per la messa a punto trasmettono le conoscenze, lo stile, le attività o i casi d'uso specifici del dominio per i quali il modello pre-addestrato viene messo a punto. Ad esempio:
Un LLM pre-addestrato per il linguaggio generale potrebbe essere messo a punto per la codifica con un nuovo set di dati contenente richieste di programmazione pertinenti e frammenti di codice corrispondenti per ciascuna codifica.
Un modello di classificazione delle immagini utilizzato per identificare determinate specie di uccelli può apprendere nuove specie attraverso ulteriori campioni di addestramento etichettati.
Un LLM può apprendere a emulare uno stile di scrittura specifico attraverso l'apprendimento autovalutato su testi campione che rappresentano tale stile.
Apprendimento semi-supervisionato, un sottoinsieme di apprendimento automatico che incorpora sia i dati etichettati sia quelli non etichettati, è vantaggioso quando lo scenario richiede un apprendimento supervisionato, ma gli esempi con etichette adeguate sono scarsi. La messa a punto semi-supervisionata ha prodotto risultati promettenti sia per le attività di computer vision1 sia per le attività di NLP2 e aiuta a ridurre l'onere di acquisire una quantità sufficiente di dati etichettati.
La messa a punto può essere utilizzata per aggiornare i pesi dell'intera rete, ma per motivi pratici non è sempre così. Esiste un'ampia gamma di metodi alternativi di messa a punto, spesso indicati con il termine ombrello di parameter-efficient fine-tuning (PEFT), che aggiornano solo un sottoinsieme selezionato di parametri del modello. I metodi PEFT, che vengono esplorati in seguito in questa sezione, possono ridurre le esigenze computazionali e ridurre la dimenticanza catastrofica, il fenomeno in cui la messa a punto provoca la perdita o la destabilizzazione della conoscenza di base del modello, spesso senza uno scadimento significativo nelle prestazioni.
Data l'ampia varietà di tecniche di messa a punto e le numerose variabili inerenti a ciascuna, il raggiungimento di prestazioni ideali del modello richiede spesso più iterazioni di strategie e configurazioni di addestramento, regolando set di dati e iperparametri come la dimensione del batch, la velocità di apprendimento e i termini di regolarizzazione fino a raggiungere un risultato soddisfacente, indipendentemente dalla metrica più rilevante per il tuo caso d'uso.