Il processo di addestramento è la fase più critica nel ciclo di vita dei modelli AI, dai sistemi di forecasting basati su algoritmi di regressione lineare di base alle complesse reti neurali che alimentano l'AI generativa.
L'addestramento del modello è la fase del machine learning (ML) in cui avviene l'apprendimento. Nel machine learning, l'apprendimento implica la regolazione dei parametri di un modello ML. Questi parametri includono pesi e bias nelle funzioni matematiche che costituiscono i loro algoritmi. L'obiettivo di questa regolazione è quello di produrre output più accurati. I valori specifici di questi pesi e bias, che sono il risultato finale dell'addestramento dei modelli, sono la manifestazione tangibile della "conoscenza" di un modello.
Dal punto di vista matematico, l'obiettivo di questo apprendimento è quello di ridurre al minimo una funzione di perdita che quantifica l'errore degli output nelle attività di addestramento. Quando l'output della funzione di perdita scende al di sotto di una soglia predeterminata, ovvero l'errore del modello nelle attività di addestramento è sufficientemente piccolo, il modello viene considerato "addestrato". Nell'apprendimento per rinforzo, l'obiettivo è invertito: invece di ridurre al minimo una funzione di perdita, i parametri del modello sono ottimizzati per aumentare al massimo una funzione di ricompensa.
Nella pratica, l'addestramento dei modelli comporta un ciclo in cui i dati vengono raccolti e resi accurati, l'esecuzione del modello su tali dati di addestramento, la misurazione delle perdite, l'ottimizzazione dei parametri e il test delle prestazioni del modello su set di dati di convalida. Questo workflow procede in modo iterativo fino al raggiungimento di risultati soddisfacenti. Un'addestramento adeguato potrebbe anche richiedere l'aggiustamento degli iperparametri, ovvero scelte strutturali che influenzano il processo di apprendimento ma non sono di per sé "apprendibili", in un processo chiamato ottimizzazione degli iperparametri.
A volte, un modello già addestrato può essere messo a punto per attività o domini più specifici attraverso un ulteriore apprendimento su nuovi dati di addestramento. Sebbene sia l'addestramento originale da zero, sia la successiva messa a punto siano un "addestramento", in questo contesto il primo è solitamente chiamato "pre-addestramento" (per motivi di disambiguazione). Il fine-tuning, o messa a punto, è uno dei diversi tipi di apprendimento per trasferimento, un termine generico per le tecniche di machine learning che adattano i modelli preaddestrati a nuovi usi.