I metodi basati sul transfer learning si concentrano sull'adattamento di un modello pre-addestrato per apprendere nuove attività o classi di dati precedentemente non visualizzate.
Quando sono disponibili pochi campioni etichettati, utilizzando l'apprendimento supervisionato per addestrare un modello da zero, specialmente uno con un numero elevato di parametri, come le reti neurali convoluzionali (CNN) utilizzate tipicamente nella computer vision o le reti basate su trasformatore utilizzate nell'elaborazione del linguaggio naturale (NLP), spesso si traduce in un overfitting: il modello potrebbe funzionare bene sui dati di test, ma meno bene sui dati reali. Tuttavia, la raccolta di una quantità di dati sufficientemente ampia per evitare l'overfitting è spesso un collo di bottiglia nell'addestramento dei modelli.
Il transfer learning offre una soluzione pratica, ovvero utilizzare le funzioni e le rappresentazioni utili che un modello addestrato ha già appreso. Un approccio semplice consiste nella messa a punto di un modello di classificazione per eseguire la stessa attività per una nuova classe attraverso l'apprendimento supervisionato su un numero ridotto di esempi etichettati. Gli approcci più complessi insegnano nuove skill attraverso la progettazione di attività a valle pertinenti, spesso attività di meta learning, per un modello pre-addestrato attraverso attività pretesto auto-supervisionate : questo è sempre più comune nell'NLP, in particolare nel contesto dei foundation model.
Gli approcci di transfer learning più complessi adattano una rete neurale addestrata attraverso i cambiamenti all'architettura di rete: ad esempio, sostituendo o riaddestrando i livelli esterni di una rete neurale, dove ha luogo la classificazione finale, mantenendo al contempo i livelli interni dove si verifica l'estrazione delle funzioni. Bloccando (o regolarizzando in altro modo le modifiche) i pesi del modello per tutti i livelli ad eccezione di quelli più esterni, è possibile garantire che gli aggiornamenti successivi non si traducano in una "dimenticanza catastrofica" di una conoscenza già appresa. Ciò consente un apprendimento notevolmente accelerato in un contesto few-shot.
Il transfer learning ha più successo quando l'addestramento iniziale del modello è pertinente per la nuova attività. Ad esempio, un modello addestrato su determinate specie di uccelli verrà generalizzato correttamente su una specie di uccelli mai vista dopo una messa a punto con pochi campioni etichettati, in quanto i pesi appresi dei filtri utilizzati dal CNN per le convoluzioni sono già ottimizzati per acquisire le funzioni pertinenti per la classificazione degli uccelli (come il piumaggio, i becchi, le dimensioni delle ali e così via).