Les méthodes basées sur l’apprentissage par transfert se concentrent sur l’adaptation d’un modèle pré-entraîné pour apprendre de nouvelles tâches ou des classes de données encore inconnues.
Lorsque peu d’échantillons étiquetés sont disponibles, utiliser l’apprentissage supervisé pour entraîner un modèle à partir de zéro conduit souvent à un surajustement. C’est le cas notamment des modèles comportant un grand nombre de paramètres, comme les réseaux neuronaux convolutifs (CNN) généralement utilisés en vision par ordinateur ou les réseaux basés sur des transformeurs pour le traitement automatique du langage naturel (NLP). Le modèle peut donner de bons résultats sur des données de test, mais de mauvais résultats sur des données réelles. Cependant, la collecte d’une quantité de données suffisamment importante pour éviter le surajustement constitue souvent un obstacle à l’entraînement des modèles.
L’apprentissage par transfert offre une solution pratique, car il tire parti de fonctionnalités et de représentations utiles qu’un modèle entraîné a déjà apprises. Une approche simple consiste à affiner un modèle de classification pour effectuer la même tâche pour une nouvelle classe grâce à un apprentissage supervisé sur un petit nombre d’exemples étiquetés. Des approches plus complexes enseignent de nouvelles compétences par conception de tâches en aval pertinentes (souvent de méta-apprentissage) à un modèle qui a été pré-entraîné via des tâches prétextes auto-supervisées : cette méthode est de plus en plus utilisée en NLP, en particulier dans le contexte des modèles de fondation.
Des approches plus complexes d’apprentissage par transfert adaptent un réseau neuronal entraîné via des modifications de l’architecture réseau : par exemple, en remplaçant ou en réentraînant les couches externes d’un réseau neuronal, où se produit la classification finale, tout en conservant les couches internes où se produit l’extraction des caractéristiques. Le gel des poids des modèles (ou la régularisation des modifications apportées) pour toutes les couches sauf les plus externes peut garantir que les modifications ultérieures n’entraîneront pas un « oubli catastrophique » des connaissances déjà acquises. Dans un contexte few-shot, cela permet d’accélérer considérablement l’apprentissage.
L’apprentissage par transfert est plus efficace lorsque l’entraînement initial du modèle est pertinent pour la nouvelle tâche. Par exemple, un modèle entraîné à reconnaître certaines espèces d’oiseaux se généralisera correctement à d’autres espèces d’oiseaux qu’il ne connaît pas après l’avoir réglé à l’aide de quelques échantillons étiquetés, car les poids appris des filtres que le CNN utilise pour les convolutions sont déjà optimisés pour capturer les caractéristiques qui correspondent à la classification des oiseaux (comme le plumage, le bec, la taille des ailes, etc.). En revanche, l’utilisation de l’apprentissage few-shot pour apprendre au même modèle à reconnaître des véhicules donnera des résultats moins satisfaisants.