Los métodos basados en el aprendizaje de transferencia se centran en la adaptación de un modelo previamente entrenado para aprender nuevas tareas o clases de datos nunca antes vistas.
Cuando hay pocas muestras etiquetadas disponibles, se utiliza el aprendizaje supervisado para entrenar un modelo desde cero, especialmente uno con un gran número de parámetros, como las redes neuronales convolucionales (CNN) que normalmente se utilizan en visión artificial o las redes basadas en transformadores utilizadas en el procesamiento del lenguaje natural (PLN), que a menudo conducen a un sobreajuste: el modelo puede funcionar bien en los datos de prueba, pero mal en los datos del mundo real. Sin embargo, la recopilación de una cantidad suficientemente grande de datos para evitar el sobreajuste suele ser un cuello de botella en el entrenamiento de modelos.
El aprendizaje por transferencia ofrece una solución práctica: aprovechar las características y representaciones útiles que un modelo entrenado ya ha aprendido. Un enfoque simple es afinar un modelo de clasificación para realizar la misma tarea para una nueva clase mediante el aprendizaje supervisado en un pequeño número de ejemplos etiquetados. Los enfoques más complejos enseñan nuevas habilidades mediante el diseño de tareas posteriores relevantes, a menudo tareas de metaaprendizaje, a un modelo que ha sido preentrenado mediante tareas de pretexto autosupervisadas: esto es cada vez más común en PNL, sobre todo en el contexto de los modelos fundacionales.
Los enfoques de aprendizaje por transferencia más complejos adaptan una red neuronal entrenada a través de cambios en la arquitectura de la red: por ejemplo, reemplazando o volviendo a entrenar las capas externas de una red neuronal, donde se produce la clasificación final, mientras se mantienen las capas internas donde se produce la extracción de características. Congelar (o regularizar de otro modo) las ponderaciones del modelo de todas las capas excepto las más externas puede garantizar que las actualizaciones posteriores no provoquen un "olvido catastrófico" de los conocimientos ya aprendidos. Esto permite un aprendizaje muy acelerado en un contexto few-shot.
El aprendizaje por transferencia tiene más éxito cuando el entrenamiento inicial del modelo es relevante para la nueva tarea. Por ejemplo, un modelo entrenado para determinadas especies de aves se generalizará bien a especies de aves no vistas tras un ajuste fino con sólo unas pocas muestras etiquetadas, porque los pesos aprendidos de los filtros que la CNN utiliza para las convoluciones ya están optimizados para captar características relevantes para la clasificación de aves (como el plumaje, los picos, el tamaño de las alas, etc.), pero si se utiliza el aprendizaje de pocas muestras para enseñar al mismo modelo a reconocer vehículos, el rendimiento será menos satisfactorio.