Os métodos baseados em transferência de aprendizado se concentram na adaptação de um modelo pré-treinado para aprender novas tarefas ou classes de dados inéditas.
Quando poucas amostras rotuladas estão disponíveis, usar o aprendizado supervisionado para treinar um modelo a partir do zero, especialmente um com um grande número de parâmetros, como as redes neurais convolucionais (CNNs) normalmente usadas em visão computacional ou as redes baseadas em transformadores usadas no processamento de linguagem natural (NLP), muitas vezes leva ao overfitting: o modelo pode ter um bom desempenho em dados de teste, mas ruim em dados do mundo real. Porém, reunir uma quantidade de dados suficientemente grande para evitar o overfitting costuma ser um gargalo no treinamento do modelo.
O aprendizado por transferência oferece uma solução prática: aproveitar recursos e representações úteis que um modelo treinado já aprendeu. Uma abordagem simples é ajustar um modelo de classificação para executar a mesma tarefa para uma nova classe por meio de aprendizado supervisionado em um pequeno número de exemplos rotulados. Abordagens mais complexas ensinam novas habilidades por meio do design de tarefas relevantes a jusante, geralmente tarefasde meta-aprendizado, para um modelo que foi pré-treinado por meio de tarefas de pretexto autossupervisionadas: isso é cada vez mais comum em PLN, particularmente no contexto de modelos de base.
Abordagens mais complexas de aprendizado por transferência adaptam uma rede neural treinada por meio de alterações na arquitetura da rede: por exemplo, substituindo ou retreinando as camadas externas de uma rede neural, onde ocorre a classificação final, enquanto mantêm as camadas internas onde ocorre a extração de recursos. Congelar (ou regularizar alterações de outro modo) nos pesos do modelo para todas as camadas, exceto as mais externas, pode garantir que as atualizações subsequentes não resultem no “esquecimento catastrófico" do conhecimento já aprendido. Isso permite um aprendizado muito acelerado em um contexto de few-shot.
O aprendizado de transferência é mais bem-sucedido quando o treinamento inicial do modelo é relevante para a nova tarefa. Por exemplo, um modelo treinado em certas espécies de pássaros generalizará bem para espécies de pássaros invisíveis após ajuste fino com apenas algumas amostras rotuladas, porque os pesos aprendidos dos filtros que a CNN usa para convoluções já estão otimizados para capturar recursos relevantes para classificação de aves (como plumagem, bicos, tamanho da asa etc.), mas usar o few-shot learning para ensinar o mesmo modelo a reconhecer veículos produzirá um desempenho menos satisfatório.