Publicado: 12 de fevereiro de 2024
Com a contribuição de: Jacob Murel Ph.D., Eda Kavlakoglu
O aprendizado por transferência usa modelos pré-treinados de uma tarefa ou conjunto de dados de aprendizado de máquina para melhorar o desempenho e a generalizabilidade em uma tarefa ou conjunto de dados relacionados.
O aprendizado por transferência é uma técnica de aprendizado de máquina na qual o conhecimento adquirido por meio de uma tarefa ou conjunto de dados é usado para melhorar o desempenho do modelo em outra tarefa relacionada e/ou conjunto de dados diferente.1 Em outras palavras, o aprendizado por transferência usa o que foi aprendido em um contexto para melhorar a generalização em outro contexto.2 O aprendizado por transferência tem muitas aplicações, desde a solução de problemas de regressão em ciência de dados até o treinamento de modelos de deep learning . Na verdade, é particularmente atraente no último caso, dada a grande quantidade de dados necessários para criar redes neurais profundas.
Os processos tradicionais de aprendizado criam um novo modelo para cada nova tarefa, com base nos dados rotulados disponíveis. Isso ocorre porque os algoritmos tradicionais de aprendizado de máquina pressupõem que os dados de treinamento e teste são provenientes do mesmo espaço de recursos e, portanto, se a distribuição de dados mudar ou se o modelo treinado for aplicado a um novo conjunto de dados, os usuários deverão treinar novamente os modelos mais novos do zero, mesmo que tentem realizar uma tarefa semelhante à do primeiro modelo (por exemplo classificadores de análise de sentimento de avaliações de filmes versus avaliações de músicas). Os algoritmos de aprendizado por transferência, no entanto, usam modelos ou redes já treinados como ponto de partida. Em seguida, aplicam o conhecimento desse modelo adquirido em uma tarefa ou dados de origem iniciais (por exemplo, a classificação de avaliações de filmes) em tarefas ou dados de destino novos, porém relacionados (por exemplo, a classificação de avaliações de músicas).3
Explore o IBM watsonx e aprenda a criar modelos de aprendizado de máquina usando conjuntos de dados estatísticos.
Assine a newsletter da IBM
- Custos computacionais. O aprendizado por transferência reduz os custos computacionais necessários para criar modelos para novos problemas. Ao reaproveitar modelos ou redes pré-treinados para lidar com uma tarefa diferente, os usuários podem reduzir a quantidade de tempo de treinamento do modelo, os dados de treinamento, as unidades de processador e outros recursos computacionais. Por exemplo, um número menor de épocas, ou seja, passagens através de um conjunto de dados — pode ser necessário para atingir a taxa de aprendizado desejada. Dessa forma, o aprendizado por transferência pode acelerar e simplificar os processos de treinamento de modelos.
- Tamanho do conjunto de dados. O aprendizado por transferência ajuda em particular a diminuir as dificuldades envolvidas na aquisição de grandes conjuntos de dados. Os grandes modelos de linguagem (LLMs), por exemplo, exigem grandes quantidades de dados de treinamento para obter o desempenho ideal. Os conjuntos de dados de qualidade publicamente disponíveis podem ser limitados, e produzir dados com rotulagem manual suficientes pode ser demorado e caro.
- Generalizabilidade. Além do aprendizado por transferência ajudar na otimização do modelo, ele pode aumentar ainda mais a generalizabilidade do modelo. Como a aprendizado por transferência envolve o retreinamento do modelo existente com um novo conjunto de dados, o modelo retreinado consistirá no conhecimento obtido a partir de vários conjuntos de dados. Ele poderá apresentar melhor desempenho em uma variedade maior de dados do que o modelo básico inicial treinado em apenas um tipo de conjunto de dados. Assim, o aprendizado por transferência é capaz de inibir o overfitting.4
É claro que a transferência de conhecimento de um domínio para outro não é capaz de compensar o impacto negativo de dados de baixa qualidade. Técnicas de pré-processamento e engenharia de recursos, como por exemplo aumento de dados e extração de características, ainda são necessários ao usar o aprendizado por transferência.
Não se trata tanto de desvantagens inerentes ao aprendizado por transferência, mas sim de possíveis consequências negativas resultantes de sua aplicação incorreta. O aprendizado por transferência funciona melhor quando três condições são atendidas:
Quando essas condições não são atendidas, o aprendizado por transferência pode afetar negativamente o desempenho do modelo. A literatura se refere a isso como transferência negativa. As pesquisas em andamento propõem uma variedade de testes para determinar se os conjuntos de dados e tarefas atendem às condições acima, para que não resultem na transferência negativa.5 Transferência à distância é um método desenvolvido para corrigir a transferência negativa resultante de uma dissimilaridade excessivamente grande na distribuição dos conjuntos de dados de origem e de destino.6
Observe que não há uma métrica padrão generalizada para determinar a similaridade entre as tarefas no aprendizado por transferência. No entanto, alguns estudos propõem diferentes métodos de avaliação para prever semelhanças entre conjuntos de dados e tarefas de aprendizado de máquina e, por consequência, a viabilidade do aprendizado por transferência.7
Existem três práticas adjacentes ou subconfigurações de aprendizado por transferência. A distinção entre elas, bem como o aprendizado por transferência de forma mais ampla, resultam em grande parte de mudanças na relação entre o domínio de origem, o domínio de destino e as tarefas a serem concluídas.8
- Transferência indutiva. É quando as tarefas de origem e de destino são diferentes, independentemente de qualquer diferença ou semelhança entre os domínios de destino e de origem (ou seja, os conjuntos de dados). Isso pode se manifestar em modelos de visão computacional quando arquiteturas pré-treinadas para extração de características de grandes conjuntos de dados são adotadas para treinamento adicional em uma tarefa específica, como detecção de objetos. O aprendizado multitarefa, que consiste em aprender simultaneamente duas tarefas diferentes (como classificação de imagens e detecção de objetos) no mesmo conjunto de dados, pode ser considerado uma forma de transferência indutiva.9
- Aprendizado não supervisionado. Isso é semelhante à transferência indutiva, pois as tarefas de destino e de origem são diferentes. No entanto, na transferência indutiva, os dados de origem e/ou destino são frequentemente rotulados. De acordo com seu nome, a aprendizado por transferência não supervisionado não passa por supervisão, o que significa que não há dados rotulados manualmente.10 Em comparação, a transferência indutiva pode ser considerada uma forma de aprendizado supervisionado. Uma aplicação comum do aprendizado não supervisionado é a detecção de fraudes. Ao identificar padrões comuns em um conjunto de dados de transações não rotuladas, o modelo pode aprender ainda mais a identificar comportamentos desviantes, como possíveis fraudes.
- Transferência transdutiva. Isso ocorre quando as tarefas de origem e destino são as mesmas, mas os conjuntos de dados (ou domínios) são diferentes. Mais especificamente, os dados de origem são normalmente rotulados, mas os dados de destino não. A adaptação de domínio é uma forma de aprendizado transdutivo, pois aplica o conhecimento adquirido na execução de uma tarefa em uma distribuição de dados na mesma tarefa de uma distribuição diferente.11 Um exemplo de aprendizado por transferência transdutiva é a aplicação de um modelo de classificação de texto treinado e testado em avaliações de restaurantes para classificar avaliações de filmes.
O aprendizado por transferência é diferente do ajuste fino. Ambos, reconhecidamente, reutilizam modelos de aprendizado de máquina preexistentes em vez de treinar novos modelos. Mas as semelhanças em grande parte param por aí. O ajuste fino refere-se ao processo de treinamento adicional do modelo de um conjunto de dados específico de uma tarefa para melhorar o desempenho da tarefa inicial específica para a qual o modelo foi construído. Por exemplo, pode-se criar um modelo de detecção de objetos de uso geral usando enormes conjuntos de imagens, como COCO ou ImageNet, e treinar ainda mais o modelo resultante em um conjunto de dados menor e rotulado, específico para detecção de carros. Dessa forma, o usuário ajusta o modelo de detecção de objetos para a detecção de carros. Por outro lado, o aprendizado por transferência refere-se a quando os usuários adaptam o modelo a um novo problema relacionado, em vez de ao mesmo problema.
Há muitas aplicações de aprendizado por transferência em contextos reais de aprendizado de máquina e inteligência artificial . Desenvolvedores e cientistas de dados podem usar o aprendizado por transferência para auxiliar em uma infinidade de tarefas e combiná-lo com outras abordagens de aprendizado, como o aprendizado por reforço.
Um problema importante que afeta o aprendizado por transferência no processamento de linguagem natural (PNL) é a incompatibilidade de características. Características de diferentes domínios podem ter significados diferentes e, portanto, conotações distintas (por exemplo leve, que pode ser aplicado com o sentido de peso ou como uma conjugação do verbo levar). Essa disparidade nas representações de recursos afeta tarefas de classificação de sentimentos, modelos de linguagem e muito mais. Os modelos baseados em deep learning — em particular, as incorporações de palavras — são promissores na correção desse problema, pois podem capturar adequadamente as relações e orientações semânticas nas tarefas de adaptação de domínio.12
Devido à dificuldade de adquirir dados com rotulagem manual suficientes para diversas tarefas de visão computacional, um grande número de pesquisas vêm se concentrando em aplicações de aprendizado por transferência com redes neurais convolucionais (CNNs). Um exemplo notável é o ResNet, uma arquitetura de modelo pré-treinada que demonstra melhor desempenho em tarefas de classificação de imagens e detecção de objetos.13 Pesquisas recentes investigam o renomado conjunto de dados ImageNet para aprendizado por transferência, argumentando que (a despeito da sabedoria popular sobre a visão computacional) apenas pequenos subconjuntos desse conjunto de dados são necessários para treinar de forma confiável modelos generalizáveis.14 Muitos tutoriais de aprendizado por transferência para visão computacional usam o ResNet ou o ImageNet — ou ambos — com a biblioteca keras do TensorFlow.
Os pesquisadores da IBM vêm discutindo como o CodeFlare reduz o tempo de treinamento de tarefas de TL em modelos de base.
Os pesquisadores da IBM apresentam o algoritmo de TL equivariante que calcula a média dos pesos das características para proporcionar uma maior simplicidade e generalidade.
Pesquisadores da IBM propõem o método TL para melhorar as previsões de modelos de reação a carboidratos no nível molecular.
1 Emilio Soria Olivas, Jose David Martin Guerrero, Marcelino Martinez Sober, Jose Rafael Magdalena Benedito, Antonio Jose Serrano Lopez, Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods, and Techniques, Information Science Reference, 2009.
2 Ian Goodfellow, Yoshua Bengio e Aaron Courville, Deep Learning, MIT Press, 2016.
3 Jiawei Han, Micheline Kamber, Jian Pei, Data Mining: Concepts and Techniques, 3ª edição, Elsevier, 2012.
4 Jindong Wang and Yiqiang Chen, Introduction to Transfer Learning: Applications and Methods, Springer, 2023.
5 Wen Zhang, Lingfei Deng, Lei Zhang, Dongrui Wu, "A Survey on Negative Transfer," IEEE/CAA Journal of Automatica Sinica, vol. 10, nº 2, 2023, pp. 305-329, https://arxiv.org/abs/2009.00909 (link externo ao site ibm.com).
6 Ben Tan, Yangqiu Song, Erheng Zhong, Qiang Yang, "Transitive Transfer Learning," Proceedings of the 21st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2015, pp. 1155-1164, https://dl.acm. org/doi/10.1145/2783258.2783295 (link externo ao site ibm.com). Ben Tan, Yu Zhang, Sinno Jialin Pan, Qiang Yang, "Domain Distant Transfer," Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, 2017, pp. 2604-2610, https://dl.acm.org/doi/10.5555/3298483.3298614 (link externo ao site ibm.com).
7 Changjian Shui, Mahdieh Abbasi, Louis-Émile Robitaille1, Boyu Wang, Christian Gagné, "A Principled Approach for Learning Task Similarity in Multitask Learning," Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence, 2019, pp. 3446-3452, https://www.ijcai.org/proceedings/2019/0478.pdf (link externo ao site ibm.com). Kshitij Dwivedi e Gemma Roig, "Representation Similarity Analysis
for Efficient Task taxonomy & Transfer Learning," Proceedings of Conference on Computer Vision and Pattern Recognition, 2019, pp. 12387-12396, https://openaccess.thecvf.com/content_CVPR_2019/papers/Dwivedi_Representation_Similarity_Analysis_for_Efficient_Task_Taxonomy__Transfer_Learning_CVPR_2019_paper.pdf (links externos ao site ibm. com). Javier García, Álvaro Visús e Fernando Fernández, "A taxonomy for similarity metrics between Markov decision processes," Machine Learning, vol. 111, 2022, pp. 4217–4247, https://link.springer.com/article/10.1007/s10994-022-06242-4 (link externo ao site ibm.com).
8 Asmaul Hosna, Ethel Merry, Jigmey Gyalmo, Zulfikar Alom, Zeyar Aung e Mohammad Abdul Azim, “Transfer learning: a friendly introduction" Journal of Big Data, vol. 9, 2022, https://journalofbigdata.springeropen.com/articles/10.1186/s40537-022-00652-w (link externo ao site ibm.com). Sinno Jialin Pan e Qiang Yang, "A Survey on Transfer Learning", IEEE Transactions on Knowledge and Data Engineering, vol. 22, n.º 10, 2010, pp. 1345-1359, https://ieeexplore.ieee.org/document/5288526 (link externo ao site ibm.com).
9 Sinno Jialin Pan and Qiang Yang, "A Survey on Transfer Learning", IEEE Transactions on Knowledge and Data Engineering, vol. 22, n.º 10, 2010, pp. 1345-1359, https://ieeexplore.ieee.org/document/5288526 (link externo ao site ibm.com). Ricardo Vilalta, "Inductive Transfer," Encyclopedia of Machine Learning and Data Mining, Springer, 2017.
10 Sinno Jialin Pan e Qiang Yang, "A Survey on Transfer Learning", IEEE Transactions on Knowledge and Data Engineering, vol. 22, n.º 10, 2010, pp. 1345-1359, https://ieeexplore.ieee.org/document/5288526 (link externo ao site ibm.com).
11 Sinno Jialin Pan e Qiang Yang, "A Survey on Transfer Learning", IEEE Transactions on Knowledge and Data Engineering, vol. 22, n.º 10, 2010, pp. 1345-1359, https://ieeexplore.ieee.org/document/5288526 (link externo ao site ibm.com).
Ian Goodfellow, Yoshua Bengio e Aaron Courville, Deep Learning, MIT Press, 2016.
12 Qiang Yang, Transfer Learning, Cambridge University Press, 2020. Eyal Ben-David, Carmel Rabinovitz e Roi Reichart, "PERL: Pivot-based Domain Adaptation for Pre-trained Deep Contextualized Embedding Models", Transactions of the Association for Computational Linguistics, vol. 8, 2020, pp. 504–521, https://aclanthology.org/2020.tacl-1.33.pdf (link externo ao site ibm.com).
13 Kaiming He, Xiangyu Zhang, Shaoqing Ren e Jian Sun, "Deep Residual Learning for Image Recognition", IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770-778, https://ieeexplore.ieee.org/document/7780459 (link externo ao site ibm.com).
14 Minyoung Huh, Pulkit Agrawal e Alexei Efros, "What makes ImageNet good for transfer learning?" Berkeley Artificial Intelligence Research Laboratory (BAIR), 2017, https://people.csail.mit.edu/minhuh/papers/analysis/ (link externo ao site ibm.com).