O que é aprendizado por transferência?

12 de fevereiro de 2024

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

O aprendizado por transferência usa modelos pré-treinados de uma tarefa ou conjunto de dados de aprendizado de máquina para melhorar o desempenho e a generalizabilidade em uma tarefa ou conjunto de dados relacionados.

O aprendizado por transferência é uma técnica de aprendizado de máquina na qual o conhecimento adquirido em uma tarefa ou conjunto de dados é utilizado para melhorar o desempenho do modelo em outra tarefa relacionada e/ou em um conjunto de dados diferente.1 Em outras palavras, o aprendizado por transferência aproveita o que foi aprendido em um contexto para melhorar a generalização em outro contexto.2 Essa técnica possui diversas aplicações, desde a solução de problemas de regressão em ciência de dados até o treinamento de modelos de deep learning. De fato, é particularmente atraente para este último, dada a grande quantidade de dados necessária para criar redes neurais profundas.

Os processos tradicionais de aprendizado criam um novo modelo para cada nova tarefa, com base nos dados rotulados disponíveis. Isso ocorre porque os algoritmos tradicionais de aprendizado de máquina assumem que os dados de treinamento e teste pertencem ao mesmo espaço de características e, portanto, se a distribuição dos dados mudar ou se o modelo treinado for aplicado a um novo conjunto de dados, os usuários devem treinar um novo modelo do zero, mesmo ao tentar uma tarefa semelhante à do primeiro modelo (por exemplo, classificador de análise de sentimento para resenhas de filmes versus resenhas de músicas). Os algoritmos de aprendizado por transferência, no entanto, utilizam modelos ou redes já treinadas como ponto de partida. Em seguida, aplicam o conhecimento adquirido pelo modelo em uma tarefa ou conjunto de dados de origem inicial (por exemplo, classificação de resenhas de filmes) para uma nova tarefa ou conjunto de dados relacionado (por exemplo, classificação de resenhas de músicas).3

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionadas por especialistas sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Vantagens e desvantagens do aprendizado por transferência

Vantagens

- Custos computacionais. O aprendizado por transferência reduz os custos computacionais necessários para criar modelos para novos problemas. Ao reaproveitar modelos ou redes pré-treinados para lidar com uma tarefa diferente, os usuários podem reduzir a quantidade de tempo de treinamento do modelo, os dados de treinamento, as unidades de processador e outros recursos computacionais. Por exemplo, um número menor de épocas, ou seja, passagens através de um conjunto de dados — pode ser necessário para atingir a taxa de aprendizado desejada. Dessa forma, o aprendizado por transferência pode acelerar e simplificar os processos de treinamento de modelos.

- Tamanho do conjunto de dados. O aprendizado por transferência ajuda a aliviar dificuldades associadas à aquisição de grandes conjuntos de dados. Por exemplo, os grandes modelos de linguagem (LLMs) requerem grandes quantidades de dados de treinamento para atingir um desempenho ideal. Conjuntos de dados públicos de qualidade podem ser limitados, e a produção manual de dados rotulados suficientes pode ser demorada e cara.

- Generalização.. Embora o aprendizado por transferência auxilie na otimização do modelo, ele também pode aumentar sua capacidade de generalização. Como o aprendizado por transferência envolve o retreinamento de um modelo existente com um novo conjunto de dados, o modelo retreinado conterá conhecimento adquirido a partir de múltiplos conjuntos de dados. Ele poderá apresentar um desempenho melhor em uma variedade mais ampla de dados do que o modelo base inicial, treinado em apenas um tipo de conjunto de dados. O aprendizado por transferência pode, assim, inibir o sobreajuste (overfitting).4

É claro que a transferência de conhecimento de um domínio para outro não é capaz de compensar o impacto negativo de dados de baixa qualidade. Técnicas de pré-processamento e engenharia de recursos, como por exemplo aumento de dados e extração de características, ainda são necessários ao usar o aprendizado por transferência.

Desvantagens

Não se trata tanto de desvantagens inerentes ao aprendizado por transferência, mas sim de possíveis consequências negativas resultantes de sua aplicação incorreta. O aprendizado por transferência funciona melhor quando três condições são atendidas:

  • ambas as tarefas de aprendizado são semelhantes
  • a distribuição dos conjuntos de dados de origem e destino não variam muito
  • um modelo comparável pode ser aplicado a ambas as tarefas

Quando essas condições não são atendidas, o aprendizado por transferência pode afetar negativamente o desempenho do modelo. A literatura se refere a isso como transferência negativa. Pesquisas em andamento propõem uma variedade de testes para determinar se conjuntos de dados e tarefas atendem às condições acima e, portanto, não resultarão em transferência negativa.5 A transferência distante é um método desenvolvido para corrigir a transferência negativa que ocorre devido a uma grande dissimilaridade entre as distribuições de dados dos conjuntos de origem e destino.6

Vale notar que não existe uma métrica padronizada amplamente aceita para determinar a similaridade entre tarefas no aprendizado por transferência. No entanto, alguns estudos propõem diferentes métodos de avaliação para prever similaridades entre conjuntos de dados e tarefas de aprendizado de máquina, e, assim, avaliar sua viabilidade para aprendizado por transferência.7

Mistura de Especialistas | Podcast

Decodificando a IA: resumo semanal das notícias

Junte-se a nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Tipos de aprendizado por transferência

Existem três práticas ou subconfigurações adjacentes ao aprendizado por transferência. A distinção entre elas, assim como do aprendizado por transferência, resulta, em grande parte, de mudanças na relação entre o domínio de origem, o domínio de destino e as tarefas a serem realizadas.8

- Transferência indutiva. Isso ocorre quando as tarefas de origem e destino são diferentes, independentemente de haver diferença ou similaridade entre os domínios de origem e destino (ou seja, os conjuntos de dados). Esse fenômeno pode ser observado em modelos de visão computacional, onde arquiteturas pré-treinadas para extração de características em grandes conjuntos de dados são adotadas para um novo treinamento em uma tarefa específica, como detecção de objetos. O aprendizado multitarefa, que consiste em aprender simultaneamente duas tarefas diferentes (como classificação de imagens e detecção de objetos) no mesmo conjunto de dados, pode ser considerado uma forma de transferência indutiva.9

- Aprendizado não supervisionado. Essa abordagem é semelhante à transferência indutiva, pois as tarefas de origem e destino são diferentes. No entanto, na transferência indutiva, os dados de origem e/ou destino costumam ser rotulados. Como o próprio nome indica, o aprendizado por transferência não supervisionado não é supervisionado, o que significa que não há dados rotulados manualmente.10 Por comparação, a transferência indutiva pode ser considerada como aprendizado supervisionado. Uma aplicação comum do aprendizado não supervisionado é a detecção de fraudes. Ao identificar padrões comuns em um conjunto de dados não rotulado de transações, um modelo pode aprender a identificar comportamentos desviantes como possíveis fraudes.

- Transferência transdutiva. Isso ocorre quando as tarefas de origem e destino são as mesmas, mas os conjuntos de dados (ou domínios) são diferentes. Mais especificamente, os dados de origem geralmente são rotulados, enquanto os dados de destino não são. A adaptação de domínio é uma forma de aprendizado transdutivo, pois aplica o conhecimento adquirido ao realizar uma tarefa em uma distribuição de dados para executar a mesma tarefa em outra distribuição de dados.11 Um exemplo de aprendizado por transferência transdutiva é a aplicação de um modelo de classificação de texto treinado e testado em resenhas de restaurantes para classificar avaliações de filmes.

Aprendizado por transferência versus ajuste fino

O aprendizado por transferência é diferente do ajuste fino. Ambos, reconhecidamente, reutilizam modelos de aprendizado de máquina preexistentes em vez de treinar novos modelos. Mas as semelhanças em grande parte param por aí. O ajuste fino refere-se ao processo de treinamento adicional do modelo de um conjunto de dados específico de uma tarefa para melhorar o desempenho da tarefa inicial específica para a qual o modelo foi construído. Por exemplo, pode-se criar um modelo de detecção de objetos de uso geral usando enormes conjuntos de imagens, como COCO ou ImageNet, e treinar ainda mais o modelo resultante em um conjunto de dados menor e rotulado, específico para detecção de carros. Dessa forma, o usuário ajusta o modelo de detecção de objetos para a detecção de carros. Por outro lado, o aprendizado por transferência refere-se a quando os usuários adaptam o modelo a um novo problema relacionado, em vez de ao mesmo problema.

Casos de uso de aprendizado por transferência

Existem muitas aplicações do aprendizado por transferência em cenários reais de aprendizado de máquina e inteligência artificial. Desenvolvedores e cientistas de dados podem utilizar o aprendizado por transferência para auxiliar em uma ampla gama de tarefas e combiná-lo com outras abordagens, como aprendizado por reforço.

Processamento de linguagem natural

Um problema relevante que afeta o aprendizado por transferência no PLN é a incompatibilidade de características. As características em diferentes domínios podem ter significados distintos e, portanto, diferentes conotações (por exemplo, light pode significar peso leve ou luz/ótica). Essa disparidade nas representações das características afeta tarefas de classificação de sentimento, modelos de linguagem e outras aplicações. Modelos baseados em deep learning (especialmente embeddings de palavras) demonstram potencial para corrigir esse problema, pois conseguem capturar adequadamente relações semânticas e orientações para tarefas de adaptação de domínio.12

Visão computacional

Devido às dificuldades em obter dados rotulados suficientes para diversas tarefas de visão computacional, muitas pesquisas analisam aplicações do aprendizado por transferência em redes neurais convolucionais (CNNs). Um exemplo notável é o ResNet, uma arquitetura de modelo pré-treinada que demonstra melhor desempenho em tarefas de classificação de imagens e detecção de objetos.13 Pesquisas recentes analisam o conjunto de dados ImageNet para aprendizado por transferência, argumentando que (contrariando o senso comum da visão computacional) apenas pequenos subconjuntos desse conjunto de dados são necessários para treinar modelos altamente generalizáveis.14 Muitos tutoriais de aprendizado por transferência para visão computacional utilizam ResNet e ImageNet com a biblioteca Keras do TensorFlow.

Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real
Notas de rodapé

Emilio Soria Olivas, Jose David Martin Guerrero, Marcelino Martinez Sober, Jose Rafael Magdalena Benedito, Antonio Jose Serrano Lopez, Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods, and Techniques, Information Science Reference, 2009.

2 Ian Goodfellow, Yoshua Bengio e Aaron Courville, Deep Learning, MIT Press, 2016.

3 Jiawei Han, Micheline Kamber, Jian Pei, Data Mining: Concepts and Techniques, 3ª edição, Elsevier, 2012.

4 Jindong Wang e Yiqiang Chen, Introduction to Transfer Learning: Applications and Methods, Springer, 2023.

5 Wen Zhang, Lingfei Deng, Lei Zhang, Dongrui Wu, "A Survey on Negative Transfer," IEEE/CAA Journal of Automatica Sinica, vol. 10, nº 2, 2023, págs. 305-329, https://arxiv.org/abs/2009.00909.

6 Ben Tan, Yangqiu Song, Erheng Zhong, Qiang Yang, "Transitive Transfer Learning," Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2015, págs. 1155-1164, https://dl.acm.org/doi/10.1145/2783258.2783295. Ben Tan, Yu Zhang, Sinno Jialin Pan e Qiang Yang, "Domain Distant Transfer," Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, 2017, págs. 2604-2610, https://dl.acm.org/doi/10.5555/3298483.3298614.

7 Changjian Shui, Mahdieh Abbasi, Louis-Émile Robitaille1, Boyu Wang, Christian Gagné, "A Principled Approach for Learning Task Similarity in Multitask Learning," Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence, 2019, págs. 3446-3452, https://www.ijcai.org/proceedings/2019/0478.pdf. Kshitij Dwivedi e Gemma Roig, "Representation Similarity Analysis
for Efficient Task taxonomy & Transfer Learning," Proceedings of Conference on Computer Vision and Pattern Recognition, 2019, págs. 12387-12396, https://openaccess.thecvf.com/content_CVPR_2019/papers/Dwivedi_Representation_Similarity_Analysis_for_Efficient_Task_Taxonomy__Transfer_Learning_CVPR_2019_paper.pdf. Javier García, Álvaro Visús e Fernando Fernández, "A taxonomy for similarity metrics between Markov decision processes," Machine Learning, vol. 111, 2022, págs. 4217—4247, https://link.springer.com/article/10.1007/s10994-022-06242-4.

8 Asmaul Hosna, Ethel Merry, Jigmey Gyalmo, Zulfikar Alom, Zeyar Aung e Mohammad Abdul Azim, “Transfer learning: a friendly introduction” Journal of Big Data, vol. 9, 2022, https://journalofbigdata.springeropen.com/articles/10.1186/s40537-022-00652-w. Sinno Jialin Pan e Qiang Yang, "A Survey on Transfer Learning," IEEE Transactions on Knowledge and Data Engineering, vol. 22, nº 10, 2010, págs. 1345-1359, https://ieeexplore.ieee.org/document/5288526.

9 Sinno Jialin Pan e Qiang Yang, "A Survey on Transfer Learning," IEEE Transactions on Knowledge and Data Engineering, vol. 22, nº 10, 2010, págs. 1345-1359, https://ieeexplore.ieee.org/document/5288526. Ricardo Vilalta, "Inductive Transfer," Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

10 Sinno Jialin Pan e Qiang Yang, "A Survey on Transfer Learning," IEEE Transactions on Knowledge and Data Engineering, vol. 22, nº 10, 2010, págs. 1345-1359, https://ieeexplore.ieee.org/document/5288526.

11 Sinno Jialin Pan e Qiang Yang, "A Survey on Transfer Learning," IEEE Transactions on Knowledge and Data Engineering, vol. 22, nº 10, 2010, págs. 1345-1359, https://ieeexplore.ieee.org/document/5288526.
Ian Goodfellow, Yoshua Bengio e Aaron Courville, Deep Learning, MIT Press, 2016.

12 Qiang Yang, Transfer Learning, Cambridge University Press, 2020. Eyal Ben-David, Carmel Rabinovitz e Roi Reichart, "PERL: Pivot-based Domain Adaptation for Pre-trained Deep Contextualized Embedding Models," Transactions of the Association for Computational Linguistics, vol. 8, 2020, págs. 504-521, https://aclanthology.org/2020.tacl-1.33.pdf.

13 Kaiming He, Xiangyu Zhang, Shaoqing Ren e Jian Sun, "Deep Residual Learning for Image Recognition," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, págs. 770-778, https://ieeexplore.ieee.org/document/7780459.

14 Minyoung Huh, Pulkit Agrawal e Alexei Efros, "What makes ImageNet good for transfer learning?" Berkeley Artificial Intelligence Research Laboratory (BAIR), 2017, https://people.csail.mit.edu/minhuh/papers/analysis/.