Qu’est-ce que l’apprentissage par transfert ?

12 février 2024

Auteurs

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

L’apprentissage par transfert utilise des modèles préentraînés provenant d’une tâche ou d’un jeu de données (eux-mêmes issus du machine learning) pour améliorer les performances et la généralisabilité sur une tâche ou un jeu de données connexe.

L’apprentissage par transfert est une technique issue du machine learning dans laquelle les connaissances acquises avec une tâche ou un jeu de données sont utilisées pour améliorer les performances du modèle sur une tâche associée et/ou un autre jeu de données.1 En d’autres termes, l’apprentissage par transfert utilise ce qui a été appris dans un contexte pour améliorer la généralisation dans un autre contexte.2 L’apprentissage par transfert a de nombreuses applications, de la résolution de problèmes de régression en science des données à l’entraînement de modèles d’apprentissage profond. La technique est particulièrement intéressante pour ce dernier, compte tenu de la grande quantité de données nécessaires pour créer des réseaux neuronaux profonds.

Les processus d’apprentissage traditionnels établissent un nouveau modèle pour chaque nouvelle tâche sur la base des données étiquetées disponibles. Pourquoi cela ? Parce que les algorithmes de machine learning traditionnels supposent que les données d’entraînement et de test proviennent du même espace de caractéristiques. Par conséquent, si la distribution des données change ou si le modèle entraîné est appliqué à un nouveau jeu de données, les utilisateurs doivent réentraîner un nouveau modèle à partir de zéro, même si la tâche qu’ils tentent d’accomplir est similaire à celle du premier modèle (par exemple, un classificateur de sentiment pour les critiques de films que l’on tenterait d’appliquer aux critiques de chansons). À l’inverse, les algorithmes d’apprentissage par transfert prennent comme point de départ des modèles ou des réseaux déjà entraînés. Ils appliquent ensuite les connaissances de ce modèle acquises dans une tâche ou des données sources initiales (par exemple classer des critiques de films) à une tâche ou à des données cibles nouvelles, mais apparentées (par ex. classer des critiques de chansons).3

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Avantages et inconvénients de l’apprentissage par transfert

Avantages

Coûts des calculs. L’apprentissage par transfert réduit les coûts de calcul requis pour créer des modèles pour de nouveaux problèmes. En réutilisant des modèles ou des réseaux préentraînés pour une tâche différente, les utilisateurs peuvent réduire le temps nécessaire pour entraîner le nouveau modèle, mais aussi la quantité de données, d’unités de processeur et d’autres ressources de calcul nécessaires. Par exemple, un nombre réduit d’« epochs », c’est-à-dire un passage complet à travers un jeu de données — peut être nécessaire pour atteindre le taux d’apprentissage souhaité. De cette manière, l’apprentissage par transfert peut accélérer et simplifier les processus d’entraînement des modèles.

Taille du jeu de données. L’apprentissage par transfert permet en particulier d’atténuer les difficultés liées à l’acquisition de jeux de données volumineux. Par exemple, les grands modèles de langage (LLM) nécessitent de grandes quantités de données d’entraînement pour obtenir de bonnes performances. La qualité des jeux de données accessibles au public peut être limitée, et la production de données étiquetées manuellement en quantité suffisante peut être chronophage et coûteuse.

Généralisabilité. Si l’apprentissage par transfert facilite l’optimisation des modèles, il peut aussi en accroître la généralisabilité. Étant donné que l’apprentissage par transfert implique le recyclage d’un modèle existant avec un nouveau jeu de données, le modèle recyclé sera constitué de connaissances acquises à partir de plusieurs jeux de données. Il affichera potentiellement de meilleures performances sur une plus grande variété de données que le modèle de base initial (formé sur un seul type de jeu de données). L’apprentissage par transfert peut ainsi empêcher le surapprentissage.4

Bien entendu, le transfert de connaissances d’un domaine à un autre ne peut pas compenser l’impact négatif des données de mauvaise qualité. Les techniques de prétraitement et l’ingénierie des caractéristiques, comme l’augmentation des données et l’extraction des caractéristiques, sont toujours nécessaires lors de l’utilisation de l’apprentissage par transfert.

Inconvénients

Plutôt que de parler d’inconvénients inhérents à l’apprentissage par transfert, il est plus exact d’affirmer qu’il présentera des résultats négatifs s’il est appliqué de façon erronée. L’apprentissage par transfert fonctionne mieux lorsque trois conditions sont réunies :

  • les deux tâches d’apprentissage sont similaires
  • la distribution des données dans les jeux de données source et cible a une variabilité faible
  • un modèle comparable peut être appliqué aux deux tâches

Si ces conditions ne sont pas remplies, l’apprentissage par transfert peut affecter négativement les performances du modèle. On parle alors de transfert négatif. Des recherches en cours proposent une variété de tests pour déterminer si les jeux de données et les tâches remplissent les conditions ci-dessus et ne risquent donc pas d’entraîner un transfert négatif.5 Le transfert à distance est une méthode qui a été développée pour corriger le transfert négatif résultant d’une trop grande dissemblance dans les distributions de données des jeux de données source et cible.6

Notez qu’il n’existe pas d’indicateur standard permettant de déterminer la similarité entre les tâches pour l’apprentissage par transfert. Quelques études proposent cependant différentes méthodes d’évaluation pour prédire les similitudes entre les jeux de données et les tâches de machine learning, et donc la viabilité de l’apprentissage par transfert.7

Groupe d’experts | Podcast

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l'actualité et des dernières tendances dans le domaine de l’IA.

Types d’apprentissage par transfert

Il existe trois pratiques ou sous-environnements adjacents de l’apprentissage par transfert. Leurs distinctions les uns par rapport aux autres, mais aussi l’apprentissage par transfert de manière plus générale, résultent en grande partie des changements dans la relation entre le domaine source, le domaine cible et les tâches à accomplir.8

Transfert inductif. Il se produit lorsque les tâches source et cible sont différentes, indépendamment de toute différence ou similitude entre les domaines cible et source (c’est-à-dire les jeux de données). Cela peut se manifester dans les modèles de vision par ordinateur lorsque des architectures préentraînées pour l’extraction de caractéristiques sur de grands jeux de données sont ensuite adoptées pour un entraînement ultérieur sur une tâche spécifique, telle que la détection d’objets. L’apprentissage multitâche, qui consiste à apprendre simultanément deux tâches différentes (telles que la classification des images et la détection d’objets) sur le même jeu de données, peut être considéré comme une forme de transfert inductif.9

Apprentissage non supervisé. Il est similaire au transfert inductif, car les tâches cible et source sont différentes. Mais dans le transfert inductif, les données sources et/ou cibles sont souvent étiquetées. Comme son nom l’indique, l’apprentissage par transfert non supervisé n’est pas supervisé, ce qui signifie qu’il n’y a pas de données étiquetées manuellement.10 En comparaison, le transfert inductif peut être considéré comme un apprentissage supervisé. La détection des fraudes est une application courante de l’apprentissage non supervisé. En identifiant des modèles communs dans un jeu de données de transactions non étiquetées, un modèle peut apprendre à identifier les comportements divergents, comme une fraude potentielle.

Transfert transductif. Cela se produit lorsque les tâches source et cible sont les mêmes, mais que les jeux de données (ou domaines) sont différents. Plus précisément, les données sources sont généralement étiquetées tandis que les données cibles ne le sont pas. L’adaptation au domaine est une forme d’apprentissage transductif, car elle applique les connaissances acquises lors de l’exécution d’une tâche sur une distribution de données à la même tâche sur une autre distribution de données.11 Un exemple d’apprentissage transductif par transfert est l’utilisation d’un modèle de classification de texte entraîné et testé avec des critiques de restaurants pour la classification de critiques de films.

Apprentissage par transfert ou réglage fin

L’apprentissage par transfert se distingue du réglage fin. Tous deux, il est vrai, réutilisent des modèles de machine learning préexistants au lieu de former de nouveaux modèles. Mais les similitudes s’arrêtent là. Le réglage fin désigne le processus d’entraînement supplémentaire d’un modèle sur un jeu de données spécifique à une tâche, le but étant d’améliorer les performances de la tâche initiale pour laquelle le modèle a été construit. Par exemple, il est possible de créer un modèle de détection d’objets à usage général en utilisant des ensembles d’images massifs tels que COCO ou ImageNet, puis d’entraîner le modèle résultant sur un jeu de données plus petit et étiqueté, spécifique à la détection de voitures. De cette manière, l’utilisateur effectue le réglage fin d’un modèle de détection d’objets, avec pour but la détection de voitures. En revanche, l’apprentissage par transfert signifie que les utilisateurs adaptent un modèle à un nouveau problème connexe plutôt qu’au même problème.

Transférer les cas d’utilisation de l’apprentissage

Il existe de nombreuses applications de l’apprentissage par transfert dans les contextes réels du machine learning et de l’intelligence artificielle. Les développeurs et les data scientists peuvent utiliser l’apprentissage par transfert pour faciliter une myriade de tâches et le combiner avec d’autres approches d’apprentissage, notamment l’apprentissage par renforcement.

Traitement du langage naturel

L’inadéquation des caractéristiques est l’un des principaux problèmes qui affectent l’apprentissage par transfert en traitement automatique des langues (NLP). Les caractéristiques dans différents domaines peuvent avoir différentes significations, et il en va de même pour les connotations (par exemple batterie peut être un instrument de musique ou un dispositif de charge). Cette disparité dans la représentation des caractéristiques affecte les tâches de classification des sentiments, les modèles de langage, etc. Les modèles basés sur l’apprentissage profond (en particulier ceux qui utilisent la méthode de plongement lexical) sont peut-être une solution au problème, car ils peuvent capturer de manière adéquate les relations et les orientations sémantiques pour les tâches d’adaptation de domaine.12

Vision par ordinateur

En raison des difficultés liées à l’acquisition d’une quantité suffisante de données étiquetées manuellement pour diverses tâches de vision par ordinateur, de nombreuses recherches portent sur les applications d’apprentissage par transfert utilisant des réseaux neuronaux convolutifs (CNN). Un exemple notable est ResNet, une architecture de modèle préentraîné qui montre des performances améliorées dans les tâches de classification d’images et de détection d’objets.13 Des recherches récentes, qui portent sur le célèbre jeu de données ImageNet pour l’apprentissage par transfert, affirment que (contrairement aux idées reçues dans le domaine de la vision par ordinateur) seuls de petits sous-ensembles de ce jeu de données sont nécessaires pour entraîner des modèles généralisables fiables.14 De nombreux tutoriels d’apprentissage par transfert pour la vision par ordinateur utilisent à la fois ResNet et ImageNet avec la bibliothèque Keras de TensorFlow.

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct
Notes de bas de page

Emilio Soria Olivas, Jose David Martin Guerrero, Marcelino Martinez Sober, Jose Rafael Magdalena Benedito, Antonio Jose Serrano Lopez, Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods, and Techniques, Information Science Reference, 2009.

2 Ian Goodfellow, Yoshua Bengio, et Aaron Courville, Deep Learning, MIT Press, 2016.

3 Jiawei Han, Micheline Kamber, Jian Pei, Data Mining: Concepts and Techniques, 3e édition, Elsevier, 2012.

4 Jindong Wang and Yiqiang Chen, Introduction to Transfer Learning: Applications and Methods, Springer, 2023.

5 Wen Zhang, Lingfei Deng, Lei Zhang, Dongrui Wu, « A Survey on Negative Transfer », IEEE/CAA Journal of Automatica Sinica, vol. 10, no. 2, 2023, pp. 305-329, https://arxiv.org/abs/2009.00909.

6 Ben Tan, Yangqiu Song, Erheng Zhong, Qiang Yang, « Transitive Transfer Learning », Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2015, pp.1155-1164, https://dl.acm.org/doi/10.1145/2783258.2783295. Ben Tan, Yu Zhang, Sinno Jialin Pan, Qiang Yang, « Domain Distant Transfer », Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, 2017, pp. 2604-2610, https://dl.acm.org/doi/10.5555/3298483.3298614.

7 Changjian Shui, Mahdieh Abbasi, Louis-Émile Robitaille1, Boyu Wang, Christian Gagné, « A Principled Approach for Learning Task Similarity in Multitask Learning », Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence, 2019, pp.3446-3452, https://www.ijcai.org/proceedings/2019/0478.pdf. Kshitij Dwivedi and Gemma Roig, « Representation Similarity Analysis
for Efficient Task taxonomy & Transfer Learning », Proceedings of Conference on Computer Vision and Pattern Recognition, 2019, pp.12387-12396, https://openaccess.thecvf.com/content_CVPR_2019/papers/Dwivedi_Representation_Similarity_Analysis_for_Efficient_Task_Taxonomy__Transfer_Learning_CVPR_2019_paper.pdf. Javier García, Álvaro Visús et Fernando Fernández, « A taxonomy for similarity metrics between Markov decision processes », Machine Learning, vol. 111, 2022, pp. 4217–4247, https://link.springer.com/article/10.1007/s10994-022-06242-4.

8 Asmaul Hosna, Ethel Merry, Jigmey Gyalmo, Zulfikar Alom, Zeyar Aung et Mohammad Abdul Azim, « Transfer learning: a friendly introduction » Journal of Big Data, vol. 9, 2022, https://journalofbigdata.springeropen.com/articles/10.1186/s40537-022-00652-w. Sinno Jialin Pan et Qiang Yang, « A Survey on Transfer Learning », IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, 2010, pp. 1345-1359, https://ieeexplore.ieee.org/document/5288526.

9 Sinno Jialin Pan et Qiang Yang, « A Survey on Transfer Learning », IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, 2010, pp. 1345-1359, https://ieeexplore.ieee.org/document/5288526. Ricardo Vilalta, « Inductive Transfer », Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

10 Sinno Jialin Pan et Qiang Yang, « A Survey on Transfer Learning », IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, 2010, pp. 1345-1359, https://ieeexplore.ieee.org/document/5288526.

11 Sinno Jialin Pan et Qiang Yang, « A Survey on Transfer Learning », IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, 2010, pp. 1345-1359, https://ieeexplore.ieee.org/document/5288526.
Ian Goodfellow, Yoshua Bengio et Aaron Courville, Deep Learning, MIT Press, 2016.

12 Qiang Yang, Transfer Learning, Cambridge University Press, 2020. Eyal Ben-David, Carmel Rabinovitz et Roi Reichart, « PERL: Pivot-based Domain Adaptation for Pre-trained Deep Contextualized Embedding Models », Transactions of the Association for Computational Linguistics, vol. 8, 2020, pp. 504–521, https://aclanthology.org/2020.tacl-1.33.pdf.

13 Kaiming He, Xiangyu Zhang, Shaoqing Ren et Jian Sun, « Deep Residual Learning for Image Recognition », IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770-778, https://ieeexplore.ieee.org/document/7780459.

14 Minyoung Huh, Pulkit Agrawal, and Alexei Efros, « What makes ImageNet good for transfer learning? » Berkeley Artificial Intelligence Research Laboratory (BAIR), 2017, https://people.csail.mit.edu/minhuh/papers/analysis/.