Publication : le 12 février 2024
Contributeurs : Jacob Murel Ph.D., Eda Kavlakoglu
L’apprentissage par transfert utilise des modèles préentraînés provenant d’une tâche ou d’un jeu de données (eux-mêmes issus du machine learning) pour améliorer les performances et la généralisabilité sur une tâche ou un jeu de données connexe.
L’apprentissage par transfert est une technique issue du machine learning dans laquelle les connaissances acquises avec une tâche ou un jeu de données sont utilisées pour améliorer les performances du modèle sur une tâche associée et/ou un autre jeu de données.1 En d’autres termes, l’apprentissage par transfert utilise ce qui a été appris dans un contexte et le généralise pour une utilisation dans un autre contexte.2 L’apprentissage par transfert a de nombreuses applications, de la résolution de problèmes de régression en science des données à l’entraînement de modèles d’apprentissage profond . La technique est particulièrement intéressante pour ce dernier, compte tenu de la grande quantité de données nécessaires pour créer des réseaux neuronaux profonds .
Les processus d’apprentissage traditionnels établissent un nouveau modèle pour chaque nouvelle tâche sur la base des données étiquetées disponibles. Pourquoi cela ? Parce que les algorithmes de machine learning traditionnels supposent que les données d’entraînement et de test proviennent du même espace de caractéristiques. Par conséquent, si la distribution des données change ou si le modèle entraîné est appliqué à un nouveau jeu de données, les utilisateurs doivent réentraîner un nouveau modèle à partir de zéro, même si la tâche qu’ils tentent d’accomplir est similaire à celle du premier modèle (par exemple, un classificateur de sentiment pour les critiques de films que l’on tenterait d’appliquer aux critiques de chansons). À l’inverse, les algorithmes d’apprentissage par transfert prennent comme point de départ des modèles ou des réseaux déjà entraînés. Ils appliquent ensuite les connaissances de ce modèle acquises dans une tâche ou des données sources initiales (par exemple classer des critiques de films) à une tâche ou à des données cibles nouvelles, mais apparentées (par ex. classer des critiques de chansons).3
Découvrez IBM watsonx et apprenez à créer des modèles de machine learning à partir de jeux de données statistiques.
Abonnez-vous à la newsletter IBM
– Coûts des calculs. L’apprentissage par transfert réduit les coûts de calcul requis pour créer des modèles pour de nouveaux problèmes. En réutilisant des modèles ou des réseaux préentraînés pour une tâche différente, les utilisateurs peuvent réduire le temps nécessaire pour entraîner le nouveau modèle, mais aussi la quantité de données, d’unités de processeur et d’autres ressources de calcul nécessaires. Par exemple, un nombre réduit d’« epochs », c’est-à-dire un passage complet à travers un jeu de données — peut être nécessaire pour atteindre le taux d’apprentissage souhaité. De cette manière, l’apprentissage par transfert peut accélérer et simplifier les processus d’entraînement des modèles.
– Taille du jeu de données. L’apprentissage par transfert permet en particulier d’atténuer les difficultés liées à l’acquisition de jeux de données volumineux. Par exemple, les grands modèles de langage (LLM) nécessitent de grandes quantités de données d’entraînement pour obtenir de bonnes performances. La qualité des jeux de données accessibles au public peut être limitée, et la production de données étiquetées manuellement en quantité suffisante peut être chronophage et coûteuse.
– Généralisabilité. Si l’apprentissage par transfert facilite l’optimisation des modèles, il peut aussi en accroître la généralisabilité. Étant donné que l’apprentissage par transfert implique le recyclage d’un modèle existant avec un nouveau jeu de données, le modèle recyclé sera constitué de connaissances acquises à partir de plusieurs jeux de données. Il affichera potentiellement de meilleures performances sur une plus grande variété de données que le modèle de base initial (formé sur un seul type de jeu de données). L’apprentissage par transfert peut ainsi empêcher le surapprentissage.4
Bien entendu, le transfert de connaissances d’un domaine à un autre ne peut pas compenser l’impact négatif des données de mauvaise qualité. Les techniques de prétraitement et l’ingénierie des caractéristiques, comme l’augmentation des données et l’extraction des caractéristiques, sont toujours nécessaires lors de l’utilisation de l’apprentissage par transfert.
Plutôt que de parler d’inconvénients inhérents à l’apprentissage par transfert, il est plus exact d’affirmer qu’il présentera des résultats négatifs s’il est appliqué de façon erronée. L’apprentissage par transfert fonctionne mieux lorsque trois conditions sont réunies :
Si ces conditions ne sont pas remplies, l’apprentissage par transfert peut affecter négativement les performances du modèle. On parle alors de transfert négatif. Des recherches en cours proposent une variété de tests pour déterminer si les jeux de données et les tâches remplissent les conditions ci-dessus et ne risquent donc pas d’entraîner un transfert négatif.5 Le transfert à distance est une méthode qui a été développée pour corriger le transfert négatif résultant d’une trop grande dissemblance dans les distributions de données des jeux de données source et cible.6
Notez qu’il n’existe pas d’indicateur standard permettant de déterminer la similarité entre les tâches pour l’apprentissage par transfert. Quelques études proposent cependant différentes méthodes d’évaluation pour prédire les similitudes entre les jeux de données et les tâches de machine learning, et donc la viabilité de l’apprentissage par transfert.7
Il existe trois pratiques ou sous-environnements adjacents de l’apprentissage par transfert. Leur distinction les uns par rapport aux autres, mais aussi le transfert d’apprentissage de manière plus générale, résultent en grande partie des changements dans la relation entre le domaine source, le domaine cible et les tâches à accomplir.8
– Transfert inductif. Il se produit lorsque les tâches source et cible sont différentes, indépendamment de toute différence ou similitude entre les domaines cible et source (c’est-à-dire les jeux de données). Cela peut se manifester dans les modèles de vision par ordinateur lorsque des architectures préentraînées pour l’extraction de caractéristiques sur de grands jeux de données sont ensuite adoptées pour un entraînement ultérieur sur une tâche spécifique, telle que la détection d’objets. L’apprentissage multitâche, qui consiste à apprendre simultanément deux tâches différentes (telles que la classification des images et la détection d’objets) sur le même jeu de données, peut être considéré comme une forme de transfert inductif.9
– Apprentissage non supervisé. Il est similaire au transfert inductif, car les tâches cible et source sont différentes. Mais dans le transfert inductif, les données sources et/ou cibles sont souvent étiquetées. Comme son nom l’indique, l’apprentissage par transfert non supervisé n’est pas supervisé, ce qui signifie qu’il n’y a pas de données étiquetées manuellement.10 En comparaison, le transfert inductif peut être considéré comme un apprentissage supervisé. La détection des fraudes est une application courante de l’apprentissage non supervisé. En identifiant des modèles communs dans un jeu de données de transactions non étiquetées, un modèle peut apprendre à identifier les comportements divergents, comme une fraude potentielle.
– Transfert transductif. Cela se produit lorsque les tâches source et cible sont les mêmes, mais que les jeux de données (ou domaines) sont différents. Plus précisément, les données sources sont généralement étiquetées tandis que les données cibles ne le sont pas. L’adaptation au domaine est une forme d’apprentissage transductif, car elle applique les connaissances acquises lors de l’exécution d’une tâche sur une distribution de données à la même tâche sur une autre distribution de données.11 Un exemple d’apprentissage transductif par transfert est l’utilisation d’un modèle de classification de texte formé et testé avec des critiques de restaurants pour la classification de critiques de films.
L’apprentissage par transfert se distingue du réglage fin. Tous deux, il est vrai, réutilisent des modèles de machine learning préexistants au lieu de former de nouveaux modèles. Mais les similitudes s’arrêtent là. Le réglage fin désigne le processus d’entraînement supplémentaire d’un modèle sur un jeu de données spécifique à une tâche, le but étant d’améliorer les performances de la tâche initiale pour laquelle le modèle a été construit. Par exemple, il est possible de créer un modèle de détection d’objets à usage général en utilisant des ensembles d’images massifs tels que COCO ou ImageNet, puis d’entraîner le modèle résultant sur un jeu de données plus petit et étiqueté, spécifique à la détection de voitures. De cette manière, l’utilisateur effectue le réglage fin d’un modèle de détection d’objets, avec pour but la détection de voitures. En revanche, l’apprentissage par transfert signifie que les utilisateurs adaptent un modèle à un nouveau problème connexe plutôt qu’au même problème.
Il existe de nombreuses applications de l’apprentissage par transfert dans les contextes réels du machine learning et de l’intelligence artificielle . Les développeurs et les data scientists peuvent utiliser l’apprentissage par transfert pour faciliter une myriade de tâches et le combiner avec d’autres approches d’apprentissage, notamment l’apprentissage par renforcement.
L’inadéquation des caractéristiques est l’un des principaux problèmes qui affectent l’apprentissage par transfert en traitement automatique des langues (NLP). Les caractéristiques dans différents domaines peuvent avoir différentes significations, et il en va de même pour les connotations (par exemple batterie peut être un instrument de musique ou un dispositif de charge). Cette disparité dans la représentation des caractéristiques affecte les tâches de classification des sentiments, les modèles de langage, etc. Les modèles basés sur l’apprentissage profond (en particulier ceux qui utilisent la méthode de plongement lexical) sont peut-être une solution au problème, car ils peuvent capturer de manière adéquate les relations et les orientations sémantiques pour les tâches d’adaptation de domaine.12
En raison des difficultés liées à l’acquisition d’une quantité suffisante de données étiquetées manuellement pour diverses tâches de vision par ordinateur, de nombreuses recherches portent sur les applications d’apprentissage par transfert utilisant des réseaux neuronaux convolutifs (CNN). Un exemple notable est ResNet, une architecture de modèle préentraîné qui montre des performances améliorées dans les tâches de classification d’images et de détection d’objets.13 Des recherches récentes, qui portent sur le célèbre jeu de données ImageNet pour l’apprentissage par transfert, affirment que (contrairement aux idées reçues dans le domaine de la vision par ordinateur) seuls de petits sous-ensembles de ce jeu de données sont nécessaires pour former des modèles généralisables fiables.14 De nombreux tutoriels d’apprentissage par transfert pour la vision par ordinateur utilisent à la fois ResNet et ImageNet avec la bibliothèque Keras de TensorFlow.
Des chercheurs d’IBM expliquent comment CodeFlare réduit le temps d’entraînement des tâches d’apprentissage par transfert pour les modèles de fondation.
Des chercheurs d’IBM présentent un algorithme d’apprentissage par transfert équivariant qui fait la moyenne des poids des caractéristiques pour plus de simplicité et une meilleure généralisation.
Les chercheurs d’IBM proposent la méthode d’apprentissage par transfert pour améliorer les prédictions des modèles de réactions moléculaires liées aux hydrates de carbone.
1 Emilio Soria Olivas, Jose David Martin Guerrero, Marcelino Martinez Sober, Jose Rafael Magdalena Benedito, Antonio Jose Serrano Lopez, Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods, and Techniques, Information Science Reference, 2009.
2 Ian Goodfellow, Yoshua Bengio et Aaron Courville, Deep Learning, MIT Press, 2016.
3 Jiawei Han, Micheline Kamber, Jian Pei, Data Mining: Concepts and Techniques, 3e édition, Elsevier, 2012.
4 Jindong Wang et Yiqiang Chen, Introduction to Transfer Learning: Applications and Methods, Springer, 2023.
5 Wen Zhang, Lingfei Deng, Lei Zhang, Dongrui Wu, « A Survey on Negative Transfer », IEEE/CAA Journal of Automatica Sinica, vol. 10, no. 2, 2023, pp. 305-329, https://arxiv.org/abs/2009.00909 (lien externe à ibm.com).
6 Ben Tan, Yangqiu Song, Erheng Zhong, Qiang Yang, « Transitive Transfer Learning », Actes de la 21e conférence internationale ACM SIGKDD sur la découverte de connaissances et l’exploration de données, 2015, pp. 1155-1164, https://dl.acm. org/doi/10.1145/2783258.2783295 (lien externe à ibm.com). Ben Tan, Yu Zhang, Sinno Jialin Pan, Qiang Yang, « Domain Distant Transfer », Actes de la trente et unième conférence AAAI sur l’intelligence artificielle, 2017, pp. 2604-2610, https://dl.acm.org/doi/10.5555/3298483.3298614 (lien externe à ibm.com).
7 Changjian Shui, Mahdieh Abbasi, Louis-Émile Robitaille1, Boyu Wang, Christian Gagné, « A Principled Approach for Learning Task similarity in Multitask Learning », Actes de la vingt-huitième conférence internationale conjointe sur l’intelligence artificielle, 2019, pp. 3446-3452, https://www.ijcai.org/proceedings/2019/0478.pdf (lien externe à ibm.com). Kshitij Dwivedi et Gemma Roig, « Representation Similarity Analysis
for Efficient Task taxonomy & Transfer Learning », Actes de conférence sur la vision par ordinateur et la reconnaissance de modèles, 2019, pp. 12387-12396, https://openaccess.thecvf.com/content_CVPR_2019/papers/Dwivedi_Representation_Similarity_Analysis_for_Efficient_Task_Taxonomy__Transfer_Learning_CVPR_2019_paper.pdf (lien externe à ibm.com). Javier García, Álvaro Visús et Fernando Fernández, « A taxonomy for similarity metrics between Markov decision processes », Machine Learning, vol. 111, 2022, pp. 4217–4247, https://link. Springer.com/article/10.1007/s10994-022-06242-4 (lien externe à ibm.com).
8 Asmaul Hosna, Ethel Merry, Jigmey Gyalmo, Zulfikar Alom, Zeyar Aung et Mohammed Abdul Azim, « Transfer learning: a friendly introduction » Journal of Big Data, vol. 9, 2022, https://journalofbigdata.springeropen.com/articles/10.1186/s40537-022-00652-w (lien externe à ibm.com). Sinno Jialin Pan et Qiang Yang, « A Survey on Transfer Learning », IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, 2010, pp. 1345-1359, https://ieeexplore.ieee.org/document/5288526 (lien externe à ibm.com).
9 Sinno Jialin Pan et Qiang Yang, « A Survey on Transfer Learning », IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, 2010, pp. 1345-1359, https://ieeexplore.ieee.org/document/5288526 (lien externe à ibm.com). Ricardo Vilalta, « Inductive Transfer », Encyclopedia of Machine Learning and Data Mining, Springer, 2017.
10 Sinno Jialin Pan et Qiang Yang, « A Survey on Transfer Learning », IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, 2010, pp. 1345-1359, https://ieeexplore.ieee.org/document/5288526 (lien externe à ibm.com).
11 Sinno Jialin Pan et Qiang Yang, « A Survey on Transfer Learning », IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, 2010, pp. 1345-1359, https://ieeexplore.ieee.org/document/5288526 (lien externe à ibm.com).
Ian Goodfellow, Yoshua Bengio et Aaron Courville, Deep Learning, MIT Press, 2016.
12 Qiang Yang, Transfer Learning, Cambridge University Press, 2020. Eyal Ben-David, Carmel Rabinovitz et Roi Reichart, « PERL: Pivot-based Domain Adaptation for Pre-trained Deep Contextualized Embedding Models », Transactions of the Association for Computational Linguistics, vol. 8, 2020, pp. 504–521, https://aclanthology.org/2020.tacl-1.33.pdf (lien externe à ibm.com).
13 Kaiming He, Xiangyu Zhang, Shaoqing Ren et Jian Sun, « Deep Residual Learning for Image Recognition », IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770–778, https://ieeexplore.ieee.org/document/7780459 (lien externe à ibm.com).
14 Minyoung Huh, Pulkit Agrawal et Alexei Efros, « What makes ImageNet good for transfer learning? » Berkeley Artificial Intelligence Research Laboratory (BAIR), 2017, https://people.csail.mit.edu/minhuh/papers/analysis/ (lien externe à ibm.com).