Qu’est-ce que le méta-apprentissage ?

Auteurs

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

Qu’est-ce que le méta-apprentissage ?

Le méta-apprentissage est une sous-catégorie du machine learning qui entraîne des modèles d’intelligence artificielle (IA) à comprendre de nouvelles tâches par eux-mêmes et à s’y adapter, soit « apprendre à apprendre ». L’objectif principal du méta-apprentissage est de fournir aux machines les capacités nécessaires pour apprendre à apprendre.

Contrairement à l’apprentissage supervisé conventionnel, dans lequel les modèles sont entraînés à résoudre une tâche spécifique à l’aide d’un jeu de données d’entraînement défini, le processus de méta-apprentissage implique une variété de tâches, chacune avec un jeu de données associé. À partir de ces multiples événements d’apprentissage, les modèles acquièrent la capacité de généraliser sur plusieurs tâches, ce qui leur permet de s’adapter rapidement à de nouveaux scénarios, même avec peu de données.

Les algorithmes de méta-apprentissage sont entraînés sur les prédictions et les métadonnées d’autres algorithmes de machine learning. Les algorithmes de méta-apprentissage génèrent ensuite des prédictions et des informations qui peuvent être utilisées pour améliorer les performances et les résultats d’autres algorithmes de machine learning.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Comment fonctionne le méta-apprentissage ?

Le méta-apprentissage implique deux étapes clés : le métaentraînement et le métatest. Pour les deux étapes, un modèle apprenant de base ajuste et met à jour ses paramètres au fur et à mesure de son apprentissage. Le jeu de données utilisé est divisé en un ensemble de support pour le métaentraînement et en un ensemble de test pour le métatest.

Méta-entraînement

Pendant la phase de métaentraînement, un large éventail de tâches est fourni au modèle apprenant de base. L’objectif du modèle est de découvrir des schémas communs entre ces tâches et d’acquérir de vastes connaissances qui pourront être appliquées à la résolution de nouvelles tâches.

Métatest

Pendant la phase de métatest, les performances du modèle apprenant de base sont évaluées en lui attribuant des tâches qu’il n’avait pas rencontrées lors de son entraînement. L’efficacité du modèle est mesurée par la qualité et la rapidité de son adaptation à ces nouvelles tâches en utilisant ses connaissances acquises et sa compréhension généralisée.

Diagramme illustrant les apprenants de base et le méta-apprenant en train de faire des prédictions

Approches courantes du méta-apprentissage

Il existe trois approches typiques du méta-apprentissage. Voici comment fonctionne chaque approche et leurs différents types :

Méta-apprentissage basé sur des indicateurs

Le méta-apprentissage basé sur les métriques est centré sur l’apprentissage d’une fonction qui calcule une métrique de distance – une mesure de la similarité entre deux points de données. Cette approche s’apparente à l’algorithme des k plus proches voisins (« k-nearest neighbors » ou KNN), qui utilise la proximité pour établir des classifications ou des prévisions.

Réseau neuronal convolutif siamois

Un réseau neuronal convolutif siamois se compose de réseaux neuronaux convolutifs jumeaux qui partagent des paramètres et des poids. Les mises à jour des paramètres sont en miroir sur les deux réseaux. Les deux réseaux sont reliés par une fonction de perte qui calcule une métrique de distance (généralement une similarité par paires).1

Le jeu de données d’entraînement est composé de paires d’échantillons correspondants et non correspondants. Les réseaux neuronaux convolutifs siamois apprennent ensuite à calculer la similarité par paires, en maximisant la distance euclidienne entre les paires non correspondantes ou dissemblables et en minimisant la distance entre les paires correspondantes ou similaires.1

Réseaux de correspondance

Les réseaux correspondants apprennent à prédire la classification en mesurant une métrique de distance connue sous le nom de similarité cosinus entre deux échantillons.2

Réseau de relations

Un réseau de relations apprend une métrique de distance non linéaire profonde pour comparer des éléments. Le réseau classe les éléments en calculant des scores de relation, qui représentent la similarité entre eux.3

Réseaux prototypiques

Les réseaux prototypiques calculent la moyenne de tous les échantillons d’une classe pour créer un prototype pour cette classe. Le réseau apprend ensuite un espace métrique, où les tâches de classification sont effectuées en calculant la distance euclidienne au carré entre un point de données particulier et la représentation prototype d’une classe.4

Méta-apprentissage basé sur un modèle

Le méta-apprentissage basé sur un modèle consiste à apprendre les paramètres d’un modèle, ce qui peut faciliter un apprentissage rapide à partir de données rares.

Réseaux neuronaux à mémoire augmentée

Un réseau neuronal à mémoire augmentée (« memory augmented neural network » ou MANN) est équipé d’un module de mémoire externe qui permet un stockage stable et un encodage et une récupération rapides des informations.5

Dans le méta-apprentissage, les MANN peuvent être entraînés pour apprendre une technique générale pour les types de représentations à stocker dans la mémoire externe et une méthode pour utiliser ces représentations pour faire des prédictions. Il a été prouvé que les MANN sont très performants dans les tâches de regression et de classification.5

Métaréseaux

MetaNet (abréviation de Meta Networks) est un modèle de méta-apprentissage qui peut être appliqué à l’apprentissage par imitation et à l’apprentissage par renforcement. Comme les MANN, les Meta Networks disposent également d’une mémoire externe.6

MetaNet est composé d’un apprenant de base et d’un méta-apprenant qui travaillent dans des niveaux d’espace distincts. Le méta-apprenant acquiert des connaissances générales sur différentes tâches au sein d’un métaespace. L’apprenant de base prend une tâche d’entrée et envoie des méta-informations sur l’espace de travail actuel au méta-apprenant. Sur la base de ces informations, le méta-apprenant effectue un paramétrage rapide pour mettre à jour les poids dans les deux espaces.6

Méta-apprentissage basé sur l’optimisation

L’apprentissage profond nécessite généralement plusieurs mises à jour itératives des paramètres du modèle grâce à la rétropropagation et à l’algorithme d’optimisation de descente de gradient. Dans le méta-apprentissage basé sur l’optimisation, parfois appelé méta-apprentissage basé sur les gradients, l’algorithme apprend quels paramètres initiaux du modèle ou quels hyperparamètres des réseaux neuronaux peuvent être réglés efficacement pour des tâches pertinentes. Il s’agit généralement d’une métaoptimisation, c’est-à-dire l’optimisation de l’algorithme d’optimisation lui-même.

Méta-apprenant LSTM

Cette méthode de méta-apprentissage basée sur l’optimisation utilise une architecture populaire de réseau neuronal récurrent appelée réseaux de mémoire à long et à court terme (« long-short term memory » ou LSTM) pour entraîner un méta-apprenant à acquérir à la fois des connaissances à long terme partagées entre les tâches et des connaissances à court terme pour chaque tâche. Le méta-apprenant optimise ensuite le classificateur de réseau neuronal d’un autre apprenant. Il apprend à initialiser les paramètres de l’apprenant pour accélérer la convergence de l’entraînement et apprend comment les mettre à jour efficacement avec un petit ensemble d’entraînement, le but étant d’aider l’apprenant à s’adapter rapidement à de nouvelles tâches.7

Méta-apprentissage indépendant du modèle (« model-agnostic meta learning » ou MAML)

Comme son nom l’indique, cet algorithme de méta-apprentissage basé sur l’optimisation est indépendant du modèle. Il est donc compatible avec tout modèle entraîné avec la descente de gradient et convient à la résolution de divers problèmes d’apprentissage, tels que la classification, la régression et l’apprentissage par renforcement.8

L’idée centrale derrière le MAML est d’entraîner les paramètres initiaux du modèle de manière à ce que quelques mises à jour du gradient entraînent un apprentissage rapide sur une nouvelle tâche. L’objectif est de déterminer les paramètres du modèle qui sont sensibles aux changements dans une tâche, de sorte que des modifications mineures de ces paramètres entraînent des améliorations majeures de la fonction de perte de cette tâche. La métaoptimisation entre les tâches est effectuée à l’aide de la descente de gradient stochastique (« stochastic gradient descent»  ou SGD).8

Contrairement à la descente de gradient, qui calcule des dérivées pour optimiser les paramètres d’un modèle pour une certaine tâche, le MAML calcule des dérivées secondes pour optimiser les paramètres initiaux d’un modèle pour une optimisation spécifique à une tâche. Une version modifiée du méta-apprentissage indépendant du modèle, connue sous le nom de MAML de premier ordre ou FOMAML (« first-order model-agnostic meta learning »), omet les dérivées secondaires pour un processus de calcul moins coûteux.8

Reptile

Reptile est un algorithme de méta-apprentissage basé sur les gradients de premier ordre, similaire au FOMAML. Il échantillonne à plusieurs reprises une tâche, s’entraîne sur cette tâche à travers de nombreuses étapes de descente de gradient et déplace le poids du modèle vers les nouveaux paramètres.9

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Cas d’utilisation du méta-apprentissage dans le machine learning

Pour démontrer davantage la polyvalence du méta-apprentissage, voici quelques façons dont celui-ci peut être utilisé dans le domaine du machine learning lui-même :

Machine learning automatisé (AutoML)

Le machine learning automatisé (AutoML) permet d’automatiser les tâches dans le pipeline de machine learning. Les techniques de méta-apprentissage sont bien adaptées à l’AutoML, en particulier lorsqu’il s’agit d’optimisation des hyperparamètres et de sélection de modèles.

Le réglage fin des hyperparamètres pour les modèles de machine learning est généralement effectué manuellement. Les algorithmes de méta-apprentissage peuvent aider à automatiser cette procédure en apprenant à optimiser les hyperparamètres ou à identifier les hyperparamètres idéaux pour une tâche donnée.

Les algorithmes de méta-apprentissage peuvent également apprendre à choisir le modèle le plus approprié (y compris les paramètres et l’architecture de ce modèle) pour résoudre une tâche spécifique. Cela permet d’automatiser le processus de sélection des modèles.

Apprentissage few-shot

L’apprentissage « few-shot » est un framework de machine learning qui entraîne un modèle d’IA sur un petit nombre d’exemples. La plupart des méthodes d’apprentissage few-shot sont basées sur le méta-apprentissage, où les modèles s’adaptent à de nouvelles tâches avec une quantité limitée de données d’entraînement.

Moteurs de recommandation

Un moteur de recommandation s’appuie sur des algorithmes de machine learning pour identifier des schémas dans les données comportementales des utilisateurs et recommander des éléments pertinents en fonction de ces tendances. Les systèmes de méta-apprentissage peuvent apprendre des modèles de recommandation pour générer des suggestions plus précises et plus pertinentes qui permettent de mieux personnaliser les expériences des utilisateurs.

Apprentissage par transfert

Le méta-apprentissage peut aider à faciliter l’apprentissage par transfert, qui adapte un modèle pré-entraîné pour apprendre de nouvelles tâches ou des classes de données inédites.

Applications du méta-apprentissage

Le méta-apprentissage peut être appliqué à différents domaines du secteur de la technologie, notamment :

Vision par ordinateur

Le méta-apprentissage peut être utilisé pour les tâches de vision par ordinateur, qui incluent notamment la reconnaissance faciale, la classification des images, la segmentation des images, et la détection et le suivi d’objets.

Traitement du langage naturel

Le méta-apprentissage peut être utilisé pour des tâches de traitement automatique du langage naturel comme la modélisation du langage, la classification des sentiments, la reconnaissance vocale et la classification de texte.10

Robotique

Le méta-apprentissage peut aider les robots à apprendre rapidement de nouvelles tâches et à s’adapter à des environnements dynamiques. Il peut être appliqué à un certain nombre de tâches telles que la saisie, la navigation, la manipulation et le mouvement.11

Avantages du méta-apprentissage

Le méta-apprentissage recèle un grand potentiel. Voici quelques-uns de ses avantages :

Capacité d’adaptation

Le méta-apprentissage peut être utilisé pour construire des modèles d’IA plus généralisés, capables d’apprendre à effectuer de nombreuses tâches connexes. Grâce à cette flexibilité, les systèmes de méta-apprentissage peuvent s’adapter rapidement à de nouvelles tâches et à des domaines différents.

Utilisation efficace des données

Le méta-apprentissage permet d’apprendre à partir de quelques échantillons seulement, ce qui peut potentiellement éliminer le besoin d’énormes volumes de jeux de données. Cela peut être particulièrement utile pour les domaines où la collecte et la préparation des données sont souvent laborieuses et chronophages.

Réduction du temps d’entraînement et des coûts de formation

Grâce à l’efficacité des données et à la rapidité d’apprentissage qu’il présente, le méta-apprentissage permet d’accélérer le processus de formation et de réduire les coûts.

Les défis du méta-apprentissage

Malgré ses nombreuses promesses, le méta-apprentissage présente également des défis. Voici certains d’entre eux :

Manque de données

Parfois, la quantité de données pour entraîner les modèles d’IA est insuffisante, en particulier pour des domaines de niche. Et même si les données sont disponibles, la qualité peut être insuffisante pour entraîner efficacement les algorithmes de méta-apprentissage.

Surajustement

Le fait de ne pas avoir suffisamment de variabilité entre les tâches dans l’ensemble de support pour le métaentraînement peut entraîner un surajustement. Cela signifie qu’un algorithme de méta-apprentissage peut n’être applicable qu’à des tâches spécifiques et ne pas pouvoir se généraliser efficacement à un large éventail de tâches.

Sous-ajustement

Inversement, une trop grande variabilité des tâches dans le jeu de support pour le méta-entraînement peut entraîner un sous-ajustement. Cela signifie qu’un algorithme de méta-apprentissage peut ne pas être en mesure d’utiliser ses connaissances pour résoudre une autre tâche et peut avoir des difficultés à s’adapter à de nouveaux scénarios. Il est donc essentiel de trouver un équilibre dans la variabilité des tâches.

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct