My IBM Se connecter S’abonner

Qu'est-ce que l'apprentissage auto-supervisé ?

5 décembre 2023

Auteurs

Dave Bergmann

Senior Writer, AI Models

IBM

Qu'est-ce que l'apprentissage auto-supervisé ?

L’apprentissage auto-supervisé est une technique de machine learning qui utilise l’apprentissage non supervisé pour des tâches qui, habituellement, nécessitent un apprentissage supervisé. Au lieu de s’appuyer sur des jeux de données étiquetés pour les signaux de supervision, les modèles auto-supervisés génèrent des étiquettes implicites à partir de données non structurées.

L’apprentissage auto-supervisé (ou SSL) est particulièrement utile dans des domaines tels que la vision par ordinateur et le traitement automatique du langage naturel (NLP), qui demandent de grandes quantités de données étiquetées pour entraîner des modèles d’intelligence artificielle (IA) de pointe. Mais comme ces jeux de données étiquetés nécessitent une annotation fastidieuse par des experts humains, une collecte de données suffisante peut s’avérer extrêmement difficile. Les approches auto-supervisées peuvent être plus rapides et plus rentables, car elles remplacent une partie ou la totalité de l’étiquetage manuel des données d’entraînement.

Pour former un modèle d'apprentissage profond à des tâches qui exigent de la précision, comme la classification ou la régression, il faut pouvoir comparer les prévisions livrées par le modèle pour une entrée aux prédictions dites « correctes » – ce qu'on appelle généralement la « vérité terrain ». Traditionnellement, les données d'apprentissage étiquetées manuellement servent de vérité terrain : car cette méthode nécessite une intervention humaine directe, on parle dans ce cas d'apprentissage « supervisé ». Dans l'apprentissage auto-supervisé, les tâches sont conçues de sorte que la « vérité terrain » puisse être déduite à partir de données non étiquetées.

Dans le SSL, les tâches se divisent en deux catégories : les tâches de prétexte et les tâches en aval. Dans une tâche de prétexte, le SSL est utilisé pour former un système d'IA afin d'apprendre des représentations significatives de données non structurées. Ces représentations apprises peuvent ensuite être utilisées comme entrées pour une tâche en aval, comme une tâche d'apprentissage supervisé ou une tâche d'apprentissage par renforcement. La réutilisation d'un modèle pré-entraîné sur une nouvelle tâche est appelée « apprentissage par transfert ».

L’apprentissage auto-supervisé est utilisé dans l’entraînement d’un large éventail d’architectures d’apprentissage profond sophistiquées pour une variété de tâches. Cela va des grands modèles de langage (LLM) basés sur des transformeurs comme BERT et GPT aux modèles de synthèse d’images, tels les auto-encodeurs variationnels (VAE) et les réseaux antagonistes génératifs (GAN), en passant par les modèles de vision par ordinateur comme SimCLR et Momentum Contrast (MoCo).

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Apprentissage auto-supervisé vs apprentissage supervisé vs apprentissage non supervisé

Bien que l'apprentissage auto-supervisé soit techniquement une branche de l'apprentissage non supervisé (car il ne nécessite pas de jeux de données étiquetés), il est étroitement lié à l'apprentissage supervisé, dans le sens où il optimise les performances par rapport à la vérité terrain.

Cette adéquation imparfaite avec les deux paradigmes conventionnels de l'apprentissage automatique a conduit à ce que les diverses techniques aujourd'hui regroupées dans l'« apprentissage auto-supervisé » reçoivent leur propre catégorisation.

L'invention du terme est souvent attribuée à Yann LeCun, informaticien lauréat du prix Turing et figure clé de l'avènement de l'apprentissage profond,1 qui a déclaré qu'il était nécessaire de dissocier le SSL de l'apprentissage véritablement non supervisé (un « terme à la fois orienté et confus » selon lui).2 Son nom (et son concept formel) peuvent trouver leurs origines dans un article publié en 2007 par Raina et al., intitulé Self-taught learning: Transfer learning from unlabeled data.3 Certains cadres du machine learning aujourd'hui considérés comme du SSL, par exemple les auto-encodeurs, sont antérieurs de plusieurs années à l'existence du terme lui-même.

Apprentissage auto-supervisé vs apprentissage non supervisé

L'apprentissage auto-supervisé est un sous-ensemble de l'apprentissage non supervisé : toutes les techniques d'apprentissage auto-supervisées sont de l'apprentissage non supervisé, mais la majeure partie de l'apprentissage non supervisé n'implique pas d'auto-supervision.

Ni l’apprentissage non supervisé ni l’apprentissage auto-supervisé n’utilisent d’étiquettes au cours du processus d’entraînement : les deux méthodes apprennent des schémas et des corrélations intrinsèques présents dans les données non étiquetées, et non des corrélations imposées de manière externe provenant de jeux de données annotés. Exception faite de ce point commun, les différences entre l’apprentissage auto-supervisé et l’apprentissage non supervisé reflètent en grande partie les différences entre l’apprentissage non supervisé et l’apprentissage supervisé.

L’apprentissage non supervisé conventionnel ne mesure pas les résultats par rapport à une vérité terrain déjà connue. Par exemple, un modèle d’association non supervisé peut alimenter un moteur de recommandations pour l’e-commerce en identifiant les produits fréquemment achetés ensemble. L’utilité du modèle n’est pas dérivée de la réplication de prédictions humaines, mais de la découverte de corrélations non apparentes pour les observateurs humains.

L’apprentissage auto-supervisé mesure les résultats par rapport à une vérité terrain, mais cette vérité est implicitement dérivée de données d’apprentissage non étiquetées. Comme les modèles supervisés, les modèles auto-supervisés sont optimisés à l’aide d’une fonction de perte, autrement dit un algorithme mesurant la divergence (« perte ») entre la vérité terrain et les prédictions du modèle. Lors de l’entraînement, les modèles auto-supervisés utilisent la descente de gradient au moment de la rétropropagation pour ajuster les poids du modèle de façon à minimiser la perte (et ainsi améliorer la précision).

En raison de cette distinction essentielle, les deux méthodes se concentrent sur différents cas d'utilisation : les modèles non supervisés sont utilisés pour des tâches comme le partitionnement, la détection des anomalies et la réduction de dimensionnalité (qui ne nécessitent pas de fonction de perte), tandis que les modèles auto-supervisés sont utilisés pour la classification et la régression.

Apprentissage auto-supervisé vs apprentissage supervisé

Bien que l'apprentissage supervisé et auto-supervisé soient largement utilisés pour les mêmes types de tâches et que les deux nécessitent une vérité terrain pour optimiser les performances via une fonction de perte, les modèles auto-supervisés suivent un entraînement sur des données non étiquetées, tandis que l'apprentissage supervisé nécessite des jeux de données.

Les jeux de données étiquetés sont très efficaces dans l'entraînement de modèles : l'annotation des données permet à un modèle d'apprendre directement les caractéristiques clés et de corréler ces annotations. En minimisant la divergence entre les prédictions livrées par le modèle et les « prédictions » annotées des experts humains durant l'entraînement, les modèles supervisés apprennent ainsi à créer des inférences correctes sur de nouvelles données d'entrée (non étiquetées).

Bien que les approches supervisées de pointe puissent produire une grande précision, annoter de grandes quantités de ressources d’entraînement crée souvent un goulot d’étranglement dans le processus de recherche. Par exemple, dans la vision par ordinateur, pour les tâches qui nécessitent des prédictions par pixel, comme la segmentation d’instances, l’annotation des données d’apprentissage doit se faire au niveau du pixel. Cette démarche est coûteuse et chronophage, et elle limite la quantité de données d’apprentissage disponibles et restreint leur découverte pour la plupart des entreprises et des chercheurs.

En revanche, les modèles auto-supervisés utilisent diverses techniques pour tirer des signaux de supervision de la structure des données d'entrée elles-mêmes, éliminant ainsi complètement la nécessité des étiquettes. Par exemple, si on masque de manière aléatoire des parties d'une phrase et qu'on demande à un modèle auto-supervisé de prédire les mots cachés, il utilisera la phrase originale (non étiquetée) comme vérité terrain.

Apprentissage auto-supervisé vs semi-supervisé

Contrairement à l'apprentissage auto-supervisé, qui n'intègre pas de données étiquetées par l'homme, l'apprentissage semi-supervisé emploie à la fois des données étiquetées et non étiquetées pour entraîner des modèles. Par exemple, un modèle semi-supervisé peut utiliser une petite quantité de points de données étiquetés pour déduire les étiquettes pour tout le reste d'un ensemble de données d'entraînement, puis ensuite l'utiliser en entier pour l'apprentissage supervisé. Bien que leurs motivations soient similaires, au sens où ces deux approches éliminent la nécessité de grands ensembles étiquetés dans l'apprentissage supervisé, leurs méthodologies respectives sont différentes.

Groupe d’experts | Podcast

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l'actualité et des dernières tendances dans le domaine de l’IA.

Comment fonctionne l'apprentissage auto-supervisé ?

Dans l'apprentissage auto-supervisé, les tâches sont conçues de façon à ce qu'une fonction de perte puisse utiliser des données d'entrée non étiquetées comme vérité terrain. Cela permet au modèle de tirer des représentations précises et significatives de données d'entrée sans étiquettes ni annotations.

L'objectif de l'apprentissage auto-supervisé est de minimiser ou d'éliminer en totalité les données étiquetées, qui sont relativement rares et coûteuses. En revanche, les données non étiquetées sont abondantes et plutôt bon marché. En soi, les tâches de prétexte génèrent des « pseudo-étiquettes » à partir de données non étiquetées. Le terme « prétexte » implique que la tâche d'entraînement n'est pas (nécessairement) utile à elle-même : elle est uniquement utile car elle enseigne aux modèles les représentations de données qui seront utiles aux fins des tâches en aval suivantes. C'est pourquoi on parle souvent d'apprentissage des représentations pour qualifier les tâches de prétexte.

Les modèles pré-entraînés avec le SSL sont souvent affinés pour leurs tâches spécifiques en aval : cela nécessite souvent un véritable apprentissage supervisé (mais avec une fraction des données étiquetées requises pour former un modèle par apprentissage supervisé uniquement).

Si l'apprentissage auto-supervisé est varié dans sa méthodologie et ses cas d'utilisation, les modèles entraînés via SSL utilisent soit l'apprentissage auto-prédictif, soit l'apprentissage contrastif, ou les deux à la fois.

Apprentissage auto-prédictif

Les méthodes d'auto-prévision entraînent un modèle pour prédire une partie d'un échantillon de données individuel, compte tenu des informations sur ses autres parties. On peut aussi parfois parler d'apprentissage auto-supervisé auto-associatif. Les modèles entraînés avec ces méthodes sont généralement des modèles génératifs (plutôt que discriminatifs).

De l'avis de Yann LeCun, les méthodes auto-supervisées sont une pratique structurée qui a pour finalité de « combler les trous ». Il va même plus loin et décrit ce processus d'apprentissage basé sur des représentations significatives tirées de la structure sous-jacente de données non étiquetées en termes simples : « c'est un peu comme si on cachait une partie d'un élément et qu'on vous demandait de la prédire ». 4 Par exemple :

  • Prédire toute partie d'une entrée à partir d'une autre partie
  • Prédire le futur à partir du passé
  • Prédire ce qui est masqué à partir du contenu visible
  • Prédire toute partie obstruée à partir des parties disponibles

Les systèmes auto-supervisés basés sur ces philosophies utilisent souvent des architectures de modèle et des techniques d’entraînement particulières.

Auto-encodeurs

Les auto-encodeurs sont des réseaux neuronaux entraînés pour compresser (ou encoder) les données d’entrée puis reconstruire (ou décoder) l’entrée d’origine à partir de cette représentation compressée. Ils sont entraînés pour minimiser les erreurs de reconstruction, utilisant l’entrée d’origine elle-même comme vérité terrain.

Si les architectures des auto-encodeurs varient, elles intègrent généralement une forme de goulot d’étranglement : à mesure que les données traversent le réseau encodeur, la capacité de données de chaque couche est réduite progressivement. Cela force le réseau à uniquement apprendre les schémas les plus importants cachés dans les données d’entrée (appelés variables latentes ou espace latent) de sorte que le réseau décodeur puisse reconstruire avec précision l’entrée d’origine, même s’il a désormais moins d’informations.

Les modifications apportées à ce framework de base permettent aux auto-encodeurs d'apprendre des fonctionnalités et des fonctions utiles.

  • Les auto-encodeurs débruiteurs reçoivent des données d’entrée en partie corrompues et sont entraînés à restaurer l’entrée d’origine en supprimant les informations inutiles (ce qu’on appelle le bruit). Cela réduit le phénomène de surajustement et rend ces modèles utiles pour les tâches telles que la restauration des images et des données audio corrompues en entrée.
  • Si la plupart des auto-encodeurs encodent des modèles discrets d’espace latent, les auto-encodeurs variationnels (VAE) emploient quant à eux des modèles continus d’espace latent dans l’apprentissage. En encodant des représentations latentes des données d’entrée sous forme de distribution de probabilité, le décodeur peut générer de nouvelles données grâce à l’échantillonnage d’un vecteur aléatoire dans cette distribution.
     

Autorégression

Les modèles autorégressifs prédisent les comportements futurs sur la base des comportements passés. Ils fonctionnent selon la logique qui veut que toutes les données présentant un ordre séquentiel inné, comme le langage, l’audio ou la vidéo, puissent être modélisées par régression.

Les algorithmes d’autorégression modélisent des séries temporelles en utilisant la valeur du ou des intervalles temporels précédents pour prédire la valeur de l’intervalle temporel suivant. Contrairement aux algorithmes de régression conventionnels, comme ceux utilisés pour la régression linéaire, où des variables indépendantes sont utilisées pour prédire une valeur cible (ou une variable dépendante), dans l’autorégression, variable indépendante et variable dépendante ne font qu’un : on parle justement d’autorégression car la régression est effectuée sur la variable elle-même.

L’autorégression est largement utilisée dans les modèles de langage causaux, comme les LLM de type GPT, LLaMa et Claude, qui excellent dans les tâches telles que la génération de texte et la réponse aux questions. Lors du préentraînement, les modèles de langage reçoivent des exemples de début de phrase provenant de données non étiquetées et sont chargés de prédire le prochain mot. Dans ce cas, c’est le mot suivant « réel » dans la phrase d’exemple qui sert de vérité terrain.

Masquage

Une autre méthode d’apprentissage auto-supervisé consiste à cacher certaines parties d’un échantillon de données non étiqueté et à demander aux modèles de prédire ou de reconstituer les informations manquantes. Les fonctions de perte utilisent l’entrée d'origine (avant masquage) comme vérité terrain. Par exemple, les auto-encodeurs masqués fonctionnent à l’inverse des auto-encodeurs débruiteurs : ils apprennent à prédire et à restaurer les informations manquantes (et non à supprimer les informations superflues).

Le masquage est aussi utilisé pour entraîner les modèles de langage masqué : des mots aléatoires sont omis des exemples de phrases et les modèles s’exercent à les remplir. Si les modèles de langage masqué comme BERT (et les nombreux modèles dérivés de son architecture, comme BART et RoBERTa) sont souvent moins aptes à générer du texte que les modèles autorégressifs, ils ont l’avantage d’être bidirectionnels : ils peuvent prédire le mot suivant, mais aussi les mots précédents et les mots apparaissant plus tard dans une séquence. Cela en fait des outils bien adaptés aux tâches nécessitant une solide compréhension du contexte, comme la traduction, le résumé et la recherche.

Prédiction des relations innées

La prédiction des relations innées entraîne un modèle à maintenir sa compréhension d’un échantillon de données après son altération. Par exemple, en faisant pivoter une image d’entrée et en demandant à un modèle de prédire le degré de changement et la direction de rotation par rapport à l’entrée d’origine.5

Apprentissage contrastif

Les méthodes d'apprentissage auto-supervisé contrastives fournissent aux modèles plusieurs échantillons de données et leur demandent de prédire la relation entre eux. Les modèles entraînés avec ces méthodes sont généralement des modèles discriminatifs (plutôt que génératifs).

Les modèles contrastifs opèrent généralement avec des paires données-données pour l’entraînement, tandis que les modèles auto-associatifs sont basés sur des paires données-étiquettes (dans lesquelles l’étiquette est autogénérée à partir des données). À l’aide de ces paires données-données, les méthodes contrastives entraînent des modèles à faire la distinction entre des éléments semblables et dissemblables.

Ces paires sont souvent créées via augmentation des données : l’application de différents types de transformations ou de perturbations aux données non étiquetées pour générer de nouvelles instances ou vues augmentées. Par exemple, les techniques d’augmentation courantes des données d’image comprennent la rotation, le rognage aléatoire, le retournement, le bruitage, le filtrage et les colorisations. L’augmentation des données élargit leur variabilité et expose le modèle à différentes perspectives, ce qui permet de s’assurer qu’il apprend à capturer des représentations sémantiques dynamiques et pourvues de sens.

Discrimination d’instance

Les modèles basés sur la discrimination d’instance organisent l’entraînement en une série de tâches de classification binaire : à partir d’un échantillon de données servant de cible (appelé « ancre »), d’autres échantillons de données sont identifiés comme « positifs » (correspondance) ou « négatif » (absence de correspondance).

En vision par ordinateur, les méthodes de ce type, comme SimCLR ou MOCO, utilisent généralement un lot d’images brutes non étiquetées en entrée et lui appliquent une combinaison aléatoire de transformations pour générer des paires (ou des ensembles) d’échantillons d’images augmentées. Ces images augmentées sont ensuite encodées dans une représentation vectorielle, et une fonction de perte contrastive est utilisée pour minimiser la différence de représentation vectorielle entre les correspondances positives (les paires d’images augmentées dérivées de la même image d’origine) et maximiser la différence entre les correspondances négatives.

Les méthodes basées sur la discrimination d’instance entraînent ainsi les modèles à discerner des représentations de différentes catégories qui, grâce à des augmentations de données aléatoires, gèrent très bien les variations anodines (comme la couleur, la perspective ou les parties visibles d’une image). Ces représentations se généralisent donc très bien aux tâches en aval.

Apprentissage non contrastif

De manière quelque peu contre-intuitive, ce terme désigne une méthode étroitement liée à l’apprentissage contrastif (et non pas un terme désignant toutes les méthodes qui s’y opposent, contrairement à ce que l’on pourrait penser). Ces modèles sont entraînés en utilisant uniquement des paires positives pour apprendre à minimiser la différence entre leurs représentations (d’où la notion de non­ contrastif).

Comparées à l'apprentissage contrastif, les approches non contrastives sont relativement simples : comme elles se limitent aux échantillons positifs, elles utilisent des lots plus petits pour les époques d'entraînement et n'ont pas besoin d'une banque pour stocker les échantillons négatifs. Cela génère des gains de mémoire et de coûts de calcul durant la phase de pré-entraînement.

Les modèles non contrastifs comme Bootstrap Your Own Latent (BYOL)6 et Barlow Twins7 obtiennent des résultats faisant jeu égal avec les modèles contrastifs et purement supervisés.

Apprentissage multimodal

Lorsqu’on leur donne des points de données de différents types (ce que l’on appelle les « modalités »), les méthodes contrastives peuvent apprendre à établir des correspondances entre ces modalités. Par exemple, l’outil CLIP (Contrastive Language-Image Pre-training) entraîne conjointement un encodeur d’image et un encodeur de texte pour prédire la légende correspondant à chaque image, en utilisant des millions de paires non étiquetées (image, texte) facilement collectées sur Internet. Après l’entraînement initial, le traitement automatique du langage naturel est utilisé pour référencer les concepts visuels appris (ou même pour décrire de nouveaux concepts visuels), ce qui rend les modèles entraînés via CLIP très utiles pour un large éventail d’applications de l’apprentissage par transfert.

L’apprentissage contrastif est également utilisé pour apprendre à discerner les alignements entre la vidéo et le texte,8 la vidéo et l’audio,9 et la parole et le texte.10

Cas d'utilisation de l'apprentissage auto-supervisé

L'apprentissage auto-supervisé est utilisé pour former des modèles d'IA à un large éventail de tâches et de disciplines.

Apprentissage auto-supervisé pour le NLP

  • Dans les 12 mois suivant son lancement en 2018, le modèle de langage masqué BERT a été déployé par Google comme moteur NLP pour le classement et l'affichage des snippets.11 À ce jour, en 2023, Google continue à utiliser l'architecture BERT pour alimenter ses outils de recherche.12
  • Les LLM de type LLaMa, GPT et Claude sont des modèles de langage autorégressifs. GPT3 a été principalement entraîné par apprentissage auto-supervisé. InstructGPT, et les modèles GPT-3.5 suivants utilisés au lancement de ChatGPT, ont été développés par affinement des modèles préentraînés via apprentissage par renforcement à partir des commentaires humains (RLHF).
  • Les modèles auto-régressifs sont aussi utilisés pour des tâches de NLP audio telles que la reconnaissance vocale, ainsi que pour des modèles de synthèse vocale tels que WaveNet.13 Facebook (Meta) emploie wav2vec pour la reconnaissance vocale, utilisant deux réseaux neuronaux convolutifs profonds empilés pour rapprocher l’entrée audio brute d'une représentation vectorielle. Dans le pré-entraînement auto-supervisé, ces vecteurs sont utilisés comme entrées pour les tâches d'auto-prévision.14

Apprentissage auto-supervisé pour la vision par ordinateur

  • L'apprentissage auto-supervisé forme une branche en pleine évolution des techniques d'apprentissage profond utilisées pour l'imagerie médicale, un domaine où les images annotées par des experts sont relativement rares. Dans PubMed, Scopus et ArXiv, les publications faisant référence à l'utilisation du SSL pour la classification d'images médicales ont été multipliées par plus de 1 000 % entre 2019 et 2021.15
  • Les méthodes basées sur SSL égalent (voire dépassent) souvent la précision des modèles entraînés de façon entièrement supervisée. Par exemple, le modèle MoCo original s’est montré plus performant que les modèles supervisés sur sept tâches de détection d’objets et de segmentation d’images avec les jeux de données PASCAL, VOC et COCO.16 Avec un réglage fin basé sur des données étiquetées pour seulement 1 % des données d’apprentissage, les modèles préentraînés via SSL sont parvenus à une précision de plus de 80 % sur le jeu de données ImageNet. Ces résultats rivalisent avec les performances des modèles d’apprentissage supervisé de référence comme ResNet50.
  • Pouvoir maintenir une détection d'objets et une segmentation d'images justes même en cas de modification de l'orientation d'un élément est essentiel dans de nombreuses tâches robotiques. L'apprentissage auto-supervisé a été suggéré comme moyen efficace pour entraîner les modèles de vision par ordinateur à discerner les rotations sans collecte fastidieuse de données étiquetées.17 18
  • Le masquage a été utilisé pour entraîner des modèles sur la trajectoire des mouvements dans les vidéos.19

Apprentissage auto-supervisé pour le traitement et la synthèse des images

  • Les auto-encodeurs débruiteurs sont un élément clé dans l'entraînement de certains modèles de synthèse d'images de pointe, comme Stable Diffusion.20
  • La modélisation auto-régressive a été utilisée pour la synthèse d'images dans des modèles tels que PixelRNN et PixelCNN, ce dernier devenant grâce à son succès la base de WaveNet.
  • Les auto-encodeurs convolutifs sont utilisés pour une variété de tâches de traitement d'image, telles que l'incrustation et la colorisation des images en nuances de gris.
  • Les auto-encodeurs variationnels (VAE) constituent un outil important pour la synthèse d'images. Le premier modèle DALL-E d'OpenAI a utilisé un VAE pour générer ses images. DALL-E 1 et DALL-E 2 utilisent tous deux CLIP pour traduire les prompts en langage naturel en informations visuelles.21
Solutions connexes

Solutions connexes

IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct
Notes de bas de page

1 « Fathers of the Deep Learning Revolution Receive ACM A.M. Turing Award », Association for Computing Machinery, 27 mars 2019
2 Facebook, Yann LeCun, 30 avril 2019
3 « Self-taught learning: transfer learning from unlabeled data », Proceedings of the 24th international conference on machine learning, 20 juin 2007
4 Lecture: Energy based models and self-supervised learning, YouTube, importée en 2020
5 « Learning to see by moving », arXiv, 14 septembre 2015
6 « Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning », arXiv, 10 septembre 2020
7 « Barlow Twins: Self-Supervised Learning via Redunancy Reduction », arXiv, 14 juin 2021
8 « VideoCLIP: Contrastive Pre-Training for Zero-shot Video-Text Understanding », arXiv, 1er octobre 2021
9 « Active Contrasting Learning of Audio-Visual Video Representations », Proceedings of the International Conference on Learning Representations, 2021
10 « Cross-modal Contrastive Learning for Speech Translation », arXiv, 5 mai 2022
11 « Understanding searches better than ever before », Google, 25 octobre 2019
12 « End-to-End Query Term Weighting », Google, 2023
13 « WaveNet: A Generative Model for Raw Audio », arXiv, 19 septembre 2016
14 « Wave2vec: State-of-the-art speech recognition through self-supervision », Meta, 19 septembre 2019
15 « Self-supervised learning for medical image classification: a systematic review and implementation guidelines », Nature, 26 avril 2023
16 « Momentum Contrast for Unsupervised Visual Representation Learning », arXiv, 13 novembre 2019 (dernière révision le 23 mars 2020)
17 « Deep Projective Rotation Estimation through Relative Supervision », arXiv, 21 novembre 2022
18 « Orienting Novel 3D Objects Using Self-Supervised Learning of Rotation Transforms », arXiv, 29 mai 2021
19 « Masked Motion Encoding for Self-Supervised Video Representation Learning », The Computer Vision Foundation, octobre 2022
20 « High-Resolution Image Synthesis with Latent Diffusion Models », arXiv, 20 décembre 2021 (dernière révision le 13 avril 2022)
21 « DALL-E: Creating images from text », OpenAI, 5 janvier 2021