Accueil les sujets Apprentissage auto-supervisé Qu'est-ce que l'apprentissage auto-supervisé ?
Découvrir IBM watsonx.ai
Illustration du big data et de la science des données

Publication : 5 décembre 2023
Contributeurs : Dave Bergmann

Qu'est-ce que l'apprentissage auto-supervisé ?

L'apprentissage auto-supervisé est une technique de machine learning qui utilise l'apprentissage non supervisé pour des tâches qui, habituellement, nécessitent un apprentissage supervisé. Au lieu de s'appuyer sur des jeux de données étiquetés pour les signaux de supervision, les modèles auto-supervisés génèrent des étiquettes implicites à partir de données non structurées.

L’apprentissage auto-supervisé (ou SSL) est particulièrement utile dans des domaines tels que la vision par ordinateur et le traitement automatique du langage naturel (NLP), qui demandent de grandes quantités de données étiquetées pour former des modèles d’intelligence artificielle (IA) de pointe. Mais comme ces ensembles de données étiquetés nécessitent une annotation fastidieuse par des experts humains, une collecte de données suffisante peut s’avérer extrêmement difficile. Les approches auto-supervisées peuvent être plus rapides et plus rentables, car elles remplacent une partie ou la totalité de l’étiquetage manuel des données d’entraînement.

Pour former un modèle d'apprentissage profond à des tâches qui exigent de la précision, comme la classification ou la régression, il faut pouvoir comparer les prévisions livrées par le modèle pour une entrée aux prédictions dites « correctes » – ce qu'on appelle généralement la « vérité terrain ». Traditionnellement, les données d'apprentissage étiquetées manuellement servent de vérité terrain : car cette méthode nécessite une intervention humaine directe, on parle dans ce cas d'apprentissage « supervisé ». Dans l'apprentissage auto-supervisé, les tâches sont conçues de sorte que la « vérité terrain » puisse être déduite à partir de données non étiquetées.

Dans le SSL, les tâches se divisent en deux catégories : les tâches de prétexte et les tâches en aval. Dans une tâche de prétexte, le SSL est utilisé pour former un système d'IA afin d'apprendre des représentations significatives de données non structurées. Ces représentations apprises peuvent ensuite être utilisées comme entrées pour une tâche en aval, comme une tâche d'apprentissage supervisé ou une tâche d'apprentissage par renforcement. La réutilisation d'un modèle pré-entraîné sur une nouvelle tâche est appelée « apprentissage par transfert ».

L'apprentissage auto-supervisé est utilisé dans l'entraînement d'un large éventail d'architectures d'apprentissage profond sophistiquées pour une variété de tâches. Cela va des grands modèles de langage (LLM) basés sur des transformeurs comme BERT et GPT aux modèles de synthèse d'image, tels les auto-encodeurs variationnels (VAE) et les réseaux antagonistes génératifs (GAN), en passant par les modèles de vision par ordinateur comme SimCLR et Momentum Contrast (MoCo).

Suivre la visite guidée d’IBM watsonx.ai

Un studio d’IA nouvelle génération destiné aux entreprises qui permet aux générateurs d’IA puissent entraîner, valider, ajuster et déployer des modèles d’intelligence artificielle est désormais disponible.

Contenu connexe

Abonnez-vous aux newsletters d'IBM

Apprentissage auto-supervisé vs apprentissage supervisé vs apprentissage non supervisé

Bien que l'apprentissage auto-supervisé soit techniquement une branche de l'apprentissage non supervisé (car il ne nécessite pas de jeux de données étiquetés), il est étroitement lié à l'apprentissage supervisé, dans le sens où il optimise les performances par rapport à la vérité terrain.

Cette adéquation imparfaite avec les deux paradigmes conventionnels de l'apprentissage automatique a conduit à ce que les diverses techniques aujourd'hui regroupées dans l'« apprentissage auto-supervisé » reçoivent leur propre catégorisation.

L'invention du terme est souvent attribuée à Yann LeCun, informaticien lauréat du prix Turing et figure clé de l'avènement de l'apprentissage profond,1 qui a déclaré qu'il était nécessaire de dissocier le SSL de l'apprentissage véritablement non supervisé (un « terme à la fois orienté et confus » selon lui).2 Son nom (et son concept formel) peuvent trouver leurs origines dans un article publié en 2007 par Raina et al., intitulé Self-taught learning: Transfer learning from unlabeled data.3 Certains cadres du machine learning aujourd'hui considérés comme du SSL, par exemple les auto-encodeurs, sont antérieurs de plusieurs années à l'existence du terme lui-même.

Apprentissage auto-supervisé vs apprentissage non supervisé

L'apprentissage auto-supervisé est un sous-ensemble de l'apprentissage non supervisé : toutes les techniques d'apprentissage auto-supervisées sont de l'apprentissage non supervisé, mais la majeure partie de l'apprentissage non supervisé n'implique pas d'auto-supervision.

Ni l'apprentissage non supervisé ni auto-supervisé n'utilisent d'étiquettes au cours du processus d'entraînement : les deux méthodes apprennent des modèles et des corrélations intrinsèques présentes dans les données non étiquetées, et non de corrélations imposées externes provenant de jeux de données annotés. Exception faite de ce point commun, les différences entre l'apprentissage auto-supervisé et non supervisé reflètent en grande partie les différences entre l'apprentissage non supervisé et l'apprentissage supervisé.

L'apprentissage non supervisé conventionnel ne mesure pas les résultats par rapport à une vérité terrain déjà connue. Par exemple, un modèle d'association non supervisé peut alimenter un moteur de recommandations pour l'e-commerce en identifiant les produits fréquemment achetés ensemble. L'utilité du modèle n'est pas dérivée de la réplication de prédictions humaines, mais de la découverte de corrélations non apparentes pour les observateurs humains.

L'apprentissage auto-supervisé mesure les résultats par rapport à une vérité terrain, mais cette vérité est implicitement dérivée de données d'apprentissage non étiquetées. Comme les modèles supervisés, les modèles auto-supervisés sont optimisés à l'aide d'une fonction de perte, autrement dit un algorithme mesurant la divergence (« perte ») entre la vérité terrain et les prédictions du modèle. Lors de l'entraînement, les modèles auto-supervisés utilisent la descente de gradient au moment de la rétropropagation pour ajuster les pondérations de modèle de façon à minimiser la perte (et ainsi améliorer la précision).

En raison de cette distinction essentielle, les deux méthodes se concentrent sur différents cas d'utilisation : les modèles non supervisés sont utilisés pour des tâches comme le partitionnement, la détection des anomalies et la réduction de dimensionnalité (qui ne nécessitent pas de fonction de perte), tandis que les modèles auto-supervisés sont utilisés pour la classification et la régression.

Apprentissage auto-supervisé vs apprentissage supervisé

Bien que l'apprentissage supervisé et auto-supervisé soient largement utilisés pour les mêmes types de tâches et que les deux nécessitent une vérité terrain pour optimiser les performances via une fonction de perte, les modèles auto-supervisés suivent un entraînement sur des données non étiquetées, tandis que l'apprentissage supervisé nécessite des jeux de données.

Les jeux de données étiquetés sont très efficaces dans l'entraînement de modèles : l'annotation des données permet à un modèle d'apprendre directement les caractéristiques clés et de corréler ces annotations. En minimisant la divergence entre les prédictions livrées par le modèle et les « prédictions » annotées des experts humains durant l'entraînement, les modèles supervisés apprennent ainsi à créer des inférences correctes sur de nouvelles données d'entrée (non étiquetées).

Bien que les approches supervisées de pointe puissent produire une grande précision, annoter de grandes quantités de ressources d'entraînement crée souvent un goulot d'étranglement dans le processus de recherche. Par exemple, dans la vision par ordinateur, pour les tâches qui nécessitent des prévisions spécifiques au pixel, comme la segmentation d'instances, l'annotation des données d'apprentissage doit se faire au niveau du pixel. Cela est coûteux et chronophage, ce qui à la fois limite la quantité de données d'entraînement disponibles et restreint leur découverte pour la plupart des entreprises et des chercheurs.

En revanche, les modèles auto-supervisés utilisent diverses techniques pour tirer des signaux de supervision de la structure des données d'entrée elles-mêmes, éliminant ainsi complètement la nécessité des étiquettes. Par exemple, si on masque de manière aléatoire des parties d'une phrase et qu'on demande à un modèle auto-supervisé de prédire les mots cachés, il utilisera la phrase originale (non étiquetée) comme vérité terrain.

Apprentissage auto-supervisé vs semi-supervisé

Contrairement à l'apprentissage auto-supervisé, qui n'intègre pas de données étiquetées par l'homme, l'apprentissage semi-supervisé emploie à la fois des données étiquetées et non étiquetées pour entraîner des modèles. Par exemple, un modèle semi-supervisé peut utiliser une petite quantité de points de données étiquetés pour déduire les étiquettes pour tout le reste d'un ensemble de données d'entraînement, puis ensuite l'utiliser en entier pour l'apprentissage supervisé. Bien que leurs motivations soient similaires, au sens où ces deux approches éliminent la nécessité de grands ensembles étiquetés dans l'apprentissage supervisé, leurs méthodologies respectives sont différentes.

Comment fonctionne l'apprentissage auto-supervisé ?

Dans l'apprentissage auto-supervisé, les tâches sont conçues de façon à ce qu'une fonction de perte puisse utiliser des données d'entrée non étiquetées comme vérité terrain. Cela permet au modèle de tirer des représentations précises et significatives de données d'entrée sans étiquettes ni annotations.

L'objectif de l'apprentissage auto-supervisé est de minimiser ou d'éliminer en totalité les données étiquetées, qui sont relativement rares et coûteuses. En revanche, les données non étiquetées sont abondantes et plutôt bon marché. En soi, les tâches de prétexte génèrent des « pseudo-étiquettes » à partir de données non étiquetées. Le terme « prétexte » implique que la tâche d'entraînement n'est pas (nécessairement) utile à elle-même : elle est uniquement utile car elle enseigne aux modèles les représentations de données qui seront utiles aux fins des tâches en aval suivantes. C'est pourquoi on parle souvent d'apprentissage des représentations pour qualifier les tâches de prétexte.

Les modèles pré-entraînés avec le SSL sont souvent affinés pour leurs tâches spécifiques en aval : cela nécessite souvent un véritable apprentissage supervisé (mais avec une fraction des données étiquetées requises pour former un modèle par apprentissage supervisé uniquement).

Si l'apprentissage auto-supervisé est varié dans sa méthodologie et ses cas d'utilisation, les modèles entraînés via SSL utilisent soit l'apprentissage auto-prédictif, soit l'apprentissage contrastif, ou les deux à la fois.

Apprentissage auto-prédictif

Les méthodes d'auto-prévision entraînent un modèle pour prédire une partie d'un échantillon de données individuel, compte tenu des informations sur ses autres parties. On peut aussi parfois parler d'apprentissage auto-supervisé auto-associatif. Les modèles entraînés avec ces méthodes sont généralement des modèles génératifs (plutôt que discriminatifs).

De l'avis de Yann LeCun, les méthodes auto-supervisées sont une pratique structurée qui a pour finalité de « combler les trous ». Il va même plus loin et décrit ce processus d'apprentissage basé sur des représentations significatives tirées de la structure sous-jacente de données non étiquetées en termes simples : « c'est un peu comme si on cachait une partie d'un élément et qu'on vous demandait de la prédire ». 4 Par exemple :

  • Prédire toute partie d'une entrée à partir d'une autre partie
  • Prédire le futur à partir du passé
  • Prédire ce qui est masqué à partir du contenu visible
  • Prédire toute partie obstruée à partir des parties disponibles

Les systèmes auto-supervisés basés sur ces philosophies utilisent souvent des architectures de modèle et des techniques d'entraînement particulières.
 

Auto-encodeurs
Un auto-encodeur est un réseau neuronal entraîné pour compresser (ou encoder) les données d'entrée et ensuite reconstruire (ou décoder) l'entrée d'origine depuis cette représentation compressée. Ils sont entraînés pour minimiser les erreurs de reconstruction, en utilisant l'entrée d'origine elle-même comme base de référence.

Si les architectures des auto-encodeurs varient, elles intègrent généralement une forme de goulot d'étranglement : à mesure que les données traversent le réseau encodeur, la capacité de données de chaque couche est réduite progressivement. Cela force le réseau à uniquement apprendre les modèles les plus importants qui sont cachés dans les données d'entrée (appelés variables latentes ou espace latent) de sorte que le réseau décodeur puisse reconstruire avec précision l'entrée d'origine, même s'il a désormais moins d'informations.

Les modifications apportées à ce framework de base permettent aux auto-encodeurs d'apprendre des fonctionnalités et des fonctions utiles.

  • Les auto-encodeurs débruiteurs reçoivent des données d’entrée en partie corrompues et sont entraînés à restaurer l’entrée d’origine en supprimant les informations inutiles (ce qu'on appelle le bruit). Cela réduit le surajustement et rend ces modèles utiles pour les tâches telles que la restauration des images et des données audio corrompues en entrée.
  • Si la plupart des auto-encodeurs encodent des modèles discrets d'espace latent, les auto-encodeurs variationnels (VAE) emploient quant à eux des modèles continus d'espace latent dans l'apprentissage. En encodant des représentations latentes des données d'entrée sous forme de distribution de probabilités, le décodeur peut générer de nouvelles données grâce à un échantillonnage aléatoire d'un vecteur parmi cette distribution.
     

Auto-régression
Les modèles auto-régressifs prédisent les comportements futurs sur la base des comportements passés. Ils fonctionnent selon la logique qui veut que toutes les données présentant un ordre séquentiel inné, comme le langage, l'audio ou la vidéo, puissent être modélisées par régression.

Les algorithmes d’auto-régression modélisent des séries chronologiques en utilisant la valeur du ou des intervalles temporels précédents pour prédire la valeur de l’intervalle temporel suivant. Contrairement aux algorithmes de régression conventionnels, comme ceux utilisés pour la régression linéaire, où des variables indépendantes sont utilisées pour prédire une valeur cible (ou une variable dépendante), dans l’auto-régression, variable indépendante et variable dépendante ne font qu'un : on parle justement d’auto-régression car la régression est effectuée sur la variable elle-même.

L'auto-régression est largement utilisée dans les modèles de langage causals, comme les LLM de type GPT, LLaMa et Claude, qui excellent dans les tâches telles que la génération de texte et la réponse aux questions. Lors de l'entraînement préliminaire, les modèles de langage reçoivent des exemples de début de phrase provenant de données non étiquetées et sont chargés de prédire le prochain mot. Dans ce cas, c'est le mot suivant "réel" dans la phrase d'exemple qui sert de vérité terrain.
 

Masquage
Une autre méthode d'apprentissage auto-supervisé consiste à cacher certaines parties d'un échantillon de données non étiqueté et à demander aux modèles de prédire ou de reconstituer les informations manquantes. Les fonctions de perte utilisent l'entrée d'origine (avant masquage) comme vérité terrain. Par exemple, les auto-encodeurs masqués effectuent l'exercice opposé des auto-encodeurs débruiteurs : ils apprennent à prédire et à restaurer les informations manquantes (et non à supprimer les informations superflues).

Le masquage est aussi utilisé pour entraîner les modèles de langage masqué : des mots aléatoires sont omis des exemples de phrases et les modèles s'exercent à les remplir. Si les modèles de langage masqué comme BERT (et les nombreux modèles dérivés de son architecture, comme BART et RoBERTa) sont souvent moins aptes à générer du texte que les modèles auto-régressifs, ils ont l’avantage d’être bidirectionnels : ils peuvent prédire le mot suivant, mais aussi des mots précédents et des mots venant plus tard dans une séquence. Cela les rend bien adaptés aux tâches nécessitant une solide compréhension contextuelle, comme la traduction, le résumé et la recherche.
 

Prédiction des relations innées
La prédiction des relations innées entraîne un modèle à maintenir sa compréhension d'un échantillon de données après son altération. Par exemple, en faisant pivoter une image d'entrée et en demandant à un modèle de prédire le degré de changement et la direction de rotation par rapport à l'entrée d'origine.5

Apprentissage contrastif

Les méthodes d'apprentissage auto-supervisé contrastives fournissent aux modèles plusieurs échantillons de données et leur demandent de prédire la relation entre eux. Les modèles entraînés avec ces méthodes sont généralement des modèles discriminatifs (plutôt que génératifs).

Les modèles contrastifs opèrent généralement avec des paires données-données pour l’entraînement, tandis que les modèles auto-associatifs sont basés sur des paires données-étiquettes (dans lesquelles l’étiquette est auto-générée à partir des données). À l’aide de ces paires données-données, les méthodes contrastives entraînent des modèles à faire la distinction entre des éléments semblables et dissemblables.   

Ces paires sont souvent créées via augmentation de données, où le but est d'appliquer différents types de transformations ou de version aux données non étiquetées pour générer de nouvelles instances ou vues augmentées. Par exemple, les techniques d'augmentation courantes pour les données d'image comprennent la rotation, le rognage aléatoire, le retournement, le bruitage, le filtrage et les colorisations. L'augmentation de données augmente la variabilité des données et expose le modèle à différentes perspectives, ce qui permet de s'assurer que le modèle apprend à capturer des représentations sémantiques dynamiques et douées de sens.
 

Discrimination d'instance
Les modèles basés sur la discrimination d'instance organisent l'entraînement en une série de tâches de classification binaire : à partir d'un échantillon de données servant de cible (appelé « ancre »), d'autres échantillons de données sont déterminés comme « positifs » (correspondance) ou « négatif » (absence de correspondance).

En vision par ordinateur, les méthodes de ce type, comme SimCLR ou MOCO, utilisent généralement un lot d'images brutes non étiquetées en entrée et lui appliquent une combinaison aléatoire de transformations pour générer des paires (ou des ensembles) d'échantillons d'images augmentées. Ces images augmentées sont ensuite encodées dans une représentation vectorielle, et une fonction de perte contrastive est utilisée pour minimiser la différence de représentation vectorielle entre les correspondances positives (les paires d'images augmentées dérivées de la même image originale) et maximiser la différence entre les correspondances négatives.   

Les méthodes par discrimination d’instance entraînent ainsi les modèles à discerner des représentations de différentes catégories qui, grâce à des augmentations aléatoires de données, résistent à des variations triviales (comme la couleur, la perspective ou les parties visibles d’une image). Ces représentations généralisent donc très bien les tâches en aval.
 

Apprentissage non contrastif
De manière quelque peu contre-intuitive, ce terme désigne une méthode étroitement liée à l'apprentissage contrastif (et ne s'oppose pas directement à l'apprentissage contrastif). Ces modèles sont entraînés en utilisant uniquement des paires positives pour apprendre à minimiser la différence entre leurs représentations (d'où la notion de non­contrastif).

Comparées à l'apprentissage contrastif, les approches non contrastives sont relativement simples : comme elles se limitent aux échantillons positifs, elles utilisent des lots plus petits pour les époques d'entraînement et n'ont pas besoin d'une banque pour stocker les échantillons négatifs. Cela génère des gains de mémoire et de coûts de calcul durant la phase de pré-entraînement.

Les modèles non contrastifs comme Bootstrap Your Own Latent (BYOL)6 et Barlow Twins7 obtiennent des résultats faisant jeu égal avec les modèles contrastifs et purement supervisés.
 

Apprentissage multimodal
Lorsqu'elles reçoivent des points de données de différents types (ce que l'on appelle les « modalités »), les méthodes contrastives peuvent apprendre à établir des correspondances entre ces modalités. Par exemple, l'outil CLIP (Contrastive Language-Image Pre-training) mène un entraînement conjoint via encodeur d'image et encodeur de texte pour prédire la légende qui va avec chaque image, en utilisant des millions de paires non étiquetées (image, texte) facilement collectées sur Internet. Après l'entraînement initial, le traitement automatique du langage naturel est utilisé pour référencer les concepts visuels appris (ou même pour décrire de nouveaux concepts visuels), ce qui rend les modèles entraînés via CLIP très utiles pour un large éventail d'applications de l'apprentissage par transfert.

L'apprentissage contrastif a également été utilisé pour apprendre à discerner les alignements entre la vidéo et le texte,8 la vidéo et l'audio,9 et la parole et le texte.10

Cas d'utilisation de l'apprentissage auto-supervisé

L'apprentissage auto-supervisé est utilisé pour former des modèles d'IA à un large éventail de tâches et de disciplines.

Apprentissage auto-supervisé pour le NLP
  • Dans les 12 mois suivant son lancement en 2018, le modèle de langage masqué BERT a été déployé par Google comme moteur NLP pour le classement et l'affichage des snippets.11 À ce jour, en 2023, Google continue à utiliser l'architecture BERT pour alimenter ses outils de recherche.12
  • Les modèles auto-régressifs sont aussi utilisés pour des tâches de NLP audio telles que la reconnaissance vocale, ainsi que pour des modèles de synthèse vocale tels que WaveNet.13 Facebook (Meta) emploie wav2vec pour la reconnaissance vocale, utilisant deux réseaux neuronaux convolutifs profonds empilés pour rapprocher l’entrée audio brute d'une représentation vectorielle. Dans le pré-entraînement auto-supervisé, ces vecteurs sont utilisés comme entrées pour les tâches d'auto-prévision.14
Apprentissage auto-supervisé pour la vision par ordinateur
  • L'apprentissage auto-supervisé forme une branche en pleine évolution des techniques d'apprentissage profond utilisées pour l'imagerie médicale, un domaine où les images annotées par des experts sont relativement rares. Dans PubMed, Scopus et ArXiv, les publications faisant référence à l'utilisation du SSL pour la classification d'images médicales ont été multipliées par plus de 1 000 % entre 2019 et 2021.15
  • Les méthodes basées sur SSL égalent (voire dépassent) souvent la précision des modèles entraînés de façon entièrement supervisée. Par exemple, le modèle MoCo original surpassait les modèles supervisés sur sept tâches de détection d'objets et de segmentation d'images avec les jeux de données PASCAL, VOC et COCO.16 Lorsqu'ils ont été affinés à l'aide de données étiquetées pour seulement 1 % du total des données d'entraînement, les modèles pré-entraînés avec SSL ont atteint une précision de plus de 80 % sur le jeu de données ImageNet. Ces résultats rivalisent avec les performances des modèles d’apprentissage supervisé de référence comme ResNet50.
  • Pouvoir maintenir une détection d'objets et une segmentation d'images justes même en cas de modification de l'orientation d'un élément est essentiel dans de nombreuses tâches robotiques. L'apprentissage auto-supervisé a été suggéré comme moyen efficace pour entraîner les modèles de vision par ordinateur à discerner les rotations sans collecte fastidieuse de données étiquetées.17 18
  • Le masquage a été utilisé pour entraîner des modèles sur la trajectoire des mouvements dans les vidéos.19
Apprentissage auto-supervisé pour le traitement et la synthèse des images
  • Les auto-encodeurs débruiteurs sont un élément clé dans l'entraînement de certains modèles de synthèse d'images de pointe, comme Stable Diffusion.20
  • La modélisation auto-régressive a été utilisée pour la synthèse d'images dans des modèles tels que PixelRNN et PixelCNN, ce dernier devenant grâce à son succès la base de WaveNet.
  • Les auto-encodeurs convolutifs sont utilisés pour une variété de tâches de traitement d'image, telles que l'incrustation et la colorisation des images en nuances de gris.
  • Les auto-encodeurs variationnels (VAE) constituent un outil important pour la synthèse d'images. Le premier modèle DALL-E d'OpenAI a utilisé un VAE pour générer ses images. DALL-E 1 et DALL-E 2 utilisent tous deux CLIP pour traduire les prompts en langage naturel en informations visuelles.21
Solutions connexes
IBM watsonx.ai

Entraînez, validez, ajustez et déployez en toute facilité des capacités d’IA générative et de machine learning ainsi que des modèles de fondation, et créez des applications d’IA beaucoup plus rapidement, avec seulement une fraction des données disponibles.

Découvrir watsonx.ai

Ressources d'apprentissage auto-supervisées

Découvrez comment l'apprentissage auto-supervisé s'intègre dans le monde plus vaste du machine learning.

Poursuivez votre parcours d'apprentissage automatique

Découvrez le type de modèle de machine learning qui vous convient le mieux : apprentissage supervisé ou non supervisé ?

Qu'est-ce que l'apprentissage supervisé ?

Découvrez comment fonctionne l'apprentissage supervisé et comment il peut être utilisé pour créer des modèles de machine learning extrêmement précis pour diverses tâches.

Qu'est-ce que l'apprentissage non supervisé ?

Découvrez comment fonctionne l'apprentissage non supervisé et comment il peut être utilisé pour explorer et regrouper des données pour de nombreux cas d'utilisation.

Notes de bas de page

Tous les liens sont externes au site ibm.com

1 "Fathers of the Deep Learning Revolution Receive ACM A.M. Turing Award," Association for Computing Machinery, 27 mars 2019
2 Facebook, Yann LeCun, 30 avril 2019
3 "Self-taught learning: transfer learning from unlabeled data," Proceedings of the 24th international conference on machine learning, 20 juin 2007
4 Lecture: Energy based models and self-supervised learning, YouTube, publié en 2020
5 "Learning to see by moving," arXiv, 14 septembre 2015
6 "Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning," arXiv, 10 septembre 2020
7 "Barlow Twins: Self-Supervised Learning via Redunancy Reduction," arXiv, 14 juin 2021
8 "VideoCLIP: Contrastive Pre-Training for Zero-shot Video-Text Understanding," arXiv, 1er octobre 2021
9
"Active Contrasting Learning of Audio-Visual Video Representations," Proceedings of the International Conference on Learning Representations, 2021
10 "Cross-modal Contrastive Learning for Speech Translation," arXiv, 5 mai 2022
11 "Understanding searches better than ever before," Google, 25 octobre 2019
12 "End-to-End Query Term Weighting," Google, 2023
13
"WaveNet: A Generative Model for Raw Audio," arXiv, 19 septembre 2016
14 "Wave2vec: State-of-the-art speech recognition through self-supervision," Meta, 19 septembre 2019
15 "Self-supervised learning for medical image classification: a systematic review and implementation guidelines," Nature, 26 avril 2023
16 "Momentum Contrast for Unsupervised Visual Representation Learning," arXiv, 13 novembre 2019 (dernière révision le 23 mars 2020)
17
"Deep Projective Rotation Estimation through Relative Supervision," arXiv, 21 novembre 2022
18 "Orienting Novel 3D Objects Using Self-Supervised Learning of Rotation Transforms," arXiv, 29 mai 2021
19 "Masked Motion Encoding for Self-Supervised Video Representation Learning," The Computer Vision Foundation, octobre 2022
20 "High-Resolution Image Synthesis with Latent Diffusion Models," arXiv, 20 décembre 2021 (dernière révision le 13 avril 2022)
21 "DALL-E: Creating images from text," OpenAI, 5 janvier 2021