Qu’est-ce que l’espace latent ?

Auteurs

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Qu’est-ce que l’espace latent ?

En machine learning (ML), l’espace latent est une représentation compressée de points de données qui ne conserve que les caractéristiques essentielles qui informent la structure sous-jacente des données d’entrée. La modélisation efficace de l’espace latent fait partie intégrante de l’apprentissage profond, y compris de la plupart des algorithmes d’IA générative.

Le mappage des points de données vers un espace latent permet d’exprimer les données complexes de manière efficace et significative, afin d’améliorer la capacité des modèles de machine learning à les comprendre et à les manipuler, tout en réduisant les besoins en matière de calcul. À cette fin, l’encodage des représentations d’espace latent implique généralement de réduire la dimensionnalité. Il s’agit de compresser les données de grande dimension dans un espace de dimension inférieure, qui omet les informations non pertinentes ou redondantes.

Les espaces latents jouent un rôle important dans de nombreux domaines de la science des données. Leur encodage est une étape essentielle à de nombreux algorithmes d’intelligence artificielle (IA) modernes. Par exemple, tous les modèles génératifs, tels que les auto-encodeurs variationnels (VAE) et les réseaux antagonistes génératifs (GAN), calculent l’espace latent des données d’entraînement, puis interpolent à partir de celui-ci pour générer de nouveaux échantillons de données. Les modèles de vision par ordinateur entraînés pour réaliser des tâches de classification, comme la détection d’objets et la segmentation d’images, mappent les données d’entrée dans l’espace latent afin d’isoler les qualités nécessaires pour établir des prédictions précises.

Les grands modèles de langage (LLM), qu’il s’agisse de modèles de plongement permettant la recherche sémantique, de modèles autorégressifs comme IBM Granite, ou encore des modèles qui alimentent ChatGPT d’OpenAI, manipulent l’espace latent pour explorer les liens complexes entre différents mots dans un contexte donné.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Qu’est-ce que « l’espace latent » ?

Dans le contexte du machine learning, le mot espace désigne en gros un certain mode de mappage, de comparaison ou d’échantillonnage des points de données. En voici quelques exemples :

  • « L’espace d’entrée » est l’éventail de possibilités incluses dans les données d’entrée.
  • « L’espace de sortie » est l’éventail de possibilités associées aux sorties du modèle.
  • Dans les données d’images, l’« espace pixel » est l’éventail des valeurs numériques possibles pour les pixels.
  • Dans l’apprentissage par renforcement, l’« espace d’action » est l’éventail des actions possibles qui pourraient être entreprises ensuite, telles que les mouvements autorisés à un moment précis dans un jeu de société.

Mathématiquement, un espace est principalement défini par ce à quoi ses dimensions correspondent, à savoir les caractéristiques (variables) utilisées pour décrire les points de données dans cet espace. Lorsque les points de données sont mappés à un espace donné, ceux présentant des valeurs similaires pour les variables qui définissent l’espace seront similaires ou proches les uns des autres selon certains indicateurs tels que la similarité cosinus, la distance euclidienne ou le produit scalaire. 

En machine learning, les points de données doivent être représentés numériquement. Ils sont le plus souvent représentés (ou « intégrés ») sous forme de vecteurs. Nous appelons donc « espace de plongement vectoriel » (ou « espace de plongement ») l’espace dans lequel les points de données sont comparés par leurs représentations vectorielles. Les représentations numériques, dans lesquelles chaque élément du vecteur correspond à une dimension individuelle de l’espace de plongement, sont appelées plongements vectoriels. Les algorithmes de machine learning prennent généralement en entrée des plongements vectoriels ou commencent par convertir les données d’entrée en plongements vectoriels.

Espace de caractéristiques et espace latent

L’espace de caractéristiques est l’espace vectoriel associé à l’éventail des possibilités non pas pour les points de données, mais pour les valeurs des caractéristiques significatives qui pourraient décrire un ensemble spécifique de points de données. Dans les modèles traitant des données d’images, par exemple, chaque dimension de l’espace de caractéristiques peut correspondre à des formes, des textures ou des motifs de couleurs spécifiques présents dans les données d’apprentissage du modèle.

L’espace de caractéristiques omet généralement les informations des dimensions de l’espace d’intégration qui ne contiennent aucune caractéristique. Pour continuer avec l’exemple des données d’image, l’espace de caractéristiques exclurait les arrière-plans ou les espaces vides. Le processus d’isolement des caractéristiques significatives de l’espace de plongement plus large est appelé extraction de caractéristiques.

Les termes « espace de caractéristiques » et « espace latent » sont souvent employés de manière interchangeable, mais ne sont pas toujours synonymes. Étant donné que l’extraction de caractéristiques implique généralement une représentation compressée des données qui omet les informations qui ne sont pas utiles, les concepts sont étroitement liés. Cependant, certaines caractéristiques peuvent ne pas être pertinentes pour la structure sous-jacente des données. Par conséquent, l’espace latent est généralement une représentation de dimension inférieure de l’espace de caractéristiques contenant uniquement le sous-ensemble de caractéristiques qui, grâce au machine learning, sont considérées comme les plus pertinentes pour la tâche à accomplir.

Que signifie « latent » en machine learning ?

Dans un espace latent, chaque dimension correspond à une variable latente des données d’origine. Les variables latentes sont des caractéristiques sous-jacentes qui informent la manière dont les données sont distribuées, mais qui sont rarement directement observables. 

Prenons un exemple intuitif : imaginez un pont équipé d’un capteur qui mesure le poids de chaque véhicule qui passe. De nombreux véhicules différents, des décapotables légères aux poids lourds, empruntent le pont, mais il n’y a pas de caméra pour détecter le type de véhicule. Néanmoins, nous savons que le type de véhicule influence considérablement son poids. Dans cet exemple, le poids du véhicule est une variable observable et le type de véhicule est une variable latente : nous pouvons déduire quels types de véhicules empruntent le pont en explorant les tendances du poids des véhicules.

Toutes les variables « cachées » ne sont pas importantes et, par conséquent, elles ne seront pas toutes représentées dans l’espace latent encodé par un modèle de machine learning. En pratique, le modèle apprend à encoder l’espace latent le plus propice à l’exécution précise de la tâche pour laquelle il est entraîné.

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Espace latent et réduction de dimensionnalité

L’encodage des représentations d’espace latent implique généralement de compresser les données de grande dimension dans un espace de dimension inférieure, un processus appelé réduction de dimensionnalité.

Prenons l’exemple des images du MNIST, un jeu de données open source contenant des dizaines de milliers d’images en niveaux de gris de 28x28 pixels représentant des chiffres manuscrits. Chaque petite image de 28x28 pourrait être représentée par un vecteur à 784 dimensions, chaque dimension correspondant à un pixel individuel et ayant une valeur comprise entre 0 (pour le noir) et 1 (pour le blanc). S’il s’agissait d’images en couleur, ces vecteurs auraient 2 352 dimensions : trois dimensions pour chacun des 784 pixels, correspondant à ses valeurs respectives de rouge, vert et bleu (RVB).

Cependant, les chiffres réels ne représentent qu’une petite fraction de l’espace des pixels. La majeure partie de l’image est constituée d’un arrière-plan vide. Réduire les images (et les vecteurs qui les représentent) aux seules dimensions contenant des informations réelles (l’espace latent) peut considérablement améliorer la capacité d’un modèle de machine learning à traiter les images avec précision et efficacité.

Auto-encodeurs (et autres cadres d’encodeur-décodeur)

Parmi les architectures de réseau de neurones conçues spécialement pour réduire la dimensionnalité et compresser les données d’entrée dans l’espace latent, citons l’auto-encodeur.

Les auto-encodeurs sont des systèmes auto-supervisés dont l’objectif d’entraînement est de compresser (ou d’encoder) les données d’entrée par réduction de la dimensionnalité, puis de reconstruire avec précision (ou décoder) leur entrée d’origine grâce à cette représentation compressée. Dans un auto-encodeur standard, chaque couche de l’encodeur contient progressivement moins de nœuds que la couche précédente. Lorsque le plongement vectoriel des données d’entrée est transmis à la couche d’encodeur suivante, il est compressé par le processus de « compression » en moins de dimensions. Le réseau décodeur reconstruit ensuite l’entrée d’origine en utilisant uniquement le vecteur latent produit par l’encodeur.

Les auto-encodeurs sont entraînés à minimiser la perte liée à la reconstruction, qui mesure à quel point la reconstruction du décodeur diffère de l’entrée d’origine. Comme l’encodeur ne peut transmettre qu’une quantité limitée d’informations au décodeur, il doit extraire uniquement les caractéristiques les plus saillantes des données. En d’autres termes, un auto-encodeur apprend naturellement à mapper efficacement l’espace latent des données d’entrée.

Schéma d’un réseau neuronal auto-encodeur

Cette capacité offre aux auto-encodeurs de nombreuses possibilités d’utilisation intéressantes en plus de la compression des données. Ainsi, ils peuvent détecter des anomalies invisibles à l’œil nu. Prenons l’exemple d’une montre contrefaite : même un œil expert pourrait la confondre avec un modèle authentique. Ce n’est qu’en la démontant et en essayant de reconstruire les engrenages et la mécanique sous-jacents (son espace latent) que l’on peut identifier les éléments qui ne correspondent pas à ceux de la montre authentique qu’elle copie.

L’un des principaux avantages des auto-encodeurs par rapport à d’autres algorithmes de réduction de la dimensionnalité, tels que l’analyse discriminante linéaire et l’analyse en composantes principales (PCA), réside dans leur capacité à modéliser les relations non linéaires entre différentes variables.

De nombreux autres réseaux neuronaux mettent en œuvre une architecture encodeur-décodeur similaire, dans laquelle le réseau encodeur réduit la dimensionnalité des données d’entrée et le décodeur traite ce codage latent pour émettre des prédictions. Un auto-encodeur est toute implémentation de cette structure dans laquelle le modèle est entraîné à reconstruire les données d’entrée.

Espace latent dans les auto-encodeurs variationnels (VAE) et autres modèles génératifs

Les auto-encodeurs variationnels (VAE) exploitent l’architecture des auto-encodeurs pour encoder l’espace latent afin de l’utiliser dans des tâches génératives telles que la génération d’images.

Contrairement à la plupart des auto-encodeurs, qui sont des modèles « déterministes » pensés pour encoder un vecteur unique de valeurs discrètes pour chaque variable latente des données d’entraînement, les VAE sont des modèles « probabilistes », qui encodent l’espace latent comme un éventail de possibilités. En interpolant à partir de cet éventail de possibilités encodées, les VAE peuvent synthétiser de nouveaux échantillons de données qui ressemblent aux données d’entraînement d’origine, tout en possédant un caractère unique et original.

Pour permettre la génération d’échantillons de données entièrement nouveaux (plutôt que de simplement recréer ou combiner des échantillons à partir de données d’entraînement) l’espace latent doit présenter deux types de régularité :

  • Continuité : les points proches dans l’espace latent doivent produire des contenus similaires lorsqu’ils sont décodés.
  • Exhaustivité : tout point échantillonné dans l’espace latent doit fournir un contenu significatif lorsqu’il est décodé.

Un moyen simple d’assurer la continuité et l’exhaustivité dans l’espace latent consiste à le forcer à suivre une distribution normale (ou gaussienne). Par conséquent, les VAE encodent deux vecteurs différents pour chaque attribut latent des données d’entraînement : un vecteur de moyennes, « μ », et un vecteur d’écarts types, « σ ». En substance, ces deux vecteurs représentent respectivement l’éventail des possibilités pour chaque variable latente et la variance attendue dans chaque éventail de possibilités. 

Pour ce faire, les VAE ajoutent une fonction de perte supplémentaire à la perte liée à la reconstruction, à savoir la divergence de Kullback-Leibler (ou divergence KL). Plus précisément, le VAE est entraîné à minimiser la divergence entre une distribution gaussienne standard et l’espace latent appris en minimisant la perte liée à la reconstruction.

Diagramme illustrant la perte liée à la reconstruction et la divergence KL dans les auto-encodeurs

L’espace latent dans d’autres modèles de génération d’images

Si d’autres architectures de modèles de génération d’images utilisent des objectifs d’apprentissage autres que la perte liée à la reconstruction, elles emploient toutes généralement des termes de régularisation pour imposer la continuité et l’exhaustivité de l’espace latent. La plupart, mais pas toutes, ajustent l’espace latent à une distribution normale.

Réseaux antagonistes génératifs (GAN)

Les réseaux antagonistes génératifs (GAN) entraînent 2 réseaux de neurones, à savoir un réseau « discriminateur » et un réseau générateur, qui sont mis en compétition. Le discriminateur reçoit une image et est entraîné pour prédire s’il s’agit d’une image réelle ou d’une image tirée du jeu de données. Le générateur est entraîné pour tromper le discriminateur en générant des échantillons réalistes à partir de l’espace latent.

Le générateur est considéré comme entraîné lorsque le discriminateur n’est plus capable de faire la différence entre les images d’entraînement et les images générées.

Modèles de diffusion latente

Les modèles de diffusion latente, dont le premier à être introduit fut le Stable Diffusion, associent essentiellement modèles de diffusion et VAE. Alors que les modèles de diffusion standard agissent directement sur l’espace pixel, les modèles de diffusion latente s’appuient tout d’abord sur une architecture de type VAE pour encoder les données d’entrée dans une représentation latente de faible dimension, puis ils appliquent la diffusion à l’espace latent. Cette innovation a considérablement amélioré la vitesse et l’efficacité des modèles de diffusion.

Visualisation de l’espace latent

Les relations entre les différents points de données dans l’espace latent sont intrinsèquement difficiles à imaginer ou à visualiser. Nos sens et notre expérience se limitant à une compréhension tridimensionnelle du monde, notre esprit est incapable de concevoir un graphique qui trace des points sur des dizaines, des centaines, voire des milliers de dimensions.

Pour relever ce défi, les data scientists appliquent des techniques de réduction de la dimensionnalité telles que l’intégration stochastique des voisins distribués en T (t-SNE) ou l’approximation et la projection uniformes de la variété (UMAP). Utilisées couramment dans la visualisation des données, ces techniques permettent de représenter des données de grande dimension sous la forme d’un graphique à deux (ou trois) dimensions, dans lequel les objets similaires sont proches les uns des autres et les objets dissemblables sont éloignés. La visualisation de l’espace latent d’un VAE présentée plus haut dans cet article, par exemple, a été créée à l’aide de t-SNE.

La recherche sur les modèles d’image a également permis d’obtenir des informations intéressantes sur la nature de l’espace latent, qui ont contribué aux progrès en matière de manipulation de l’espace latent pour les modèles génératifs. Par exemple, l’article largement cité « Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks » décrit des techniques comme l’exécution d’arithmétiques avec des vecteurs latents, employées pour produire intuitivement de nouvelles images avec certaines qualités.

Espace latent dans le traitement automatique du langage naturel (NLP)

Tout comme les plongements vectoriels d’images visent à représenter les données fournies par la distribution des valeurs des pixels d’une image, les plongements lexicaux visent à saisir le sens d’un mot donné.

Cependant, contrairement à une image, la signification sémantique d’un mot n’est pas statique : elle est dynamique, avec des connotations et des relations qui peuvent être modifiées par les mots qui l’entourent. Par conséquent, les modèles de transformeur utilisent un mécanisme d’auto-attention pour calculer l’impact du contexte sur la signification d’un mot et mettre à jour son intégration en conséquence. Entre la couche d’entrée qui reçoit un prompt et la couche de sortie où un nouveau texte est généré, les intégrations de mots d’origine sont converties en une série de représentations latentes à mesure que le modèle affine continuellement sa compréhension contextuelle.

Bien que le fonctionnement interne des grands modèles de langage (LLM) se soit jusqu’à présent révélé assez difficile à interpréter, des recherches en cours ont exploré l’activation de l’espace latent dans l’apprentissage en contexte et d’autres capacités émergentes des LLM.1, 2

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct
Notes de bas de page

1 "Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning," Proceedings of the 37th Conference on Neural Information Processing Systems (NeurIPS 2023), décembre 2023.

2 "A Latent Space Theory for Emergent Abilities in Large Language Models," arXiv, 13 septembre 2023.