La différence fondamentale entre les VAE et les autres types d’auto-encodeurs, c’est que si la plupart des auto-encodeurs apprennent des modèles à espace latent discret, les VAE apprennent des modèles à variables latentes continues. Plutôt qu’un vecteur d’encodage unique pour l’espace latent, les VAE modélisent deux vecteurs différents : un vecteur de moyenne, « µ », et un vecteur d’écart type, « σ ». Étant donné que ces vecteurs capturent les attributs latents sous forme de distributions de probabilités, c’est-à-dire qu’ils apprennent un encodage stochastique plutôt qu’un encodage déterministe, les VAE permettent l’interpolation et l’échantillonnage aléatoire, élargissant ainsi considérablement leurs capacités et leurs cas d’utilisation. En d’autres termes, les VAE sont des modèles d’IA générative.
En termes plus simples, les VAE apprennent à encoder des apprentissages de caractéristiques importants à partir des entrées des jeux de données sur lesquels ils sont entraînés d’une manière flexible et approximative qui leur permet de générer de nouveaux échantillons ressemblant aux données d’apprentissage d’origine. La fonction de perte utilisée pour minimiser l’erreur de reconstruction est régularisée par la divergence K-L entre la distribution de probabilités des données d’apprentissage (la distribution a priori) et la distribution des variables latentes apprises par le VAE (la distribution a posteriori). Cette fonction de perte régularisée permet aux VAE de générer de nouveaux échantillons qui ressemblent aux données sur lesquelles ils ont été entraînés tout en évitant le sur-ajustement, ce qui signifierait la génération de nouveaux échantillons trop identiques aux données d’origine.
Pour générer un nouvel échantillon, le VAE échantillonne un vecteur latent aléatoire (ε) à partir du système d’unités gaussiennes. En d’autres termes, il sélectionne un point de départ aléatoire dans la distribution normale, le décale selon la moyenne de la distribution latente (µ) et le redimensionne en fonction de la variance de la distribution latente (σ). Ce processus, appelé le reparameterization trick5, évite l’échantillonnage direct de la distribution variationnelle : comme le processus est aléatoire, il n’a aucune dérivée, ce qui élimine le besoin de rétropropagation pendant le processus d’échantillonnage.
Lorsqu’un VAE est utilisé pour des tâches génératives, l’encodeur peut souvent être supprimé après l’entraînement. Les évolutions plus avancées des VAE, comme les VAE conditionnels, permettent à l’utilisateur de mieux contrôler les échantillons générés en fournissant des entrées conditionnelles qui modifient la sortie de l’encodeur.