Ce qui distingue les VAE des autres auto-encodeurs, c’est la manière unique dont ils encodent l’espace latent et les différents cas d’utilisation auxquels leur encodage probabiliste peut être appliqué.
Contrairement à la plupart des auto-encodeurs, qui sont des modèles déterministes qui codent un seul vecteur de variables latentes discrètes, les VAE sont des modèles probabilistes. Les VAE encodent les variables latentes des données d'entraînement, non pas sous la forme d'une valeur discrète fixe z, mais sous la forme d'une gamme continue de possibilités exprimée sous forme de distribution de probabilité p(z).
Dans les statistiques bayésiennes, cette gamme de possibilités apprises pour la variable latente est appelée la distribution préalable. Dans l'inférence variationnelle, le processus génératif de synthèse de nouveaux points de données, cette distribution préalable est utilisée pour calculer la distribution postérieure, p(z|x). En d'autres termes, la valeur des variables observables x, compte tenu de la valeur de la variable latente z.
Pour chaque attribut latent des données d'entraînement, les VAE encodent deux vecteurs latents différents : un vecteur de moyenne, « µ », et un vecteur d’écart type, « σ ». En substance, ces deux vecteurs représentent l'éventail des possibilités pour chaque variable latente et la variance attendue à l'intérieur de chaque éventail de possibilités.
En prélevant au hasard des échantillons dans cet éventail de possibilités codées, les VAE peuvent synthétiser de nouveaux échantillons de données qui, tout en étant uniques et originaux, ressemblent aux données d'entraînement d'origine. Bien que relativement intuitive en principe, cette méthodologie nécessite des adaptations supplémentaires par rapport à la méthodologie standard des auto-encodeurs pour être mise en pratique.
Pour expliquer cette capacité des VAE, revoyons les concepts suivants :
- Perte liée à la reconstruction
- Divergence de Kullback-Leibler (K-L)
- Limite inférieure de preuve (ELBO)
- L’astuce du reparamétrage