Les auto-encodeurs variationnels (VAE) exploitent l’architecture des auto-encodeurs pour encoder l’espace latent afin de l’utiliser dans des tâches génératives telles que la génération d’images.
Contrairement à la plupart des auto-encodeurs, qui sont des modèles « déterministes » pensés pour encoder un vecteur unique de valeurs discrètes pour chaque variable latente des données d’entraînement, les VAE sont des modèles « probabilistes », qui encodent l’espace latent comme un éventail de possibilités. En interpolant à partir de cet éventail de possibilités encodées, les VAE peuvent synthétiser de nouveaux échantillons de données qui ressemblent aux données d’entraînement d’origine, tout en possédant un caractère unique et original.
Pour permettre la génération d’échantillons de données entièrement nouveaux (plutôt que de simplement recréer ou combiner des échantillons à partir de données d’entraînement) l’espace latent doit présenter deux types de régularité :
- Continuité : les points proches dans l’espace latent doivent produire des contenus similaires lorsqu’ils sont décodés.
- Exhaustivité : tout point échantillonné dans l’espace latent doit fournir un contenu significatif lorsqu’il est décodé.
Un moyen simple d’assurer la continuité et l’exhaustivité dans l’espace latent consiste à le forcer à suivre une distribution normale (ou gaussienne). Par conséquent, les VAE encodent deux vecteurs différents pour chaque attribut latent des données d’entraînement : un vecteur de moyennes, « μ », et un vecteur d’écarts types, « σ ». En substance, ces deux vecteurs représentent respectivement l’éventail des possibilités pour chaque variable latente et la variance attendue dans chaque éventail de possibilités.
Pour ce faire, les VAE ajoutent une fonction de perte supplémentaire à la perte liée à la reconstruction, à savoir la divergence de Kullback-Leibler (ou divergence KL). Plus précisément, le VAE est entraîné à minimiser la divergence entre une distribution gaussienne standard et l’espace latent appris en minimisant la perte liée à la reconstruction.