Ciò che distingue i VAE dagli altri autoencoder è il modo unico in cui codificano lo spazio latente e i diversi casi d'uso a cui può essere applicata la loro codifica probabilistica.
A differenza della maggior parte degli autoencoder, che sono modelli deterministici che codificano un singolo vettore di variabili latenti discrete, i VAE sono modelli probabilistici e, pertanto, codificano le variabili latenti dei dati di addestramento non come un valore discreto fisso z, ma come un intervallo continuo di possibilità espresso come distribuzione di probabilità p(z).
Nella statistica bayesiana, questo intervallo di possibilità appreso per la variabile latente è chiamato distribuzione a priori. Nell'inferenza variazionale, il processo generativo di sintesi di nuovi punti dati, questa distribuzione precedente viene utilizzata per calcolare la distribuzione a posteriori, p(z|x). In altre parole, il valore delle variabili osservabili x dato un valore per la variabile latente z.
Per ogni attributo latente dei dati di addestramento, i VAE codificano due diversi vettori latenti: un vettore di medie, "μ", e un vettore di deviazioni standard,"σ". In sostanza, questi rappresentano l'intervallo di possibilità per ciascuna variabile latente e la varianza attesa all'interno di ciascun intervallo di possibilità.
Campionando casualmente da questa gamma di possibilità codificate, i VAE possono sintetizzare nuovi campioni di dati che, benché unici e originali di per sé, assomigliano ai dati di addestramento originali. Sebbene relativamente intuitiva in linea di principio, questa metodologia richiede ulteriori adattamenti alla metodologia standard degli autoencoder per essere messa in pratica.
Per spiegare questa capacità dei VAE, esamineremo i seguenti concetti:
- Perdita di ricostruzione
- Divergenza Kullback-Leibler (KL)
- Limite inferiore variazionale (ELBO)
- Il trucco della riparametrizzazione