La differenza fondamentale tra i VAE e gli altri tipi di autoencoder è che mentre la maggior parte degli autoencoder apprende modelli di spazio latente discreto, i VAE apprendono modelli a variabili latenti continue. Piuttosto che un singolo vettore di codifica per lo spazio latente, i VAE modellano due vettori diversi: un vettore delle medie, “μ”, e un vettore delle deviazioni standard, “σ”. Poiché questi vettori acquisiscono gli attributi latenti come una distribuzione di probabilità, ovvero apprendono una codifica stocastica anziché una codifica deterministica, i VAE consentono l'interpolazione e il campionamento casuale, ampliando notevolmente le loro capacità e i loro casi d'uso. Ciò significa che i VAE sono modelli di intelligenza artificiale generativa.
In termini più semplici, i VAE imparano a codificare le caratteristiche importanti apprese dagli input nei dataset su cui sono addestrati in un modo flessibile e approssimativo, che consente loro di generare nuovi campioni che assomigliano ai dati di formazione originali. La funzione di perdita utilizzata per ridurre al minimo l'errore di ricostruzione è regolarizzata dalla divergenza di KL tra la distribuzione di probabilità dei dati di addestramento (la distribuzione a priori) e la distribuzione di variabili latenti apprese dal VAE (la distribuzione a posteriori). Questa funzione di perdita regolarizzata consente ai VAE di generare nuovi campioni simili ai dati su cui sono stati addestrati evitando il sovradattamento, il che in questo caso significherebbe generare nuovi campioni troppo identici ai dati originali.
Per generare un nuovo campione, il VAE campiona un vettore latente casuale (ε) dall'interno dell'unità gaussiana, in altre parole, seleziona un punto di partenza casuale dall'interno della distribuzione normale, lo sposta in base alla media della distribuzione latente (μ) e lo scala in base alla varianza della distribuzione latente (σ). Questo processo, chiamato trucco della riparametrizzazione,,5 evita il campionamento diretto della distribuzione variazionale: poiché il processo è casuale, non ha derivate, il che elimina la necessità di retropropagazione durante il processo di campionamento.
Quando un VAE viene utilizzato per attività generative, spesso l'encoder può essere scartato dopo l'addestramento. Le evoluzioni più avanzate dei VAE, come i VAE condizionali, offrono all'utente un maggiore controllo sui campioni generati fornendo input condizionali che modificano l'output dell'encoder.