Lo que distingue a los VAE de otros autocodificadores es la forma única en que codifican el espacio latente y los distintos casos de uso a los que puede aplicarse su codificación probabilística.
A diferencia de la mayoría de los autocodificadores, que son modelos deterministas que codifican un único vector de variables latentes discretas, los VAE son modelos probabilísticos. Los VAE codifican las variables latentes de los datos de entrenamiento no como un valor discreto fijo z, sino como un rango continuo de posibilidades expresado como una distribución de probabilidad p(z).
En estadística bayesiana, este abanico aprendido de posibilidades para la variable latente se denomina distribución a priori. En la inferencia variacional, el proceso generativo de síntesis de nuevos puntos de datos, esta distribución a priori se utiliza para calcular la distribución posterior, p(z|x). En otras palabras, el valor de las variables observables x, dado un valor para la variable latente z.
Para cada atributo latente de los datos de entrenamiento, los VAE codifican dos vectores latentes diferentes: un vector de medias, "μ", y un vector de desviaciones típicas, "σ". En esencia, estos dos vectores representan el rango de posibilidades de cada variable latente y la varianza esperada dentro de cada rango de posibilidades.
Mediante un muestreo aleatorio dentro de esta gama de posibilidades codificadas, los VAE pueden sintetizar nuevas muestras de datos que, aunque únicas y originales en sí mismas, se parecen a los datos de entrenamiento originales. Aunque en principio es relativamente intuitiva, para poner en práctica esta metodología es necesario adaptarla a la metodología estándar de los autocodificadores.
Para explicar esta capacidad de los VAE, repasaremos los siguientes conceptos:
- Pérdida de reconstrucción
- Divergencia de Kullback-Leibler (KL)
- Límite inferior de pruebas (ELBO)
- El truco de la reparametrización