La diferencia fundamental entre los VAE y otros tipos de autocodificadores es que, mientras que la mayoría de autocodificadores aprenden modelos espaciales latentes discretos, los VAE aprenden modelos variables latentes continuos. En lugar de un único vector de codificación para el espacio latente, los VAE modelan dos vectores diferentes: un vector de medias, "μ", y un vector de desviaciones estándar, "σ". Dado que estos vectores capturan los atributos latentes como una distribución de probabilidad (es decir, aprenden una codificación estocástica en lugar de una codificación determinista ), los VAE permiten la interpolación y el muestreo aleatorio, lo que amplía enormemente sus capacidades y casos prácticos. Esto significa que los VAE son modelos de IA generativa.
En términos más sencillos, los VAE aprenden a codificar los aprendizajes de características importantes de las entradas de los conjuntos de datos en los que se entrenan de una forma flexible y aproximada que les permite generar nuevas muestras que se asemejan a los datos de entrenamiento originales. La función de pérdida utilizada para minimizar el error de reconstrucción está regularizada por la divergencia KL entre la distribución de probabilidad de los datos de entrenamiento (la distribución previa) y la distribución de las variables latentes aprendidas por el VAE (la distribución posterior). Esta función de pérdida regularizada permite a los VAE generar nuevas muestras que se asemejan a los datos con los que fueron entrenados, evitando al mismo tiempo el sobreajuste, que en este caso significaría generar nuevas muestras demasiado idénticas a los datos originales.
Para generar una nueva muestra, el VAE muestrea un vector latente aleatorio (ε) desde dentro de la unidad gaussiana, en otras palabras, selecciona un punto de inicio aleatorio dentro de la distribución normal, lo desplaza por la media de la distribución latente (μ) y lo escala por la varianza de la distribución latente (σ). Este proceso, llamado truco de reparametrización,5 evita el muestreo directo de la distribución variacional: debido a que el proceso es aleatorio, no tiene derivada, lo que elimina la necesidad de retropropagación durante el proceso de muestreo.
Cuando se utiliza un VAE para tareas generativas, el codificador puede descartarse a menudo tras el entrenamiento. Las evoluciones más avanzadas de los VAE, como los VAE condicionales, ofrecen al usuario un mayor control sobre las muestras generadas al proporcionar entradas condicionales que modifican la salida del codificador.