O que distingue os VAEs de outros autocodificadores é a maneira única como eles codificam o espaço latente e os diferentes casos de uso aos quais sua codificação probabilística pode ser aplicada.
Diferentemente da maioria dos autocodificadores, que são modelos determinísticos que codificam um único vetor de variáveis latentes discretas, os VAES são modelos probabilísticos. Os VAEs codificam variáveis latentes de dados de treinamento não como um valor fixo discreto z, mas como uma faixa contínua de possibilidades expressas como uma distribuição de probabilidades p(z).
Na estatística Bayesiana, esse intervalo aprendido de possibilidades para a variável latente é chamado de distribuição prévia. Na inferência variacional, o processo generativo de sintetizar novos pontos de dados, essa distribuição anterior é usada para calcular a distribuição posterior, p(z|x). Em outras palavras, o valor das variáveis observáveis x, dado um valor para a variável latente z.
Para cada atributo latente dos dados de treinamento, os VAEs codificam dois vetores latentes diferentes: um vetor de médias, “μ,” e um vetor de desvios padrão, “σ”. Em essência, esses dois vetores representam o intervalo de possibilidades para cada variável latente e a variância esperada dentro de cada intervalo de possibilidades.
Por amostragem aleatória dentro dessa gama de possibilidades codificadas, os VAEs podem sintetizar novas amostras de dados que, embora únicas e originais em si mesmas, se assemelham aos dados de treinamento originais. Embora seja relativamente intuitiva em princípio, essa metodologia exige adaptações adicionais à metodologia dos autocodificadores padrão para ser colocada em prática.
Para explicar essa capacidade dos VAEs, avaliaremos os seguintes conceitos:
- Perda de reconstrução
- Divergência de Kullback-Leibler (KL)
- Limite inferior da evidência (ELBO)
- O truque da reparametrização