Yang membedakan VAE dari autoencoder lain adalah cara uniknya dalam mengkodekan ruang laten, dan pengkodean probabilistiknya dapat diterapkan dalam berbagai contoh penggunaan.
Tidak seperti kebanyakan autoencoder, yang merupakan model deterministik yang mengkodekan satu vektor variabel laten diskrit, VAES adalah model probabilistik . VAE mengkodekan variabel laten dari data pelatihan bukan sebagai nilai diskrit tetap z, tetapi sebagai rentang kemungkinan berkelanjutan yang diekspresikan sebagai distribusi probabilitas p(z).
Dalam statistik Bayesian, rentang kemungkinan yang dipelajari untuk variabel laten ini disebut distribusi prior. Dalam inferensi variasional, proses generatif untuk mensintesis titik-titik data baru, distribusi prior ini digunakan untuk menghitung distribusi posterior, p(z|x). Dengan kata lain, x adalah nilai variabel yang dapat diamati, sedangkan z adalah nilai untuk variabel laten.
Untuk setiap atribut laten dari data pelatihan, VAE mengkodekan dua vektor laten yang berbeda: vektor rata-rata, "μ", dan vektor deviasi standar, "σ". Intinya, kedua vektor ini mewakili rentang kemungkinan untuk setiap variabel laten dan varians yang diharapkan dalam setiap rentang kemungkinan.
Dengan mengambil sampel secara acak dari kisaran kemungkinan yang dikodekan ini, VAE dapat mensintesis sampel data baru yang, meskipun unik dan orisinal, menyerupai data pelatihan asli. Meskipun pada prinsipnya relatif intuitif, metodologi ini memerlukan adaptasi lebih lanjut terhadap metodologi autoencoder standar untuk dipraktikkan.
Untuk menjelaskan kemampuan VAE ini, kami akan mengulas konsep-konsep berikut ini:
- Reconstruction loss
- Divergensi Kullback-Leibler (KL)
- Batas bawah bukti (ELBO)
- Trik reparameterisasi