Der grundlegende Unterschied zwischen VAEs und anderen Arten von Autoencodern besteht darin, dass die meisten Autoencoder diskrete latente Raummodelle lernen, während VAEs kontinuierliche latente Variablenmodelle lernen. Anstelle eines einzigen Kodierungsvektors für den latenten Raum modellieren die VAEs zwei verschiedene Vektoren: einen Vektor der Mittelwerte „μ“ und einen Vektor der Standardabweichungen „σ“. Da diese Vektoren latente Attribute als Wahrscheinlichkeitsverteilung erfassen , d . h.sie lernen eine stochastische Codierung anstelle einer deterministischen Codierung, ermöglichen VAEs Interpolation und Zufallsstichproben, was ihre Möglichkeiten und Anwendungsfälle erheblich erweitert. Dies bedeutet, dass VAEs generative KI-Modelle sind.
Einfacher ausgedrückt: VAEs lernen, wichtige Merkmale aus den Eingaben in den Datensätzen, auf denen sie trainiert wurden, auf eine flexible, annähernde Weise zu kodieren, die es ihnen ermöglicht, neue Stichproben zu generieren, die den ursprünglichen Trainingsdaten ähneln. Die Verlustfunktion zur Minimierung des Rekonstruktionsfehlers wird von der KL-Divergenz zwischen der Wahrscheinlichkeitsverteilung von Trainingsdaten (die priorale Verteilung) und der Verteilung der von den VAE erfassten latenten Variablen (posteriore Verteilung) geregelt. Diese regulierte Verlustfunktion ermöglicht es den VAEs, neue Stichproben zu erzeugen, die den Daten ähneln, auf denen sie trainiert wurden, und gleichzeitig eine Überanpassung zu vermeiden, was in diesem Fall bedeuten würde, dass neue Stichproben generiert werden, die zu sehr mit den ursprünglichen Daten übereinstimmen.
Um eine neue Stichprobe zu generieren, tastet die VAE einen zufälligen latenten Vektor (ε) innerhalb der gaußschen Einheit ab – mit anderen Worten, wählt einen zufälligen Startpunkt innerhalb der Normalverteilung aus – verschiebt ihn um den Mittelwert der latenten Verteilung (μ) und skaliert ihn um die Varianz der latenten Verteilung (σ). Dieser Vorgang wird als Reparametrisierungstrick bezeichnet5 und vermeidet eine direkte Stichprobe der Variationsverteilung: Da der Prozess zufällig ist, weist er keine Ableitung auf – wodurch die Notwendigkeit einer Backpropagation über den Stichprobenprozess entfällt.
Wenn eine VAE für generative Aufgaben verwendet wird, kann der Encoder nach dem Training meist verworfen werden. Fortgeschrittenere Weiterentwicklungen von VAEs, wie z. B. bedingte VAEs, geben dem Benutzer mehr Kontrolle über generierte Samples, indem sie bedingte Eingaben bereitstellen, die den Ausgang des Encoders modifizieren.