VAEs sind eine Untergruppe der größeren Kategorie der Autoencoder, einer neuronalen Netzwerk -Architektur, die typischerweise beim Deep Learning für Aufgaben wie Datenkomprimierung, Bildentrauschen, Anomalieerkennung und Gesichtserkennung verwendet wird.
Autoencoder sind selbstüberwachte Systeme, deren Trainingsziel darin besteht, Eingabedaten durch Reduzierung der Dimensionalität zu komprimieren (oder zu kodieren) und dann ihre ursprüngliche Eingabe genau aus dieser komprimierten Darstellung zu rekonstruieren (oder zu dekodieren).
Grundsätzlich besteht die Funktion eines Autoencoders darin, die wichtigsten Informationen aus den Daten – ihre latenten Variablen – effektiv zu extrahieren und irrelevantes Rauschen zu verwerfen. Was die verschiedenen Arten von Autoencodern voneinander unterscheidet, ist die spezifische Strategie, die sie verwenden, um diese Informationen zu extrahieren, sowie die Anwendungsfälle, für die ihre jeweilige Strategie am besten geeignet ist.
Beim Training schickt das Encoder-Netzwerk die Eingabedaten aus dem Trainingsdatensatz durch einen „Engpass“, bevor sie den Decoder erreichen. Das Decoder-Netzwerk wiederum ist dann dafür verantwortlich, die ursprüngliche Eingabe zu rekonstruieren, indem es nur den Vektor der latenten Variablen verwendet.
Nach jeder Trainingsepoche werden Optimierungsalgorithmen wie Gradientenabstieg verwendet, um die Modellgewichte so anzupassen, dass der Unterschied zwischen der ursprünglichen Dateneingabe und der Ausgabe des Decoders minimiert wird. Schließlich lernt der Encoder, die Informationen durchzulassen, die für eine genaue Rekonstruktion am besten geeignet sind, und der Decoder lernt, diese effektiv zu rekonstruieren.
Während sich dies intuitiv am besten für einfache Datenkomprimierungsaufgaben eignet, bietet die Fähigkeit, genaue latente Darstellungen nicht gekennzeichneter Daten effizient zu kodieren, Autoencodern eine große Bandbreite an Anwendungsmöglichkeiten. Mithilfe von Autoencodern können Sie beispielsweise beschädigte Audiodateien wiederherstellen, Graustufenbilder einfärben oder Anomalien (beispielsweise infolge von Betrug) erkennen, die mit dem bloßen Auge sonst nicht zu erkennen wären.