My IBM

Anmelden

Was ist ein Variational Autoencoder?

12. Juni 2024

Autoren

Dave Bergmann

Senior Writer, AI Models

IBM

Cole Stryker

Editorial Lead, AI Models

Was ist ein Variational Autoencoder?

Variational Autoencoder (VAEs) sind generative Modelle , die im Machine Learning (ML) verwendet werden, um neue Daten in Form von Variationen der Eingabedaten zu generieren, mit denen sie trainiert wurden. Darüber hinaus führen sie auch Aufgaben aus, die bei anderen Autoencodern üblich sind, wie zum Beispiel Denoising.

Wie alle Autoencoder sind Variational Autoencoder Deep-Learning-Modelle, die aus einem Encoder, der lernt, die wichtigen latenten Variablen aus Trainingsdaten zu isolieren, und einem Decoder bestehen, der diese latenten Variablen dann verwendet, um die Eingabedaten zu rekonstruieren.

Während die meisten Autoencoder-Architekturen jedoch eine diskrete, feste Darstellung latenter Variablen kodieren, kodieren VAEs eine kontinuierliche, probabilistische Darstellung dieses latenten Raums. Dies ermöglicht es einem VAE, nicht nur die exakte ursprüngliche Eingabe genau zu rekonstruieren, sondern auch Variationsinferenz zu verwenden, um neue Datenproben zu generieren, die den ursprünglichen Eingabedaten ähneln.

Die neurale Netzwerk-Architektur für den Variational Autoencoder wurde ursprünglich in einem Artikel von Diederik P. Kingma und Max Welling aus dem Jahr 2013 mit dem Titel ,Auto-Encoding Variational Bayes“ (Link befindet sich außerhalb von ibm.com) vorgeschlagen. In diesem Artikel wurde auch der so genannte Reparametrisierungstrick populär gemacht, eine wichtige Technik des maschinellen Lernens, die die Verwendung von Zufälligkeit als Modelleingabe ermöglicht, ohne die Differenzierbarkeit des Modells zu beeinträchtigen, d. h. die Möglichkeit, die Parameter des Modells zu optimieren.

VAEs werden zwar häufig im Zusammenhang mit der Bildgenerierung diskutiert (so auch in diesem Artikel), aber sie können für eine Vielzahl von Anwendungen der künstlichen Intelligenz (KI) verwendet werden, von der Anomalieerkennung¹ bis zur Erzeugung neuer Arzneimittelmoleküle² (Link befindet sich außerhalb von ibm.com ).

Was ist latenter Raum?

Wesentlich für das Verständnis von VAEs oder jeder anderen Art von Autoencodern ist der Begriff des latenten Raums, der Bezeichnung für die kollektiven latenten Variablen eines bestimmten Satzes von Eingabedaten. Kurz gesagt: Latente Variablen sind zugrunde liegende Variablen von Daten, die die Verteilung der Daten beeinflussen, aber oft nicht direkt beobachtbar sind.

Um das Konzept der latenten Variablen besser zu veranschaulichen, stellen Sie sich eine Brücke mit einem Sensor vor, der das Gewicht jedes sie überquerenden Fahrzeugs misst. Natürlich gibt es verschiedene Arten von Fahrzeugen, die die Brücke nutzen, von kleinen, leichten Cabrios bis hin zu riesigen, schweren Lastwagen. Da es keine Kamera gibt, können wir nicht erkennen, ob es sich bei einem bestimmten Fahrzeug um ein Cabrio, eine Limousine, einen Lieferwagen oder einen Lkw handelt. Wir wissen jedoch, dass der Fahrzeugtyp das Gewicht des Fahrzeugs maßgeblich beeinflusst.

Dieses Beispiel beinhaltet also zwei Zufallsvariablen, x und z, wobei x die direkt beobachtbare Variable des Fahrzeuggewichts und z die latente Variable des Fahrzeugtyps ist. Das primäre Trainingsziel für jeden Autoencoder ist, dass er lernt, den latenten Raum einer bestimmten Eingabe effizient zu modellieren.

Reduzierung des latenten Raums und der Dimensionalität

Autoencoder modellieren den latenten Raum durch Dimensionsreduktion: die Komprimierung von Daten in einen niedrigdimensionalen Raum, der die in der ursprünglichen Eingabe enthaltenen aussagekräftigen Informationen erfasst.

Im Kontext des maschinellen Lernens (ML) entsprechen mathematische Dimensionen nicht den vertrauten räumlichen Dimensionen der physischen Welt, sondern den Merkmalen von Daten. Zum Beispiel kann ein 28x28-Pixel-Schwarzweißbild einer handgeschriebenen Ziffer aus dem MNIST-Datensatz als 784-dimensionaler Vektor dargestellt werden, in dem jede Dimension einem einzelnen Pixel entspricht, dessen Wert von 0 (für Schwarz) bis 1 (für Weiß) reicht. Das gleiche Bild in Farbe könnte als 2.352-dimensionaler Vektor dargestellt werden, in dem jedes der 784 Pixel dreidimensional dargestellt wird, entsprechend seinen jeweiligen Rot-, Grün- und Blauwerten (RGB).

Allerdings enthalten nicht alle diese Dimensionen nützliche Informationen. Die eigentliche Ziffer selbst macht nur einen kleinen Teil des Bildes aus, so dass der größte Teil des Eingabebereichs aus Hintergrundrauschen besteht. Die Komprimierung von Daten auf nur die Dimensionen, die relevante Informationen enthalten – den latenten Raum– kann die Genauigkeit, Effizienz und Wirksamkeit vieler ML-Aufgaben und -Algorithmen verbessern.

Was ist ein Autoencoder?

VAEs sind eine Untergruppe der größeren Kategorie der Autoencoder, einer neuronalen Netzwerk -Architektur, die typischerweise beim Deep Learning für Aufgaben wie Datenkomprimierung, Bildentrauschen, Anomalieerkennung und Gesichtserkennung verwendet wird.

Autoencoder sind selbstüberwachte Systeme, deren Trainingsziel darin besteht, Eingabedaten durch Reduzierung der Dimensionalität zu komprimieren (oder zu kodieren) und dann ihre ursprüngliche Eingabe genau aus dieser komprimierten Darstellung zu rekonstruieren (oder zu dekodieren).

Grundsätzlich besteht die Funktion eines Autoencoders darin, die wichtigsten Informationen aus den Daten – ihre latenten Variablen – effektiv zu extrahieren und irrelevantes Rauschen zu verwerfen. Was die verschiedenen Arten von Autoencodern voneinander unterscheidet, ist die spezifische Strategie, die sie verwenden, um diese Informationen zu extrahieren, sowie die Anwendungsfälle, für die ihre jeweilige Strategie am besten geeignet ist.

Beim Training schickt das Encoder-Netzwerk die Eingabedaten aus dem Trainingsdatensatz durch einen „Engpass“, bevor sie den Decoder erreichen. Das Decoder-Netzwerk wiederum ist dann dafür verantwortlich, die ursprüngliche Eingabe zu rekonstruieren, indem es nur den Vektor der latenten Variablen verwendet.

Nach jeder Trainingsepoche werden Optimierungsalgorithmen wie Gradientenabstieg verwendet, um die Modellgewichte so anzupassen, dass der Unterschied zwischen der ursprünglichen Dateneingabe und der Ausgabe des Decoders minimiert wird. Schließlich lernt der Encoder, die Informationen durchzulassen, die für eine genaue Rekonstruktion am besten geeignet sind, und der Decoder lernt, diese effektiv zu rekonstruieren. 

Während sich dies intuitiv am besten für einfache Datenkomprimierungsaufgaben eignet, bietet die Fähigkeit, genaue latente Darstellungen nicht gekennzeichneter Daten effizient zu kodieren, Autoencodern eine große Bandbreite an Anwendungsmöglichkeiten. Mithilfe von Autoencodern können Sie beispielsweise beschädigte Audiodateien wiederherstellen, Graustufenbilder einfärben oder Anomalien (beispielsweise infolge von Betrug) erkennen, die mit dem bloßen Auge sonst nicht zu erkennen wären.

Autoencoder-Struktur

Obwohl verschiedene Arten von Autoencodern bestimmte Aspekte ihrer Architektur hinzufügen oder ändern, um besser an bestimmte Ziele und Datentypen angepasst zu sein, teilen alle Autoencoder drei wichtige Strukturelemente:

Der Encoder extrahiert latente Variablen der Eingabedaten x und gibt sie in Form eines Vektors aus, der den latenten Raum z darstellt.In einem typischen „Vanilla“-Autoencoder enthält jede nachfolgende Schicht des Encoders progressiv weniger Knoten als die vorherige Schicht; während die Daten jede Encoderschicht durchlaufen, werden sie durch den Prozess des „Quetschens“ in weniger Dimensionen komprimiert.

Andere Autoencoder-Varianten verwenden stattdessen Regularisierungsterme, wie z. B. eine Funktion, die Sparsity (Knappheit) erzwingt, indem sie die Anzahl der Knoten bestraft, die auf jeder Schicht aktiviert werden, um diese Dimensionalitätsreduzierung zu erreichen.

Der Engpass oder „Code“ ist sowohl die Ausgabeschicht des Encoder-Netzwerks als auch die Eingabeschicht des Decoder-Netzwerks. Er enthält den latenten Raum: die vollständig komprimierte, niedrigdimensionale Einbettung der Eingabedaten. Ein ausreichender Engpass ist erforderlich, um sicherzustellen, dass der Decoder die Eingabedaten nicht einfach kopieren oder speichern kann. Dadurch würde seine Trainingsaufgabe zwar nominell erfüllt, der Autoencoder würde jedoch am Lernen gehindert.

Der Decoder verwendet diese latente Darstellung, um die ursprüngliche Eingabe zu rekonstruieren, indem er den Encoder im Wesentlichen umkehrt: In einer typischen Decoder-Architektur enthält jede nachfolgende Schicht eine zunehmend größere Anzahl aktiver Knoten.

Während die Encoder- und Decoder-Netzwerke vieler Autoencoder aus standardmäßigen Multilayer-Perzeptrons (MLPs) aufgebaut sind, sind Autoencoder nicht auf eine bestimmte Art von neuronalem Netz beschränkt.

Für Computer Vision-Aufgaben verwendete Autoencoder sind häufig konvolutionale neuronale Netze (Convolutional Neural Networks, CNNs) und werden daher konvolutionale Autoencoder genannt. Autoencoder, die auf der Transformer-Architektur basieren, werden in vielen Bereichen eingesetzt, darunter Computer Vision³ und Musik.⁴

Ein wesentlicher Vorteil von Autoencodern gegenüber anderen Algorithmen zur Dimensionsreduktion, wie etwa der Hauptkomponentenanalyse (Principal Component Analysis, PCA), besteht darin, dass Autoencoder nichtlineare Beziehungen zwischen verschiedenen Variablen modellieren können. Aus diesem Grund verwenden die Knoten von neuronalen Netzen auf Autoencoder-Basis in der Regel nichtlineare Aktivierungsfunktionen.

In vielen Autoencoder-Anwendungen dient der Decoder nur zur Optimierung des Encoders und wird daher nach dem Training verworfen. Bei Variational Autoencodern bleibt der Decoder erhalten und wird zur Generierung neuer Datenpunkte verwendet.

Wie funktionieren Variational Autoencoder?

Was VAEs von anderen Autoencodern unterscheidet, ist die einzigartige Art und Weise, wie sie latenten Raum kodieren und die verschiedenen Anwendungsfälle, auf die ihre probabilistische Kodierung angewendet werden kann.

Im Gegensatz zu den meisten Autoencodern, bei denen es sich um deterministische Modelle handelt, die einen einzelnen Vektor diskreter latenter Variablen kodieren, handelt es sich bei VAES um probabilistische Modelle. VAEs kodieren latente Variablen von Trainingsdaten nicht als festen diskreten Wert z, sondern als kontinuierliche Bandbreite von Möglichkeiten, ausgedrückt als Wahrscheinlichkeitsverteilung p(z).

In der Bayes'schen Statistik wird dieser erlernte Bereich von Möglichkeiten für die latente Variable als Prioritätsverteilung bezeichnet. Bei der Variationsinferenz, dem generativen Prozess der Synthese neuer Datenpunkte, wird diese A-priori-Verteilung zur Berechnung der A- posteriori-Verteilung p(z|x) verwendet. Mit anderen Worten, der Wert der beobachtbaren Variablen x, wenn ein Wert für die latente Variable z angegeben ist.

Für jedes latente Attribut von Trainingsdaten kodieren VAEs zwei verschiedene latente Vektoren: einen Mittelwertvektor, „μ“, und einen Vektor der Standardabweichungen, „σ“. Im Wesentlichen stellen diese beiden Vektoren den Bereich der Möglichkeiten für jede latente Variable und die erwartete Varianz innerhalb jedes Bereichs von Möglichkeiten dar.

Durch zufällige Stichproben (Samples) aus diesem Bereich der kodierten Möglichkeiten können VAEs neue Datenproben synthetisieren, die zwar einzigartig und originell sind, aber den ursprünglichen Trainingsdaten ähneln. Obwohl diese Methodik im Prinzip relativ intuitiv ist, erfordert sie weitere Anpassungen an der Standard-Methodik für Autoencoder, um sie in die Praxis umzusetzen.

Um diese Fähigkeit von VAEs zu erläutern, werden wir die folgenden Konzepte behandeln:

Rekonstruktionsverlust
Kullback-Leibler (KL)-Divergenz
Evidenzuntergrenze (Evidence Lower Bound, ELBO)
Der Reparametrisierungstrick

Rekonstruktionsverlust

Wie alle Autoencoder verwenden VAEs den Rekonstruktionsverlust, auch Rekonstruktionsfehler genannt, als primäre Verlustfunktion im Training. Der Rekonstruktionsfehler misst die Differenz (oder „Verlust“) zwischen den ursprünglichen Eingabedaten und der rekonstruierten Version dieser vom Decoder ausgegebenen Daten. Mehrere Algorithmen, einschließlich Kreuzentropieverlust oder mittlerer quadratischer Fehler (Mean-Squared Error, MSE), können als Rekonstruktionsverlustfunktion verwendet werden.

 Wie bereits erläutert, erzeugt die Autoencoder-Architektur einen Engpass, der nur eine Teilmenge der ursprünglichen Eingabedaten zum Decoder passieren lässt. Zu Beginn des Trainings, das in der Regel mit einer zufälligen Initialisierung der Modellparameter beginnt, hat der Encoder noch nicht gelernt, welche Teile der Daten er stärker gewichten soll. Infolgedessen wird er zunächst eine suboptimale latente Darstellung ausgeben, und der Decoder wird eine ziemlich ungenaue oder unvollständige Rekonstruktion der ursprünglichen Eingabe ausgeben.

Durch die Minimierung des Rekonstruktionsfehlers mittels einer Form des Gradientenabstiegs über die Parameter des Encoder-Netzwerks und des Decoder-Netzwerks werden die Gewichte des Autoencoder-Modells so angepasst, dass eine nützlichere Kodierung des latenten Raums (und damit eine genauere Rekonstruktion) erzielt wird. Mathematisch gesehen besteht das Ziel der Verlustfunktion für die Rekonstruktion darin,p_θ(z|x) zu optimieren,wobei θ die Modellparameter darstellt, die die genaue Rekonstruktion der Eingabe x bei gegebener latenter Variable z erzwingen. 

Der Rekonstruktionsverlust allein reicht aus, um die meisten Autoencoder zu optimieren, deren einziges Ziel darin besteht, eine lernfähige komprimierte Darstellung der Eingabedaten zu erstellen, die eine genaue Rekonstruktion ermöglicht.

Das Ziel eines Variational Autoencoders besteht jedoch nicht darin, die ursprüngliche Eingabe zu rekonstruieren. Es geht darum, neue Stichproben zu generieren, die der ursprünglichen Eingabe ähneln. Aus diesem Grund wird ein zusätzlicher Optimierungsterm benötigt.

Kullback-Leibler-Divergenz

Für die Zwecke der Variationsinferenz – der Generierung neuer Proben durch ein trainiertes Modell – kann allein der Rekonstruktionsverlust zu einer unregelmäßigen Kodierung des latenten Raums führen, die eine Überanpassung an die Trainingsdaten aufweist und sich nicht gut auf neue Stichproben verallgemeinern lässt. Daher enthalten VAEs einen anderen Regularisierungsterm: Kullback-Leibler-Divergenz oder KL-Divergenz.

Um Bilder zu erzeugen, nimmt der Decoder Stichproben aus dem latenten Raum. Eine Stichprobenziehung an den spezifischen Punkten im latenten Raum, die die ursprünglichen Eingaben in den Trainingsdaten darstellen, würde diese ursprünglichen Eingaben replizieren. Um neue Bilder zu erzeugen, muss die VAE in der Lage sein, von jeder Stelle im latenten Raum zwischen den ursprünglichen Datenpunkten Proben zu nehmen. Damit dies möglich ist, muss der latente Raum zwei Arten von Regelmäßigkeit aufweisen:

Kontinuität: Nahe gelegene Punkte im latenten Raum sollten bei der Dekodierung ähnliche Inhalte liefern.
Vollständigkeit: Jeder Punkt, der aus dem latenten Raum entnommen wird, sollte bei der Dekodierung aussagekräftige Inhalte liefern.

Eine einfache Möglichkeit, sowohl Kontinuität als auch Vollständigkeit im latenten Raum zu implementieren, besteht darin, dafür zu sorgen, dass er einer Standardnormalverteilung, der sogenannten Gauß-Verteilung, folgt. Wenn Sie jedoch nur den Rekonstruktionsverlust minimieren, erhält das Modell keinen Anreiz, den latenten Raum auf eine bestimmte Weise zu organisieren, da der Zwischenraum für die genaue Rekonstruktion der ursprünglichen Datenpunkte nicht relevant ist. An dieser Stelle kommt der Begriff der KL-Divergenz-Regularisierung ins Spiel.

KL-Divergenz ist eine Metrik, die verwendet wird, um zwei Wahrscheinlichkeitsverteilungen zu vergleichen. Die Minimierung der KL-Divergenz zwischen der erlernten Verteilung latenter Variablen und einer einfachen Gaußschen Verteilung, deren Werte zwischen 0 und 1 liegen, zwingt die erlernte Kodierung latenter Variablen dazu, einer Normalverteilung zu folgen. Das ermöglicht eine reibungslose Interpolation eines beliebigen Punktes im latenten Raum und damit die Generierung neuer Bilder.

Evidenzuntergrenze (ELBO)

Ein Hindernis für die Verwendung der KL-Divergenz für die Variationsinferenz ist, dass der Nenner der Gleichung unlösbar ist, was bedeutet, dass eine direkte Berechnung theoretisch unendlich viel Zeit in Anspruch nehmen würde. Um dieses Problem zu umgehen und beide Schlüsselverlustfunktionen zu integrieren, nähern sich VAEs der Minimierung der KL-Divergenz an, indem sie stattdessen die Evidenzuntergrenze (ELBO) maximieren.

In der statistischen Terminologie bezieht sich die „Evidenz“ in „Evidenzuntergrenze“ auf p(x), die beobachtbaren Eingabedaten, für deren Rekonstruktion die VAE vordergründig verantwortlich ist. Diese beobachtbaren Variablen in den Eingabedaten sind die „Evidenz“ (Beweis) für die vom Autoencoder entdeckten latenten Variablen. Die „Untergrenze“ bezieht sich auf den ungünstigsten Schätzwert für die Log-Likelihood einer bestimmten Verteilung. Die tatsächliche Log-Likelihood kann höher sein als die ELBO.

Im Zusammenhang mit VAEs bezieht sich die Evidenzuntergrenze auf den ungünstigsten Schätzwert der Wahrscheinlichkeit (Likelihood), dass eine bestimmte A-posteriori-Verteilung – mit anderen Worten, eine bestimmte Ausgabe des Autoencoders, die sowohl durch den KL-Divergenz-Verlustterm als auch durch den Rekonstruktionsverlustterm bedingt ist – der „Evidenz“ der Trainingsdaten entspricht. Daher kann das Training eines Modells für die Variationsinferenz als Maxmierung der ELBO bezeichnet werden.

Der Reparametrisierungstrick

Wie bereits erwähnt, besteht das Ziel der Variationsinferenz darin, neue Daten in Form von Zufallsvariationen der Trainingsdaten x auszugeben. Auf den ersten Blick ist dies relativ einfach: Verwenden Sie eine Funktion ƒ, die einen Zufallswert für die latente Variable z auswählt, den der Decoder dann verwenden kann, um eine ungefähre Rekonstruktion von x zu erzeugen.

Eine inhärente Eigenschaft des Zufalls besteht jedoch darin, dass er nicht optimiert werden kann. Es gibt keine „beste“ Zufälligkeit. Ein Vektor aus Zufallswerten besitzt per Definition keine Ableitung, d. h. keinen Gradienten, der ein Muster in den resultierenden Modellausgaben ausdrückt. Aus diesem Grund kann er nicht durch Backpropagation mithilfe irgendeiner Form von Gradientenabstieg optimiert werden. Dies würde bedeuten, dass ein neuronales Netz, das das vorhergehende Zufallsstichprobenverfahren verwendet, nicht die optimalen Parameter zum Erfüllen seiner Aufgabe erlernen kann.

Um dieses Hindernis zu umgehen, verwenden VAEs den Reparametrisierungstrick. Der Reparametrisierungstrick führt einen neuen Parameter ein, ε, der ein Zufallswert ist, der aus der Normalverteilung zwischen 0 und 1 ausgewählt wird.

Anschließend wird die latente Variable z als z = μx + εσx reparametrisiert. Einfacher ausgedrückt wählt er einen Wert für die latente Variable z , indem er mit dem Mittelwert dieser Variablen (dargestellt durch μ) beginnt und ihn um ein zufälliges Vielfaches (dargestellt durch ε) einer Standardabweichung (σ) verschiebt. Bedingt durch diesen spezifischen Wert von z gibt der Decoder eine neue Stichprobe aus.

Da der Zufallswert ε nicht von den Parametern des Autoencoder-Modells abgeleitet wird und in keiner Beziehung zu diesen steht, kann er während der Backpropagation ignoriert werden. Das Modell wird durch eine Art Gradientenabstieg aktualisiert – meistens durch Adam (Link befindet sich außerhalb von ibm.com), einen ebenfalls von Kingma entwickelten gradientenbasierten Optimierungsalgorithmus –, um die ELBO zu maximieren.

Bedingte VAEs (Conditional VAEs, CVAEs)

Ein Mangel herkömmlicher „Vanilla“-VAEs besteht darin, dass der Benutzer keine Kontrolle über die spezifischen Ausgaben hat, die vom Autoencoder erzeugt werden. Ein herkömmlicher VAE, der an dem zuvor erwähnten MNIST-Datensatz trainiert wurde, erzeugt beispielsweise neue Stichproben handgeschriebener Ziffern von 0 bis 9, kann aber nicht darauf beschränkt werden, nur 4en und 7en auszugeben.

Wie der Name schon sagt, ermöglichen bedingte VAEs (CVAEs) Outputs, die durch bestimmte Eingaben konditioniert werden, anstatt ausschließlich nach dem Zufallsprinzip Variationen von Trainingsdaten zu erzeugen. Dies wird erreicht, indem Elemente des überwachten Lernens (oder halbüberwachten Lernens) neben den traditionell nicht überwachten Trainingszielen herkömmlicher Autoencoder integriert werden.

Durch weiteres Training des Modells an gekennzeichneten Beispielen für bestimmte Variablen können diese Variablen verwendet werden, um die Ausgabe des Decoders zu konditionieren. So kann ein CVAE beispielsweise zunächst anhand eines großen Datensatzes von Gesichtsbildern trainiert und dann mithilfe von überwachtem Lernen eine latente Codierung für „Bärte“ erlernt werden, sodass es neue Bilder von bärtigen Gesichtern ausgeben kann.

Branchen-Newsletter

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

VAEs vs. GANs

VAEs werden oft mit Generative Adversarial Networks (GANs) verglichen, einer anderen Modellarchitektur, die zur Generierung von Stichproben verwendet wird, die Trainingsdaten ähneln, insbesondere für Bilder.

Wie VAEs sind auch GANs eine gemeinsame Architektur, die zwei neuronale Netze kombiniert: ein Generator-Netz, das für die Ausgabe von Bildbeispielen zuständig ist, die Bildern aus dem Trainingsdatensatz ähneln, und ein Diskriminator-Netz, das dafür verantwortlich ist, zu bestimmen, ob es sich bei einem bestimmten Bild um ein „echtes“ Bild aus den Trainingsdaten handelt oder ein „gefälschtes“ Bild aus dem Generator-Netz.

Die beiden Netze werden in einem Nullsummenspiel gegeneinander trainiert: Das Feedback des Diskriminators wird verwendet, um den Output des Generators zu verbessern, bis der Diskriminator nicht mehr zwischen echten und gefälschten Proben unterscheiden kann.

Für die Bildsynthese haben beide Vor- und Nachteile: GANs erzeugen klarere Bilder, sind aber aufgrund der kontradiktorischen Kompromisse zwischen den beiden Kompositmodellen im Training instabil. VAEs sind einfacher zu trainieren, produzieren aber aufgrund der Art, wie sie Bilder aus den „durchschnittlichen“ Merkmalen der Trainingsdaten erzeugen, tendenziell unschärfere Bilder.

VAE-GANs

Ein VAE-GAN ist, wie der Name schon sagt, ein Hybrid zwischen einem Variational Autoencoder (VAE) und einem Generative Adversarial Network (GAN). Es reduziert die Unschärfe von VAE-generierten Bildern, indem es den Rekonstruktionsverlustterm des VAE-Modells durch ein Diskriminator-Netz ersetzt.

Mixture of Experts | 25. April, Folge 52

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Die neuesten Podcast-Folgen ansehen

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

Ressourcen

Neuronale Netzwerke von Grund auf neu

Verschaffen Sie sich ein umfassendes Verständnis von neuronalen Netzen, ihren grundlegenden Funktionen und den Grundlagen für den Aufbau eines solchen Netzes.

IBM Granite erkunden

IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

KI in Aktion 2024

Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.

Der CEO-Leitfaden zu generativer KI

Erfahren Sie, wie CEOs den Wert, den generative KI schaffen kann, gegen die erforderlichen Investitionen und die damit verbundenen Risiken abwägen können.

KI zum Einsatz bringen: Mehr ROI dank generativer KI

Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.

Weiterführende Lösungen

IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken

Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden

Live-Demo buchen

Fußnoten

Alle Links befinden sich außerhalb von ibm.com

1 „Novel Applications for VAE-based Anomaly Detection Systems“, arXiv, 26. April 2022.
2 „Variational autoencoder-based chemical latent space for large molecular structures with 3D complexity“, Nature, 16. November 2023.
3 „Masked Autoencoders Are Scalable Vision Learners“, arXiv, 11. November 2021.
4 „Encoding Musical Style with Transformer Autoencoders“, arXiv, 10. Dezember 2019.

Was ist ein Variational Autoencoder?

Autoren

Was ist ein Variational Autoencoder?

Was ist latenter Raum?

Reduzierung des latenten Raums und der Dimensionalität

Was ist ein Autoencoder?

Autoencoder-Struktur

Wie funktionieren Variational Autoencoder?

Rekonstruktionsverlust

Kullback-Leibler-Divergenz

Evidenzuntergrenze (ELBO)

Der Reparametrisierungstrick

Bedingte VAEs (Conditional VAEs, CVAEs)

Die neuesten KI-Trends, präsentiert von Experten

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

VAEs vs. GANs

VAE-GANs

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Ressourcen

Weiterführende Lösungen

Fußnoten