Was sind Generative Adversarial Networks (GANs)?

Autor

Jobit Varughese

Technical Content Writer

IBM

Was ist ein GAN?

Ein Generative Adversarial Network, oder GAN, ist ein Modell des maschinellen Lernens, das darauf ausgelegt ist, realistische Daten zu generieren, indem Muster aus vorhandenen Trainings-Datensätzen gelernt werden. Es arbeitet in einem Framework des unbeaufsichtigten Lernens mit Deep Learning-Techniken, bei denen zwei neuronale Netze gegensätzlich arbeiten – eines generiert Daten, während das andere bewertet, ob die Daten real oder generiert sind.

Während sich Deep Learning bei Aufgaben wie Bildklassifizierung und Spracherkennung hervorgetan hat, war die Generierung neuer Daten, einschließlich realistischer Bilder oder Texte, aufgrund der Komplexität der Berechnungen in generativen Modellen schwieriger.

GANs, die von Ian Goodfellow in seinem 2014 erschienenen Paper Generative Adversarial Nets vorgestellt wurden, bieten eine bahnbrechende Lösung für diese Herausforderung.1 Dieses innovative Framework hat die generative Modellierung verändert und die Entwicklung von Modellen und Algorithmen erleichtert, mit denen qualitativ hochwertige, realistische Daten erzeugt werden können.

Wie funktionieren GANs?

Eine GAN-Architektur besteht aus zwei tiefen neuronalen Netzen: dem Generator Network und dem Diskriminator Network. Beim GAN-Trainingsprozess beginnt der Generator mit einer zufälligen Eingabe (Rauschen) und erzeugt synthetische Daten wie Bilder, Text oder Töne, die realen Daten des gegebenen Trainingssatzes nachahmen. Der Diskriminator wertet sowohl die generierten Proben als auch die Daten aus dem Trainingsset aus und entscheidet, ob es sich um echte oder gefälschte Daten handelt. Er weist einen Score zwischen 0 und 1 zu: Ein Score von 1 bedeutet, dass die Daten echt aussehen, und ein Score von 0 bedeutet, dass sie gefälscht sind. Anschließend wirdBackpropagation verwendet, um beide Netzwerke zu optimieren. Das bedeutet, dass der Gradient der Verlustfunktion gemäß den Parametern des Netzwerks berechnet und diese Parameter angepasst werden, um den Verlust zu minimieren. Der Generator nutzt dann das Feedback des Diskriminators, um sich zu verbessern und realistischere Daten zu erzeugen.

Die Struktur eines GAN

Das Training einer GAN-Architektur beinhaltet einen konkurrierenden Prozess. Das Generatormodell versucht, das diskriminative Modell dazu zu bringen, gefälschte Daten als echt zu klassifizieren, während der Diskriminator seine Fähigkeit, zwischen echten und gefälschten Daten zu unterscheiden, kontinuierlich verbessert. Dieser Prozess wird von Verlustfunktionen gesteuert, die die Leistung jedes Netzwerks messen. Ein Generatorverlust misst, wie gut der Generator den Diskriminator dazu täuschen kann, dass seine Daten echt sind. Ein geringer Generatorverlust bedeutet, dass der Generator erfolgreich realistische Daten erstellt. Ein Diskriminatorverlust misst, wie gut der Diskriminator zwischen gefälschten Daten und echten Daten unterscheiden kann. Ein geringer Diskriminatorverlust weist darauf hin, dass der Diskriminator gefälschte Daten erfolgreich identifiziert hat.  

In einem GAN, das darauf trainiert wurde, Bilder von Hunden zu erzeugen, wandelt der Generator beispielsweise zufälliges Rauschen in Bilder um, die Hunden ähneln, während der Diskriminator diese Bilder anhand der tatsächlichen Hundefotos aus dem Trainingssatz bewertet.

Im Laufe der Zeit treibt dieser konkurrierende Prozess beide Netzwerke dazu an, sich zu verbessern. Dadurch kann der Generator überzeugende, realistische Daten erzeugen, die dem ursprünglichen Trainingsdatensatz sehr ähnlich sind, während der Diskriminator seine Fähigkeit verbessert, subtile Unterschiede zwischen echten und gefälschten Daten zu erkennen. 

Arten von GANs

Vanilla GANs

Vanilla GANs sind die Grundform von Generative Adversarial Networks, die einen Generator und einen Diskriminator enthalten, die ein typisches konkurrierendes Spiel spielen. Der Generator erstellt gefälschte Stichproben, und der Diskriminator versucht, zwischen echten und gefälschten Datenproben zu unterscheiden. Vanilla GANs verwenden Simple Multilayer Perceptrons (MLPs) oder Schichten von Neuronen sowohl für den Generator als auch für den Diskriminator, was sie leicht zu implementieren macht. Diese MLPs verarbeiten Daten und klassifizieren Eingaben, um bekannte Objekte in einem Datensatz zu unterscheiden. Sie sind jedoch dafür bekannt, dass sie während des Trainings instabil sind und oft eine sorgfältige Abstimmung der Hyperparameter erfordern, um gute Ergebnisse zu erzielen.

Conditional GANs (cGAN)

Ein cGAN ist eine Art Generative Adversarial Network, das zusätzliche Informationen, sogenannte „Labels“ oder „Bedingungen“, sowohl für den Generator als auch für den Diskriminator enthält.2 Diese Labels liefern Kontext und ermöglichen es dem Generator, Daten mit spezifischen Eigenschaften auf der Grundlage der gegebenen Eingabe zu erzeugen, anstatt sich wie bei Vanilla-GANs ausschließlich auf zufälliges Rauschen zu verlassen. Diese kontrollierte Erzeugung macht cGANs nützlich für Aufgaben, die eine präzise Kontrolle über die Ausgabe erfordern. cGANs werden häufig zur Generierung von Bildern, Text und synthetischen Daten verwendet, die auf bestimmte Objekte, Themen oder Stile zugeschnitten sind. Ein cGAN kann beispielsweise ein Schwarz-Weiß-Bild in ein Farbbild umwandeln, indem es den Generator so konditioniert, dass er Graustufen in das Farbmodell Rot, Grün, Blau (RGB) umwandelt. In ähnlicher Weise kann es ein Bild aus Texteingaben erzeugen, z. B. „Erstellen Sie ein Bild einer weißen felligen Katze“, und erzeugt eine Ausgabe, die mit der bereitgestellten Beschreibung übereinstimmt.

Deep Convolutional GAN (DCGAN)

Deep Convolutional GAN (DCGAN) verwendet Convolutional Neural Networks (CNNs) sowohl für den Generator als auch für den Diskriminator. Der Generator nimmt zufälliges Rauschen als Eingabe und wandelt es in strukturierte Daten, wie z. B. Bilder, um. Er verwendet transponierte Faltungen (oder Entfaltungen), um das Eingaberauschen in eine größere, detailliertere Ausgabe hochzuskalieren, indem das Rauschen „vergrößert“ wird, um ein aussagekräftiges Bild zu erstellen. Der Diskriminator verwendet standardmäßige Faltungsschichten, um die Eingabedaten zu analysieren. Diese Schichten helfen dem Diskriminator, „herauszuzoomen“ und die Gesamtstruktur und die Details der Daten zu betrachten, um eine Entscheidung zu treffen. Dieser Ansatz macht DCGANs effektiv bei der Erzeugung hochwertiger Bilder und anderer strukturierter Daten. 

StyleGAN

Style GAN ist eine Art Generative Adversarial Network, das hochauflösende Bilder bis zu einer Auflösung von 1024 x 1024 erzeugt. StyleGANs werden mithilfe eines Datensatzes von Bildern desselben Objekts trainiert. Das Generatornetz besteht aus mehreren Schichten, die jeweils dafür verantwortlich sind, dem Bild unterschiedliche Detailstufen hinzuzufügen, von grundlegenden Funktionen bis hin zu komplexen Texturen. Das Diskriminator-Netzwerk hat ebenfalls mehrere Schichten, die den Detailgrad bewerten und die Gesamtqualität beurteilen.

CycleGAN

In einem CycleGAN werden der Generator und der Diskriminator zyklisch trainiert. Es ist für die Bild-zu-Bild-Übersetzung unter Verwendung ungepaarter Datensätze konzipiert. Dabei wird ein Bild mit Hilfe eines Generators in einen anderen Stil, z.B. ein Gemälde, übersetzt und dann mit Hilfe eines umgekehrten Generators in den ursprünglichen Stil zurückübersetzt. Mit dieser Methode kann sichergestellt werden, dass das rekonstruierte Bild dem Original durch einen Prozess namens Zykluskonsistenz sehr ähnlich ist. Diese Ergebnisse sind besonders für Aufgaben wie die Übertragung von Bildstilen und die Bildverbesserung nützlich. 

Laplace-Pyramide GAN (LAPGAN)

Ein Laplace-Pyramiden-GAN (LAPGAN) wurde entwickelt, um qualitativ hochwertige Bilder zu erzeugen, indem sie in mehreren Maßstäben verfeinert werden. Es beginnt mit der Erstellung eines Bildes mit niedriger Auflösung und fügt dann mithilfe einer Reihe von GANs nach und nach weitere Details mit höherer Auflösung hinzu. Dieser mehrskalige Ansatz, der als Laplace-Pyramid bekannt ist, ermöglicht es LAPGAN, die Komplexität der Erzeugung hochauflösender Bilder effektiver zu bewältigen.

DiscoGAN

DiscoGAN wird verwendet, um domänenübergreifende Beziehungen zu lernen, ohne dass gepaarte Trainingsdaten erforderlich sind. Es werden zwei Generatoren und zwei Diskriminatoren verwendet, um Bilder von einer Domäne in eine andere und zurück zu übersetzen und so sicherzustellen, dass das rekonstruierte Bild durch Zykluskonsistenz dem Original sehr ähnlich ist. Dies macht DiscoGAN effektiv für Aufgaben wie Bild-zu-Bild-Übersetzung, Stilübertragung und Bildverbesserung, selbst bei unpaaren Datensätzen. 

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Anwendungen von GANs

GANs können für verschiedene Anwendungen von Computer Vision, Bildgenerierung, Objekterkennung, Bild-zu-Bild-Übersetzung, Text-zu-Bild-Generierung, Vorhersage des nächsten Bildes im Video und mehr verwendet werden.

Bildgenerierung

GANs werden verwendet, um photorealistische Bilder von Mustern zu erzeugen, die es nie gegeben hat, und um Bilder aus Textbeschreibungen zu erstellen, was die Erstellung von Bildern auf der Grundlage bestimmter Attribute oder Szenen ermöglicht. BigGAN, das mit großen Datensätzen trainiert wurde, generiert Daten basierend auf bestimmten Klassen oder Bedingungen und erzielt modernste Ergebnisse bei der Bildgenerierung.3 Es wird für verschiedene Anwendungen verwendet, darunter Bildsynthese, Einfärbung und Rekonstruktion. GAN-BVRM, eine neuartige GAN-basierte Bayes'sche visuelle Rekonstruktionsmethode, verwendet beispielsweise einen Klassifikator, um funktionale Magnetresonanztomographie-Daten (fMRI) zu dekodieren. Ein vortrainierter BigGAN-Generator erzeugt kategoriespezifische Bilder und Kodierungsmodelle wählen Bilder aus, die sich an der Gehirnaktivität orientieren und so eine verbesserte Natürlichkeit und Treue bei der Rekonstruktion von Bildreizen erreichen. GANs machen bedeutende Fortschritte im Gesundheitswesen, indem sie realistische medizinische Daten wie MRTs, CT-Scans und Röntgenbilder für Training und Analyse generieren und neue molekulare Strukturen für die Arzneimittelforschung schaffen. 

Superauflösung des Bildes

GANs können Bilder mit niedriger Auflösung verbessern, indem sie hochauflösende Variationen erzeugen und so die Qualität und Detailgenauigkeit von Bildern verbessern. StyleGAN2 von NVIDIA beispielsweise erzeugt hochauflösende, hochrealistische Bilder mit fein abgestufter Kontrolle über Attribute wie Inhalt, Identität, Ausdruck und Pose, sodass Benutzer Bilder für künstliche und praktische Anwendungen erstellen und bearbeiten können.4

Bild-zu-Bild-Übersetzung

GANs führen die Stilübertragung und Bildbearbeitung durch, indem sie Bilder von einer Domäne in eine andere umwandeln, z. B. eine Skizze in eine gezeichnete Version umwandeln. CycleGANs werden beispielsweise zur Umwandlung von Fotos in Gemälde eingesetzt. Bei diesem Prozess konvertiert ein Generator Bilder von der Quelldomäne Fotos) in die Zieldomäne (Gemälde) und umgekehrt, und zwar durch eine zyklische Einschränkung, die dazu beiträgt, dass die Zuordnung ihre semantische Kohärenz beibehält. 

Video-Retargeting 

GANs werden für das unbeaufsichtigte Video-Retargeting verwendet, bei dem Videoinhalte an verschiedene Seitenverhältnisse und Formate angepasst werden, während wichtige visuelle Informationen erhalten bleiben. Recycle-GANs verwenden eine ähnliche zyklische Strategie, die häufig in CycleGANs zu finden ist, und wenden sie speziell auf Videodaten an. Recycle-GANs können beispielsweise ein Breitbildvideo in ein quadratisches Format für Social-Media-Plattformen konvertieren und so sicherstellen, dass die Schlüsselelemente und Bewegungen im Video intakt bleiben.5

Manipulation von Gesichtsmerkmalen 

GANs ermöglichen die Veränderung von Gesichtszügen in Bildern, wie z. B. eine Veränderung des Gesichtsausdrucks oder Alterungseffekte, und zeigen ihr Potenzial in der Unterhaltung und sozialen Medien für Funktionen. StyleGAN funktioniert, indem es eine schichtweise Modifikation auf die generierten Samples anwendet, die auf „Stilen“ basiert, die aus dem latenten Raum extrahiert wurden. Dieser Prozess ermöglicht eine intuitive Steuerung über verschiedene Attribute wie Haarfarbe und Gesichtsausdruck, sodass Benutzer Gesichter nach bestimmten Funktionen ohne manuelle Anpassungen manipulieren können. StyleGAN kann zum Beispiel verwendet werden, um die Haarfarbe einer Person von Braun zu Blond zu ändern oder einem neutralen Gesichtsausdruck ein Lächeln zu verleihen. 

Objekterkennung 

GANs werden bei der Erkennung eingesetzt, um die Qualität und Vielfalt von Trainingsdaten zu verbessern, was die Leistung von Erkennungsmodellen erheblich verbessern kann. Durch die Erzeugung synthetischer Bilder, die realen Daten sehr ähnlich sind, erweitern GANs den Trainingsdatensatz und helfen dem Modell, besser zu generalisieren und genauer zu arbeiten. Untersuchungen haben beispielsweise gezeigt, dass die Leistung von Deep-Learning-Modellen für die Objekterkennung deutlich abnimmt, wenn sie auf Bilder mit reduzierter Qualität angewendet werden, z. B. auf Bilder, die durch Rauschen, Unschärfe oder andere Verzerrungen beeinträchtigt sind.6 Der Artikel stellt das GAN-DO-Framework vor, das GANs einsetzt, um die Robustheit von Objekterkennungsmodellen gegenüber unterschiedlichen Bildqualitäten zu verbessern, ohne die Modellarchitektur oder die Inferenzgeschwindigkeit zu erhöhen. Experimentelle Ergebnisse zeigen, dass GAN-DO herkömmliche Feinabstimmungsmethoden übertrifft, was zu einer verbesserten Genauigkeit bei der Objekterkennung führt.

AI Academy

Der Aufstieg der generativen KI für Unternehmen

Erfahren Sie mehr über den historischen Aufstieg der generativen KI sowie darüber, was sie für Unternehmen bedeutet.

Weitere generative Modelle zur Generierung synthetischer Daten

Neben GANs sind Variational Autoencoder (VAEs) ein weiteres Deep-Learning-Modell, mit dem neue Datenproben erstellt werden können, die reale Daten imitieren. VAEs sind probabilistische Modelle, d. h. sie stellen Daten anhand von Wahrscheinlichkeitsverteilungen dar, die Wahrscheinlichkeit beschreiben, dass unterschiedliche Ergebnisse oder Werte in den Daten auftreten. Diese Modelle sind darauf ausgelegt, Muster aus einem Datensatz zu lernen und neue Daten zu erstellen, die Variationen des ursprünglichen Datensatzes und keine exakten Replikate sind. Ein Variational Autoencoder (VAE) enthält zwei Komponenten. Der Encoder (Erkennungsmodell) komprimiert komplexe Eingabedaten wie Bilder in einfachere niedrigdimensionale Daten, und der Decoder (generatives Modell) erstellt die ursprüngliche Eingabe aus der komprimierten Darstellung neu. VAEs können auch völlig neue Stichproben des Datenlernens aus den Mustern des Datensatzes generieren. VAEs erzeugen in der Regel unscharfe und weniger klare Ausgaben, sind aber stabiler zu trainieren, während GANs schärfere und realistischere Ausgaben erzeugen, aber aufgrund der Instabilität schwieriger zu trainieren sind.

Letztendlich hängt die Wahl zwischen VAEs und GANs von den spezifischen Anforderungen der Aufgabe ab, wie z. B. der gewünschten Ausgabequalität, der Trainingsstabilität und dem Bedarf an interpretierbaren latenten Darstellungen, wodurch jedes Modell in verschiedenen Anwendungen einzigartig wertvoll wird.

Vorteile und Herausforderungen von GAN

Generative Adversarial Networks (GANs) können äußerst realistische und vielfältige Daten wie Bilder, Text und Audio generieren. Sie werden in Anwendungen wie Verarbeitung natürlicher Sprache (NLP) verwendet, um Textdaten zu generieren und Sprachmodelle zu verbessern, und in der Musikgenerierung, um neue Kompositionen und realistische Instrumentenklänge zu kreieren. Simulationen und Spiele nutzen GANs, um realistische Umgebungen und Figuren zu erzeugen sowie Anomalien zu erkennen, indem Muster identifiziert werden, die von der Norm abweichen. GANs unterstützen auch die wissenschaftliche Forschung, indem sie komplexe Daten für Experimente simulieren, deren Durchführung kostspielig oder unpraktisch ist. Sie verbessern die Prozesse des maschinelles Lernen (ML) durch Datenerweiterung und erhöhen die Menge und Vielfalt der Trainingssets, um die Herausforderung der begrenzten Big Data zu meistern. Es wird erwartet, dass GANs weiter in Technologien wie Reinforcement Learning, Robotertechnik und NLP integriert werden, um Systeme künstlicher Intelligenz (KI) voranzutreiben. 

Trotz des Aufstiegs von Transformern bleiben GANs aufgrund ihrer schlanken Architektur und Recheneffizienz relevant, was sie ideal für die Edge-Bereitstellung macht. Mit weniger Parametern im Vergleich zu Transformern bieten GANs eine kontrollierte Generierung zur feinkörnigen Manipulation von Funktionen (z. B. Gesichtsattribute), was die Feinabstimmung für bestimmte Aufgaben vereinfacht. GANs bieten schnellere Inferenzgeschwindigkeiten, da ein einziger Vorwärtsdurchlauf (oder ein einmaliger Eingabefluss durch ein neuronales Netz zur Erzeugung einer Ausgabe) erforderlich ist. Dies macht sie ideal für Echtzeitanwendungen auf ressourcenbeschränkten Edge-Geräten wie Mobiltelefonen und IoT-Systemen. Diese Vorteile machen GANs zu einer praktischen Wahl für Aufgaben wie Bildübersetzung, Superauflösung und Echtzeit-Videosynthese in Edge-Umgebungen. 

Allerdings stehen GANs vor großen Herausforderungen. Eines der Hauptprobleme ist die Instabilität des Trainings, bei der Generator und Diskriminator möglicherweise nicht richtig konvergieren, was zu minderwertigen Outputs führt. Der Zusammenbruch des Modus ist eine weitere Herausforderung, bei der der Generator eine begrenzte Vielfalt erzeugt und nicht die volle Vielfalt der Trainingsdaten erfasst. GANs erfordern außerdem große Datenmengen und erhebliche Rechenressourcen, was ein Hindernis für ihre weit verbreitete Nutzung darstellen kann. Die Bewertung der Qualität der GAN-generierten Outputs ist eine Herausforderung, da herkömmliche Metriken die Nuancen der generierten Daten möglicherweise nicht vollständig erfassen. Es ist ein wachsendes Anliegen, die ethische Verwendung von generierten Proben zu gewährleisten, da GANs zur Erstellung von Deep Fakes und anderen potenziell schädlichen Inhalten verwendet werden können.

So implementieren Sie ein GAN-Modell 

Ein GAN kann mit Tensorflow und Keras implementiert werden. Um ein GAN-Modell in Python zu erstellen, sind ein Trainingsdatensatz, ein Generatorskript und ein Diskriminatorskript erforderlich. Im Folgenden finden Sie eine Schritt-für-Schritt-Anleitung, die Ihnen den Einstieg erleichtern soll:

Schritt 1: Importieren Sie die erforderlichen Bibliotheken, einschließlich TensorFlow und anderer wichtiger Bibliotheken wie Numpy und Matplotlib für die Erstellung und das Training des GAN-Modells. 

Schritt 2: Laden und vrverarbeiten Sie den Datensatz, um sicherzustellen, dass er die Zieldatenverteilung darstellt (z. B. Bilder, Text und mehr).  

Schritt 3: Erstellen Sie das Generatormodell mit TensorFlow- oder Keras-Schichten, die zufälliges Rauschen aufnehmen und Datenproben erzeugen, die der Zielverteilung entsprechen.

Schritt 4: Erstellen Sie das Diskriminatormodell, um echte von gefälschten Datenbeispielen zu unterscheiden, die vom Generator erzeugt wurden. 

Schritt 5: Verwenden Sie geeignete Optimierer für Generator und Diskriminator und definieren Sie Verlustfunktionen.

Schritt 6: Kombinieren Sie den Generator und den Diskriminator in einem einzigen GAN-Modell, um den Generator so zu trainieren, dass er den Diskriminator täuscht. 

Schritt 7: Implementieren Sie eine Schleife, um zwischen dem Training des Diskriminators und des Generators mit echten und gefälschten Daten abzuwechseln.

Schritt 8: Analysieren Sie den Output des Generators und die Diskriminatorgenauigkeit über Epochen, um die Konvergenz sicherzustellen.

Schritt 9: Verwenden Sie den trainierten Generator, um neue Proben zu erstellen, die Zieldatenverteilung nachahmen.

Schritt 10: Plotten oder analysieren Sie die generierten Daten, um zu validieren, wie gut das GAN die Zielverteilung erlernt hat. 

Wenn Sie diese Schritte ausführen, kann ein grundlegendes GAN-Modell mit TensorFlow implementiert werden.  

Die Zukunft von GANs ist vielversprechend, wobei Fortschritte in Bezug auf Realismus, Stabilität, Effizienz und ethische Überlegungen erwartet werden. Wenn GANs immer stärker in andere Technologien integriert werden und neue Anwendungen finden, werden sie verschiedene Branchen und Bereiche weiterhin revolutionieren.

Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Buchen Sie eine Live-Demo
Fußnoten

1 Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. Advances in neural information processing systems27.

2 Alqahtani, Hamed & Kavakli, Manolya & Kumar, Gulshan. (2019). Applications of Generative Adversarial Networks (GANs): An Updated Review. Archives of Computational Methods in Engineering. 28. 10.1007/s11831-019-09388-y.

3 Qiao, K., Chen, J., Wang, L., Zhang, C., Tong, L., & Yan, B. (2020). BigGAN-based Bayesian reconstruction of natural images from human brain activity. Neuroscience, 444, 92–105. https://doi.org/10.1016/j.neuroscience.2020.07.040.

4 Alarcon, N. (2020). Synthesizing High-Resolution Images with StyleGAN2. NVIDIA Technical Blog. https://developer.nvidia.com/blog/synthesizing-high-resolution-images-with-stylegan2.

5 Bansal, A., Ma, S., Ramanan, D., & Sheikh, Y. (2018). Recycle-GAN: Unsupervised Video Retargeting. arXiv. https://doi.org/10.48550/arXiv.1808.05174.

6 Prakash, C. D., Shrivastava, A., & Torresani, L. (2019). It GAN DO Better: GAN-based Detection of Objects on Images with Varying Quality. arXiv. https://arxiv.org/abs/1912.01707.