Synthetische Daten werden programmatisch mit Techniken des maschinellen Lernens erstellt, um die statistischen Eigenschaften realer Daten widerzuspiegeln. Synthetische Daten können auf viele verschiedene Arten generiert werden, wobei es eigentlich keine Begrenzungen hinsichtlich Größe, Zeit oder Ort gibt.
Der Datensatz kann von tatsächlichen Ereignissen oder Objekten oder Menschen mithilfe von Computersimulationen oder Algorithmen gesammelt werden. Eine Möglichkeit, synthetische Daten zu generieren, sind Open Source-Tools zur Datengenerierung, die gekauft oder erworben werden können. Zur Erstellung der synthetischen Daten werden die Tools zur Datengenerierung verwendet. Bei der Verwendung des Tools können Data Scientists, indem sie den Prozess der synthetischen Daten durchlaufen, Informationen modellieren, die bereits von den realen Daten erstellt wurden, und auf dieser Grundlage einen neuen Datensatz erstellen.
Ein Beispiel ist das Synthetic Data Vault (SDV), das am MIT entwickelt wurde. Es handelt sich dabei um ein Ökosystem zur Generierung synthetischer Daten, „das es Benutzern ermöglicht, Datensätze mit einzelnen Tabellen, mehreren Tabellen und Zeitreihen leicht zu erlernen, um später neue synthetische Daten zu generieren, die das gleiche Format und die gleichen statistischen Eigenschaften wie der Originaldatensatz haben“, so SDV.
Im Folgenden finden Sie die verschiedenen Arten von Methoden zur Erstellung synthetischer Daten:
Variational Auto Encoder (VAE): VAEs sind generative Modelle, bei denen Encoder-Decoder-Netzwerkpaare trainiert werden, um Trainingsdatenverteilungen so zu rekonstruieren, dass der latente Raum des Encoder-Netzwerks glatt ist.
Video (8:22) von Generative Adversarial Networks (GANs): GAN wurde von Ian Goodfellow zur Erstellung gefälschter Bilder entwickelt, die die echten Bilder replizieren. GANs sind sehr gut für das Modelltraining zur Erzeugung realistischer, sehr detaillierter Darstellungen geeignet.
GANs (Generative Aversarial Networks) ist ein Tool für maschinelles Lernen, das in seiner Architektur zwei neuronale Netze verwendet. Das Ziel des Generatornetzwerks ist die Erzeugung Fake Output. Wenn wir das Beispiel einer Blume nehmen, nimmt es zufällige echte Blumen und produziert künstliche Blumen als Ausgabe.