Startseite
Themen
Synthetische Daten
Synthetische Daten sind Daten, die durch Computersimulationen künstlich erzeugt wurden oder die von Algorithmen generiert werden können, um reale Daten zu ersetzen. Die Daten können als Alternative oder Ergänzung zu realen Daten verwendet werden, wenn reale Daten nicht ohne weiteres verfügbar sind. Es kann auch bei Data Science-Experimenten hilfreich sein.
Diese neuen Daten können als Platzhalter für Testdatensätze verwendet werden und werden aufgrund ihrer Vorteile für den Datenschutz häufiger für das Trainieren von Modellen für maschinelles Lernen verwendet. Ein Beispiel sind synthetische Daten, die im Gesundheitswesen verwendet werden, um Patientendaten zu schützen und klinische Studien zu verbessern. Das Interesse des Gesundheitswesens ergibt sich aus den Compliance-Vorschriften rund um Patientendaten. HIPPA oder The Health Insurance Portability and Accountability Act ist ein US-amerikanisches Bundesgesetz, das die Informationen von Einzelpersonen vor Diskriminierung schützt. Synthetische Daten helfen dabei, dies zu überwinden, indem sie KI-generierte Daten erzeugen.
Während es sich um künstliche Daten handelt, spiegeln synthetische Daten reale Ereignisse auf mathematischer und statistischer Basis wider. Die Technik gewinnt bei der Weiterentwicklung von Deep Learning und vielen anderen Anwendungsfällen immer mehr an Popularität.
Das Marktforschungsunternehmen Gartner prognostiziert (Link befindet sich außerhalb ibm.com), dass bis 2024 60 % der für das Trainieren von KI-Modellen verwendeten Daten synthetisch generiert werden.
Nutzen Sie dieses Framework zur Modellauswahl, um das am besten geeignete Modell auszuwählen und dabei Ihre Leistungsanforderungen mit den Kosten, Risiken und Bereitstellungsanforderungen in Einklang zu bringen.
Synthetische Daten werden programmatisch mit Techniken des maschinellen Lernens erstellt, um die statistischen Eigenschaften realer Daten widerzuspiegeln. Synthetische Daten können auf viele verschiedene Arten generiert werden, wobei es eigentlich keine Begrenzungen hinsichtlich Größe, Zeit oder Ort gibt.
Der Datensatz kann von tatsächlichen Ereignissen oder Objekten oder Menschen mithilfe von Computersimulationen oder Algorithmen gesammelt werden. Eine Möglichkeit, synthetische Daten zu generieren, sind Open Source-Tools zur Datengenerierung, die gekauft oder erworben werden können. Zur Erstellung der synthetischen Daten werden die Tools zur Datengenerierung verwendet. Bei der Verwendung des Tools können Data Scientists, indem sie den Prozess der synthetischen Daten durchlaufen, Informationen modellieren, die bereits von den realen Daten erstellt wurden, und auf dieser Grundlage einen neuen Datensatz erstellen.
Ein Beispiel dafür ist Synthetic Data Vault (SDV), das am MIT entwickelt wurde. Dabei handelt es sich um ein Ökosystem aus Bibliotheken zur Generierung synthetischer Daten, „das es Benutzern ermöglicht, problemlos Single-Table- (Link befindet sich außerhalb von ibm.com), Multi-Table- (Link befindet sich außerhalb von ibm.com) und Zeitreihen- Datensätze (Link befindet sich außerhalb von ibm.com) zu erlernen, um später neue synthetische Daten zu generieren, die dasselbe Format und dieselben statistischen Eigenschaften wie der ursprüngliche Datensatz haben“, so SDV (Link befindet sich außerhalb von ibm.com).
Im Folgenden finden Sie die verschiedenen Arten von Methoden zur Erstellung synthetischer Daten:
Variational Auto Encoder (VAE): VAEs sind generative Modelle, bei denen Encoder-Decoder-Netzwerkpaare trainiert werden, um Trainingsdatenverteilungen so zu rekonstruieren, dass der latente Raum des Encoder-Netzwerks glatt ist.
Video (8:22) von Generative Adversarial Networks (GANs): GAN wurde von Ian Goodfellow zur Erstellung gefälschter Bilder entwickelt, die die echten Bilder replizieren. GANs sind sehr gut für das Modelltraining zur Erzeugung realistischer, sehr detaillierter Darstellungen geeignet.
GANs (Generative Aversarial Networks) ist ein Tool für maschinelles Lernen, das in seiner Architektur zwei neuronale Netze verwendet. Das Ziel des Generatornetzwerks ist die Erzeugung Fake Output. Wenn wir das Beispiel einer Blume nehmen, nimmt es zufällige echte Blumen und produziert künstliche Blumen als Ausgabe.
Die Verbreitung synthetischer Daten ist relativ neu und darf nicht mit Datenerweiterung oder Datenanonymisierung verwechselt werden. Sehen wir uns die Unterschiede zwischen diesen Begriffen genauer an.
Die Datenerweiterung ist eine Technik, bei der die Originaldaten mit einigen geringfügigen Änderungen verwendet und modifizierte Kopien erstellt werden. Der Zweck besteht darin, den Datensatz künstlich zu vergrößern. Eine häufige Anwendung ist die Bildvergrößerung mit Hilfe von Filtern, wie z. B. Weichzeichnen und Drehen, um neue Versionen von bestehenden Bildern oder Frames zu erstellen. Mit dieser Technik wird beispielsweise ein Bild aufgehellt oder gedreht, um ein neues Bild zu erstellen.
Bei der Datenanonymisierung handelt es sich um eine Technik, mit der Sie sensible Daten wie personenbezogene Daten oder vertrauliche Geschäftsdaten schützen und so das Risiko einer Gefährdung vertraulicher Daten vermeiden können. Sie wird in Richtlinienregeln definiert, die für ein Asset durchgesetzt werden. Je nach Methode der Datenanonymisierung werden Daten in der Asset-Vorschau redigiert, maskiert oder ersetzt.
Im Gegensatz zu den oben genannten Techniken verwenden synthetische Daten maschinelles Lernen, um völlig neue Daten künstlich zu generieren, anstatt die realen Daten zu ändern oder zu modifizieren.
Synthetische Daten werden immer beliebter, da sie genau sind und große Trainingsdatensätze zum Trainieren von neuronalen Netzen generieren können, ohne den Aufwand oder die Kosten einer manuellen Datenkennzeichnung. Die Einsatzmöglichkeiten sind vielfältig und es gibt verschiedene Ansätze, die in Betracht zu ziehen sind.
Im Folgenden werden einige Arten von synthetischen Daten erläutert:
Nun da synthetische Daten zunehmend belieberter werden, ist es wichtig, sowohl die überzeugenden Vorteile als auch die Herausforderungen bei ihrer Verwendung zu betrachten. Bei der Generierung synthetischer Daten sind hochqualifizierte künstliche Intelligenz oder KI-Spezialisten erforderlich, die die Feinheiten der Funktionsweise von Daten verstehen. Firmen oder Unternehmen, die synthetische Daten nutzen möchten, müssen auch ein Framework zur Überprüfung der Genauigkeit ihrer Datengenerierungsprojekte einrichten.
Die Datenkennzeichnung ist ein zeitaufwändiger Aspekt des maschinellen Lernens und synthetische Daten machen diesen mühsamen Schritt überflüssig. Dies führt nicht nur zu Zeitersparnis sondern auch zu einer Kostenreduzierung. Synthetische Daten wurden bereits synthetisch generiert und sind daher bereits korrekt gekennzeichnet.
Ein weiterer Vorteil von synthetischen Daten besteht darin, dass sie für die Gewinnung von Trainingsdaten für Grenzfälle nützlich sein können. Hierbei handelt es sich um Ereignisse oder Instanzen, die selten auftreten können, aber für Ihr KI-Modell wichtig sind. Die Fähigkeit synthetischer Daten, Daten für Grenzfälle zu liefern, ermöglicht es Unternehmen, in verschiedenen Bereichen schneller zu innovieren, da sie nicht darauf warten müssen, dass neue, seltene Datenpunkte generiert werden.
Es gibt auch einige Anwendungsfälle, die so neu sind, dass es keine echten Daten gibt, und hier können KI-generierte Daten eine Rolle spielen. Ein Beispiel hierfür ist die Aufbereitung von Datensätzen für die potenziellen Auswirkungen einer globalen Pandemie, für die es möglicherweise noch keine echten Daten gibt.
Synthetische Daten sind keine perfekte Lösung zur Vermeidung von Verzerrungen, wie sie in der Forschung mit synthetischen Daten im Bereich der Medizin zu beobachten sind. Studien zeigen, dass einige Patientenkohorten in realen Daten unterrepräsentiert sein könnten und daher beim maschinellen Lernen Verzerrungen auftreten können.
Bankwesen: Der Finanzsektor erhält einen Nutzen durch die Möglichkeit, mit synthetischen Daten betrügerische Aktivitäten auf Kredit- und Debitkarten aufzudecken. Kreditkartenzahlungen, die wie normale Transaktionsdaten aussehen und sich auch so verhalten, können durch Techniken mit synthetischen Daten aufgedeckt werden. Synthetische Daten können zum Testen von Betrugserkennungssystemen verwendet werden, um sicherzustellen, dass diese richtig funktionieren und/oder neue Möglichkeiten für die Erkennung zu schaffen.
Während synthetische Daten in vielen verschiedenen Branchen immer beliebter werden, gehören die bekanntesten Anwendungsfälle bei IBM zu den folgenden:
Experimentieren Sie mit Foundation Models und erstellen Sie automatisch maschinelle Lernmodelle in unserem Studio der nächsten Generation für KI-Entwickler.