Startseite

Themen

Synthetische Daten

Was sind synthetische Daten?
Generieren Sie synthetische Daten mit Lösungen von IBM Für KI-Updates anmelden
Illustration mit Collage aus Piktogrammen von Wolken, Kreisdiagramm, Diagrammpiktogrammen
Was sind synthetische Daten?

Synthetische Daten sind Daten, die durch Computersimulationen künstlich erzeugt wurden oder die von Algorithmen generiert werden können, um reale Daten zu ersetzen. Die Daten können als Alternative oder Ergänzung zu realen Daten verwendet werden, wenn reale Daten nicht ohne weiteres verfügbar sind. Es kann auch bei Data Science-Experimenten hilfreich sein.

Diese neuen Daten können als Platzhalter für Testdatensätze verwendet werden und werden aufgrund ihrer Vorteile für den Datenschutz häufiger für das Trainieren von Modellen für maschinelles Lernen verwendet. Ein Beispiel sind synthetische Daten, die im Gesundheitswesen verwendet werden, um Patientendaten zu schützen und klinische Studien zu verbessern. Das Interesse des Gesundheitswesens ergibt sich aus den Compliance-Vorschriften rund um Patientendaten. HIPPA oder The Health Insurance Portability and Accountability Act ist ein US-amerikanisches Bundesgesetz, das die Informationen von Einzelpersonen vor Diskriminierung schützt. Synthetische Daten helfen dabei, dies zu überwinden, indem sie KI-generierte Daten erzeugen.

Während es sich um künstliche Daten handelt, spiegeln synthetische Daten reale Ereignisse auf mathematischer und statistischer Basis wider. Die Technik gewinnt bei der Weiterentwicklung von Deep Learning und vielen anderen Anwendungsfällen immer mehr an Popularität. 

Das Marktforschungsunternehmen Gartner prognostiziert (Link befindet sich außerhalb ibm.com), dass bis 2024 60 % der für das Trainieren von KI-Modellen verwendeten Daten synthetisch generiert werden.

So wählen Sie das richtige Foundation Model für die KI

Nutzen Sie dieses Framework zur Modellauswahl, um das am besten geeignete Modell auszuwählen und dabei Ihre Leistungsanforderungen mit den Kosten, Risiken und Bereitstellungsanforderungen in Einklang zu bringen.

Ähnliche Inhalte Registrieren Sie sich für das Whitepaper über KI-Governance
Wie funktionieren synthetische Daten?

Synthetische Daten werden programmatisch mit Techniken des maschinellen Lernens erstellt, um die statistischen Eigenschaften realer Daten widerzuspiegeln. Synthetische Daten können auf viele verschiedene Arten generiert werden, wobei es eigentlich keine Begrenzungen hinsichtlich Größe, Zeit oder Ort gibt. 

Der Datensatz kann von tatsächlichen Ereignissen oder Objekten oder Menschen mithilfe von Computersimulationen oder Algorithmen gesammelt werden. Eine Möglichkeit, synthetische Daten zu generieren, sind Open Source-Tools zur Datengenerierung, die gekauft oder erworben werden können. Zur Erstellung der synthetischen Daten werden die Tools zur Datengenerierung verwendet. Bei der Verwendung des Tools können Data Scientists, indem sie den Prozess der synthetischen Daten durchlaufen, Informationen modellieren, die bereits von den realen Daten erstellt wurden, und auf dieser Grundlage einen neuen Datensatz erstellen. 

Ein Beispiel dafür ist Synthetic Data Vault (SDV), das am MIT entwickelt wurde. Dabei handelt es sich um ein Ökosystem aus Bibliotheken zur Generierung synthetischer Daten, „das es Benutzern ermöglicht, problemlos Single-Table-  (Link befindet sich außerhalb von ibm.com), Multi-Table-  (Link befindet sich außerhalb von ibm.com) und Zeitreihen- Datensätze (Link befindet sich außerhalb von ibm.com) zu erlernen, um später neue synthetische Daten zu generieren, die dasselbe Format und dieselben statistischen Eigenschaften wie der ursprüngliche Datensatz haben“, so SDV (Link befindet sich außerhalb von ibm.com).

Im Folgenden finden Sie die verschiedenen Arten von Methoden zur Erstellung synthetischer Daten: 

Variational Auto Encoder (VAE): VAEs sind generative Modelle, bei denen Encoder-Decoder-Netzwerkpaare trainiert werden, um Trainingsdatenverteilungen so zu rekonstruieren, dass der latente Raum des Encoder-Netzwerks glatt ist.

Video (8:22) von Generative Adversarial Networks (GANs): GAN wurde von Ian Goodfellow zur Erstellung gefälschter Bilder entwickelt, die die echten Bilder replizieren. GANs sind sehr gut für das Modelltraining zur Erzeugung realistischer, sehr detaillierter Darstellungen geeignet.

GANs (Generative Aversarial Networks) ist ein Tool für maschinelles Lernen, das in seiner Architektur zwei neuronale Netze verwendet. Das Ziel des Generatornetzwerks ist die Erzeugung Fake Output. Wenn wir das Beispiel einer Blume nehmen, nimmt es zufällige echte Blumen und produziert künstliche Blumen als Ausgabe.

Gegenüberstellung: Synthetische Daten – Datenerweiterung – Datenanonymisierung

Die Verbreitung synthetischer Daten ist relativ neu und darf nicht mit Datenerweiterung oder Datenanonymisierung verwechselt werden. Sehen wir uns die Unterschiede zwischen diesen Begriffen genauer an.

Die Datenerweiterung ist eine Technik, bei der die Originaldaten mit einigen geringfügigen Änderungen verwendet und modifizierte Kopien erstellt werden. Der Zweck besteht darin, den Datensatz künstlich zu vergrößern. Eine häufige Anwendung ist die Bildvergrößerung mit Hilfe von Filtern, wie z. B. Weichzeichnen und Drehen, um neue Versionen von bestehenden Bildern oder Frames zu erstellen. Mit dieser Technik wird beispielsweise ein Bild aufgehellt oder gedreht, um ein neues Bild zu erstellen. 

Bei der Datenanonymisierung handelt es sich um eine Technik, mit der Sie sensible Daten wie personenbezogene Daten oder vertrauliche Geschäftsdaten schützen und so das Risiko einer Gefährdung vertraulicher Daten vermeiden können. Sie wird in Richtlinienregeln definiert, die für ein Asset durchgesetzt werden. Je nach Methode der Datenanonymisierung werden Daten in der Asset-Vorschau redigiert, maskiert oder ersetzt.

Im Gegensatz zu den oben genannten Techniken verwenden synthetische Daten maschinelles Lernen, um völlig neue Daten künstlich zu generieren, anstatt die realen Daten zu ändern oder zu modifizieren.

Arten von synthetischen Daten

Synthetische Daten werden immer beliebter, da sie genau sind und große Trainingsdatensätze zum Trainieren von neuronalen Netzen generieren können, ohne den Aufwand oder die Kosten einer manuellen Datenkennzeichnung. Die Einsatzmöglichkeiten sind vielfältig und es gibt verschiedene Ansätze, die in Betracht zu ziehen sind.

Im Folgenden werden einige Arten von synthetischen Daten erläutert:

  • Vollsynthetisch: Bei dieser Technik werden keine echten Daten verwendet. Das Computerprogramm kann jedoch reale Datenmerkmale verwenden, um realistische Parameter einzugrenzen und abzuschätzen. Normalerweise identifiziert der Datengenerator für diese Technik die Dichtefunktion von Merkmalen in den realen Daten und nimmt dann eine Abschätzung der Parameter vor. Die Daten werden dann nach dem Zufallsprinzip generiert und bieten dadurch einen starken Datenschutz. Datenschutzgeschützte Daten werden bei dieser Technik nur maskiert.
  • Teilsynthetisch: Bei dieser Technik wird nur ein Teil einiger ausgewählter vertraulicher Merkmale durch synthetische Werte ersetzt, während einige reale Daten oder vorhandene unstrukturierte Daten beibehalten werden. Diese Technik kann hilfreich sein, wenn Data Scientists versuchen, die Lücken in den Originaldaten zu füllen, und wird durchgeführt, um den Datenschutz der neu generierten Daten zu wahren. Zu den Techniken, die zur Generierung dieser Art von Daten verwendet werden, gehören Multiple-Imputation und modellbasierte Techniken.
  • Hybrid: Eine Kombination aus echten und synthetischen Daten, bei der zufällige Datensätze aus einem echten Datensatz mit ähnlichen synthetischen Datensätzen gekoppelt werden. Diese Technik bietet sowohl bei vollständig als auch bei teilweise synthetischen Daten Vorteile. Sie kann zwar eine gute Wahrung des Datenschutzes bieten, aber die längere Verarbeitungszeit und ein Mehrbedarf an Speicherplatz sind von Nachteil.
Nutzen und Herausforderungen synthetischer Daten

Nun da synthetische Daten zunehmend belieberter werden, ist es wichtig, sowohl die überzeugenden Vorteile als auch die Herausforderungen bei ihrer Verwendung zu betrachten. Bei der Generierung synthetischer Daten sind hochqualifizierte künstliche Intelligenz oder KI-Spezialisten erforderlich, die die Feinheiten der Funktionsweise von Daten verstehen. Firmen oder Unternehmen, die synthetische Daten nutzen möchten, müssen auch ein Framework zur Überprüfung der Genauigkeit ihrer Datengenerierungsprojekte einrichten. 

  • Datenqualität: Im Gegensatz zu realen Daten werden bei synthetischen Daten die Ungenauigkeiten oder Fehler beseitigt, die bei der Arbeit mit Daten auftreten können, die in der realen Welt erstellt werden. Synthetische Daten können qualitativ hochwertige und ausgewogene Daten liefern, wenn sie mit den richtigen Variablen versehen sind. Die künstlich erzeugten Daten sind auch in der Lage, Missing Values zu ergänzen und Beschriftungen zu erstellen, die genauere Vorhersagen für Ihr Unternehmen oder Ihr Geschäft ermöglichen können.  

Die Datenkennzeichnung ist ein zeitaufwändiger Aspekt des maschinellen Lernens und synthetische Daten machen diesen mühsamen Schritt überflüssig. Dies führt nicht nur zu Zeitersparnis sondern auch zu einer Kostenreduzierung. Synthetische Daten wurden bereits synthetisch generiert und sind daher bereits korrekt gekennzeichnet. 

  • Skalierbarkeit: Um maschinelles Lernen richtig nutzen zu können, sind große Datenmengen erforderlich, und hier kommen synthetische Daten ins Spiel. Es ist häufig schwierig, die für das Trainieren und Testen eines Vorhersagemodells erforderliche Datenmenge zu erhalten. Hier können synthetische Daten helfen und die Lücken füllen, um reale Daten zu ergänzen und einen größeren Umfang an Inputs zu erhalten. 

Ein weiterer Vorteil von synthetischen Daten besteht darin, dass sie für die Gewinnung von Trainingsdaten für Grenzfälle nützlich sein können. Hierbei handelt es sich um Ereignisse oder Instanzen, die selten auftreten können, aber für Ihr KI-Modell wichtig sind. Die Fähigkeit synthetischer Daten, Daten für Grenzfälle zu liefern, ermöglicht es Unternehmen, in verschiedenen Bereichen schneller zu innovieren, da sie nicht darauf warten müssen, dass neue, seltene Datenpunkte generiert werden.

Es gibt auch einige Anwendungsfälle, die so neu sind, dass es keine echten Daten gibt, und hier können KI-generierte Daten eine Rolle spielen. Ein Beispiel hierfür ist die Aufbereitung von Datensätzen für die potenziellen Auswirkungen einer globalen Pandemie, für die es möglicherweise noch keine echten Daten gibt.

  • Benutzerfreundlichkeit: Bei realen Daten sind häufig mehrere Außenfaktoren zu berücksichtigen, z. B. Datenschutz, Filterfehler und die Notwendigkeit, Daten zu konvertieren, damit die Formate übereinstimmen. Synthetische Daten hingegen sind einfacher zu erstellen und Ungenauigkeiten und Duplikate werden eliminiert. Dadurch wird sichergestellt, dass alle Daten eine einheitliche Formatierung und Kennzeichnung haben, was bei der Arbeit mit großen Datenmengen erforderlich ist. 
  • Verzerrung: Ein Vorteil synthetischer Daten ist, dass sie uns helfen können, eine Verzerrung zu reduzieren, weil wir mit ihrer Hilfe ausgewogene Datensätze erstellen können. Während synthetische Daten auf realen Daten basieren, können die Modelle des maschinellen Lernens auftretende Verzerrungen abmildern. 

Synthetische Daten sind keine perfekte Lösung zur Vermeidung von Verzerrungen, wie sie in der Forschung mit synthetischen Daten im Bereich der Medizin zu beobachten sind. Studien zeigen, dass einige Patientenkohorten in realen Daten unterrepräsentiert sein könnten und daher beim maschinellen Lernen Verzerrungen auftreten können. 

  • Datenschutz: Die Bedenken hinsichtlich des Datenschutzes bei der Verwendung von realen Daten werden bei der Verwendung von synthetischen Daten mehr oder weniger ausgeräumt und sind ein großer Vorteil für Unternehmen. Die von der KI generierten Daten können wie reale Daten sein, aber sie können nicht auf einen einzigen ursprünglichen Datensatz zurückgeführt werden. Die Technik wird als Problemumgehung für personenbezogene Daten angepriesen, die normalerweise nicht verwendet werden können. 
Anwendungsfälle aus der Branche für synthetische Daten  
  • Gesundheitsdienstleister: Die Verwendung synthetischer Daten durch KI System-GANs hat viel Aufmerksamkeit erregt, da sie laut The Lancet (Link befindet sich außerhalb von ibm.com) „high-fidelity fake data“ (originalgetreue gefälschte Daten) erstellen können. Synthetische Daten erfreuen sich an Popularität, da sie als Methode zur Wahrung des Datenschutzes von Patienten und zur Verbesserung der klinischen Forschung dienen können, ohne die Krankenakten eines Patienten zu kompromittieren. „Synthetische Daten beinhalten die Möglichkeit, Fake-Patientenakten und medizinische Bilder zu erstellen, die wirklich nicht identifizierbar sind, weil sich die Daten nicht auf eine echte Person beziehen. In gewisser Weise sind die synthetischen Daten eine Ableitung der ursprünglichen realen Daten, aber kein synthetischer Datenpunkt kann einem einzelnen realen Datenpunkt zugeordnet werden“, so The Lancet. 
  • Autonomes Fahren: Unternehmen, die selbstfahrende Fahrzeuge herstellen, verwenden synthetische Daten, um Fahrzeuge durch eine realistische Simulation sicher zu testen. Die synthetischen Daten können erstellt werden, um selbstfahrende Fahrzeuge zu trainieren, auf einem simulierten Parkplatz und um Fußgänger herum zu navigieren. Die Technik trägt dazu bei, selbstfahrende Autos zu revolutionieren und könnte einer der Hauptgründe dafür sein, dass sie es in der realen Welt auf die Straße schaffen. Bei herkömmlichen Methoden zur Datenerfassung müssen Unfälle oder unglückliche Zusammenstöße auf der Straße in Echtzeit stattfinden. Mithilfe synthetischer Daten können die Informationen jedoch künstlich erstellt werden, ohne dass es zu Unfällen kommt.
  • Bankwesen: Der Finanzsektor erhält einen Nutzen durch die Möglichkeit, mit synthetischen Daten betrügerische Aktivitäten auf Kredit- und Debitkarten aufzudecken. Kreditkartenzahlungen, die wie normale Transaktionsdaten aussehen und sich auch so verhalten, können durch Techniken mit synthetischen Daten aufgedeckt werden. Synthetische Daten können zum Testen von Betrugserkennungssystemen verwendet werden, um sicherzustellen, dass diese richtig funktionieren und/oder neue Möglichkeiten für die Erkennung zu schaffen. 

Beitrag von IBM zu synthetischen Daten 

Während synthetische Daten in vielen verschiedenen Branchen immer beliebter werden, gehören die bekanntesten Anwendungsfälle bei IBM zu den folgenden:

  • Trainieren von KI-/ML-Modellen: Synthetische Daten werden zunehmend für das Trainieren von KI-Modellen verwendet. Ein Beispiel dafür sind synthetische Bilder, die für bestimmte KI-Aufgaben hergestellt werden. Die künstlichen Bilder sind computergeneriert, um echt auszusehen, benötigen jedoch nicht die Berechtigungen, die reale Daten mit sich bringen. Eine Möglichkeit hierfür sind generative Modelle. IBM-Forscher entwickelten in Zusammenarbeit mit Kollegen der Boston University Task2Sim (Link befindet sich außerhalb von ibm.com) ein KI-Modell, das lernt, gefälschte, aufgabenspezifische Daten zu generieren, um Bildklassifizierungsmodellen vorzutrainieren. „Das Schöne an synthetischen Bildern ist, dass man ihre Parameter kontrollieren kann – den Hintergrund, die Beleuchtung und die Art und Weise, wie die Objekte positioniert sind“, so Rogerio Feris, ein IBM-Forscher und Mitverfasser beider Artikel. „Sie können unbegrenzt viele Trainingsdaten generieren und erhalten Kennzeichnungen kostenlos.“
  • Sprachmodelle: In einer Arbeit, die IBM auf der International Conference on Learning Representations im Jahr 2022 vorstellte, zeigten die Forscher, dass „das Vortrainieren eines Sprachmodells auf einer erfundenen Sprache, die auf Bildern basiert, die Beherrschung einer ressourcenarmen Sprache wie Urdu erleichtern könnte“, heißt es in einem IBM-Blogbeitrag. „Wenn Menschen sprechen lernen, verbinden sie Wörter mit visuellen Konzepten“, so Yang Zhang, IBM-Forscher am MIT-IBM Watson AI Lab. „Wir versuchen, diese Idee hier nachzuahmen.“

 

IBM Lösungen
watsonx.ai

Experimentieren Sie mit Foundation Models und erstellen Sie automatisch maschinelle Lernmodelle in unserem Studio der nächsten Generation für KI-Entwickler.

Jetzt erkunden
Machen Sie den nächsten Schritt

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

watsonx.ai erkunden Buchen Sie eine Live-Demo