Was sind synthetische Daten?

31. Januar 2023

Was sind synthetische Daten?

Synthetische Daten sind künstliche Daten, die echte Daten imitieren sollen. Sie werden durch statistische Methoden oder durch den Einsatz von Techniken der künstlichen Intelligenz (KI) wie Deep Learning und generative KI generiert.

Obwohl synthetische Daten künstlich generiert werden, behalten sie die zugrunde liegenden statistischen Eigenschaften der ursprünglichen Daten bei, auf denen sie basieren. So können synthetische Datensätze reale Datensätze ergänzen oder sogar ersetzen.

Synthetische Daten können als Platzhalter für Testdaten dienen und werden in erster Linie zum Trainieren von ML-Modellen verwendet. Sie sind eine potenzielle Lösung für den ständig wachsenden Bedarf an hochwertigen, realen Trainingsdaten für KI-Modelle, die jedoch knapp sind. Synthetische Daten gewinnen auch in Sektoren wie Finanz- und Gesundheitswesen an Bedeutung, wo Daten nur begrenzt verfügbar, zeitaufwändig zu beschaffen oder aufgrund von Datenschutzbedenken und Sicherheitsanforderungen schwer zugänglich sind. Das Forschungsunternehmen Gartner prognostiziert, dass 75 % der Unternehmen bis 2026 generative KI einsetzen werden, um synthetische Kundendaten zu erstellen.1

Arten von synthetischen Daten

Synthetische Daten können in Multimedia-, Tabellen- oder Textform vorliegen. Synthetische Textdaten können für die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) verwendet werden, während synthetische tabellarische Daten zur Erstellung relationaler Datenbanktabellen verwendet werden können. Synthetische Multimediadaten wie Videos, Bilder oder andere unstrukturierte Daten können für Computer-Vision-Aufgaben wie Bildklassifizierung, Bilderkennung und Objekterkennung eingesetzt werden.

Synthetische Daten können auch nach dem Grad ihrer Synthese klassifiziert werden:

  • Vollsynthetisch

  • Teilsynthetisch

  • Hybrid

Vollsynthetisch

Bei vollsynthetischen Daten werden völlig neue Daten generiert, die keine realen Informationen enthalten. Dabei werden die Attribute, Muster und Beziehungen, die realen Daten zugrunde liegen, geschätzt, um diese so genau wie möglich nachzubilden.

Finanzunternehmen zum Beispiel könnten Stichproben für verdächtige Transaktionen fehlen, um KI-Modelle effektiv für die Betrugserkennung zu trainieren. Sie können vollsynthetische Daten generieren, die betrügerische Transaktionen darstellen, um das Modelltraining zu verbessern, was dem Ansatz des Finanzdienstleisters J.P. Morgan ähnelt.

Teilsynthetisch

Teilsynthetische Daten werden aus realen Informationen abgeleitet, ersetzen jedoch Teile des ursprünglichen Datensatzes – in der Regel solche, die sensible Informationen enthalten – durch künstliche Werte. Diese Technik zur Wahrung der Privatsphäre trägt dazu bei, personenbezogene Daten zu schützen und gleichzeitig die Eigenschaften echter Daten zu erhalten.

Teilsynthetische Daten können beispielsweise in der klinischen Forschung besonders wertvoll sein, wo echte Daten für die Ergebnisse von entscheidender Bedeutung sind, der Schutz der personenbezogenen Daten (PII) und der Krankenakten der Patienten jedoch ebenso wichtig ist.

Hybrid

Hybride synthetische Daten kombinieren reale Datensätze mit vollsynthetischen Datensätzen. Dabei werden Datensätze aus dem Originaldatensatz nach dem Zufallsprinzip mit Datensätzen aus den synthetischen Gegenstücken gekoppelt. Hybride synthetische Daten können beispielsweise verwendet werden, um Kundendaten zu analysieren und Erkenntnisse aus ihnen zu gewinnen, ohne sensible Daten auf einen bestimmten Kunden zurückzuführen.

Wie werden synthetische Daten erzeugt?

Unternehmen können ihre eigenen synthetischen Daten generieren oder Lösungen wie Synthetic Data Vault, eine Python-Bibliothek zur Erstellung synthetischer Daten, oder andere Open-Source-Algorithmen, -Frameworks, -Pakete und -Tools verwenden. Vorgefertigte Datensätze, wie z. B.IBM Synthetic Data Sets, sind eine weitere Option.

Das sind einige gängige Techniken zur Generierung synthetischer Daten:

  • Statistische Methoden

  • Generative Adversarial Networks (GANs)

  • Transformer-Modelle

  • Variational Autoencoder (VAEs)

  • Agentenbasierte Modellierung

Statistische Methoden

Diese Methoden eignen sich für Daten, deren Verteilung, Korrelationen und Merkmale bekannt sind und daher durch mathematische Modelle simuliert werden können.

Bei verteilungsbasierten Ansätzen können statistische Funktionen verwendet werden, um die Datenverteilung zu definieren. Durch zufällige Stichproben aus dieser Verteilung können dann neue Datenpunkte generiert werden.

Bei korrelationsbasierten Strategien können Interpolation oder Extrapolation angewendet werden. Bei Zeitreihendaten können beispielsweise durch lineare Interpolation neue Datenpunkte zwischen benachbarten Punkten erzeugt werden, während durch lineare Extrapolation Datenpunkte über die bestehenden hinaus erzeugt werden können.

Generative Adversarial Networks (GANs)

Generative Adversarial Networks (GANs) umfassen zwei Neural Networks: einen Generator, der synthetische Daten erstellt, und einen Diskriminator, der als Gegenspieler fungiert und echte von künstlichen Daten unterscheidet. Beide Netzwerke werden iterativ trainiert, wobei das Feedback des Diskriminators die Ausgabe des Generators verbessert, bis der Diskriminator nicht mehr zwischen künstlichen und realen Daten unterscheiden kann. GANs werden häufig zur Bilderzeugung verwendet.

Transformator-Modelle

Transformer-Modelle, wie z. B. die Generative Pretrained Transformer (GPTs) von OpenAI, dienen als Grundlage für Small Language Models (SLMs) und Large Language Models (LLMs). Transformer verarbeiten Daten mit Encodern und Decodern.

Encoder transformieren Eingabesequenzen in numerische Darstellungen, sogenannte Einbettungen, die die Semantik und Position von Token in der Eingabesequenz erfassen. Ein Selbstaufmerksamkeitsmechanismus ermöglicht es Transformern, ihre „Aufmerksamkeit“ auf die wichtigsten Token in der Eingabesequenz zu richten, unabhängig von ihrer Position. Decoder nutzen dann diesen Selbstaufmerksamkeitsmechanismus und die Einbettungen der Encoder, um die statistisch wahrscheinlichste Ausgabesequenz zu generieren.

Transformer-Modelle zeichnen sich durch das Verständnis der Struktur und der Muster in der Sprache aus. So können sie zur Erstellung künstlicher Textdaten oder zur Erzeugung synthetischer Tabellendaten verwendet werden.

Variational Autoencoder (VAEs)

Variational Autoencoder (VAEs) sind generative Modelle, die Variationen der Daten erzeugen, mit denen sie trainiert wurden. Ein Encoder komprimiert die Eingabedaten in einen niedrigdimensionalen Raum, um die in der Eingabe enthaltenen sinnvollen Informationen zu erfassen. Ein Decoder rekonstruiert dann neue Daten aus dieser komprimierten Darstellung. Wie GANs können VAEs zur Erzeugung synthetischer Bilder verwendet werden.

Agentenbasierte Modellierung

Bei dieser Simulationsstrategie wird ein komplexes System als virtuelle Umgebung mit einzelnen Entitäten, auch Agenten genannt, modelliert. Agenten arbeiten auf der Grundlage eines vordefinierten Satzes von Regeln und interagieren mit ihrer Umgebung und anderen Agenten. Die agentenbasierte Modellierung simuliert diese Interaktionen und das Verhalten von Agenten, um synthetische Daten zu erzeugen.

So stellen beispielsweise agentenbasierte Modelle in der Epidemiologie Individuen in einer Population als Agenten dar. Bei der Modellierung von Agenteninteraktionen können synthetische Daten wie die Kontaktrate und die Infektionswahrscheinlichkeit generiert werden. Die Daten können dann bei der Vorhersage der Ausbreitung von Infektionskrankheiten und der Untersuchung der Auswirkungen von Maßnahmen helfen.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Vorteile synthetischer Daten

Synthetische Daten sind eine wachsende Technologie, die folgende Vorteile für Unternehmen bietet:

  • Anpassung

  • Effizienz

  • Verbesserter Datenschutz

  • Umfangreichere Daten

Anpassung

Data-Science-Teams können synthetische Daten genau auf die Spezifikationen und Bedürfnisse eines Unternehmens zuschneiden. Da Data Scientists eine bessere Kontrolle über synthetische Datensätze haben, wird deren Verwaltung und Analyse einfacher.

Effizienz

Durch die Generierung synthetischer Daten entfällt der zeitaufwändige Prozess der Erfassung echter Daten, sodass die Daten schneller erstellt werden können und die Workflows beschleunigt werden. Synthetische Daten sind außerdem vorgelabelt, wodurch der mühsame Schritt entfällt, Datenmengen manuell zu labeln und mit Anmerkungen zu versehen.

Verbesserter Datenschutz

Synthetische Daten ähneln realen Daten, können jedoch so generiert werden, dass personenbezogene Daten nicht auf eine bestimmte Person zurückführbar sind. Dies dient der Datenanonymisierung und trägt zum Schutz sensibler Informationen bei. Synthetische Daten ermöglichen es Unternehmen auch, Probleme im Zusammenhang mit geistigem Eigentum und Urheberrechten zu vermeiden, da sie auf Webcrawler verzichten, die ohne Wissen oder Zustimmung der Benutzer Informationen von Websites erfassen.

Umfangreichere Daten

Künstliche Datensätze können dazu beitragen, die Vielfalt zu erhöhen, indem sie Daten für unterrepräsentierte Gruppen im KI-Training erstellen oder ergänzen. Synthetische Daten können auch die Lücken füllen, wenn die Originaldaten knapp sind oder keine realen Daten vorhanden sind. Die Einbeziehung von Grenz- oder Sonderfällen als Datenpunkte kann den Umfang der synthetischen Datensätze erweitern, was die Variabilität und Unvorhersehbarkeit der realen Welt widerspiegelt.

Herausforderungen bei synthetischen Daten

Trotz der Vorteile synthetischer Daten sind auch einige Nachteile damit verbunden. Die Einhaltung von Best Practices für die Generierung synthetischer Daten kann dazu beitragen, diese Nachteile zu beseitigen und den Wert künstlicher Daten zu maximieren.

Hier sind einige Herausforderungen, die mit synthetischen Daten verbunden sind:

  • Verzerrung

  • Modellkollaps

  • Kompromiss zwischen Genauigkeit und Datenschutz

  • Verifizierung

Bias

Synthetische Daten können die Verzerrungen aufweisen, die in den realen Daten, auf denen sie basieren, vorhanden sein können. Die Verwendung verschiedener Datenquellen, auch aus unterschiedlichen Regionen und demografischen Gruppen, kann dazu beitragen, Verzerrung abzuschwächen.

Zusammenbruch des Modells

Ein Modellkollaps tritt auf, wenn ein KI-Modell wiederholt mit KI-generierten Daten trainiert wird, was zu einer Verschlechterung der Modellleistung führt. Eine gesunde Mischung aus realen und künstlichen Datensätzen kann helfen, dieses Problem zu vermeiden.

Kompromiss zwischen Genauigkeit und Datenschutz

Während der Generierung synthetischer Daten kommt es zu einem Kampf zwischen Genauigkeit und Datenschutz. Wenn Sie der Genauigkeit den Vorrang geben, könnte dies bedeuten, dass mehr personenbezogene Daten gespeichert werden, während der Schutz der Privatsphäre zu einer Verringerung der Genauigkeit führen könnte. Es ist wichtig, das richtige Gleichgewicht für die Anwendungsfälle eines Unternehmens zu finden.

Verifizierung

Es müssen zusätzliche Prüfungen und Tests durchgeführt werden, um die Qualität der synthetischen Daten nach ihrer Erstellung zu validieren. Dieser zusätzliche Schritt im Workflow ist entscheidend, um sicherzustellen, dass die künstlichen Datensätze keine Fehler, Inkonsistenzen oder Ungenauigkeiten enthalten.

Anwendungsfälle für synthetische Daten

Synthetische Daten sind vielseitig einsetzbar und können für eine Vielzahl von Anwendungen generiert werden. Für folgende Branchen können synthetische Daten ein Segen sein:

  • Automobilbranche

  • Finanzwesen

  • Gesundheitswesen

  • Herstellung

Automobilbranche

Mithilfe agentenbasierter Modellierung können künstliche Daten zum Verkehrsfluss generiert werden, die zur Verbesserung von Straßen- und Transportsystemen beitragen. Durch die Verwendung synthetischer Daten können Automobilhersteller den kostspieligen und zeitaufwändigen Prozess der Erhebung echter Unfalldaten für Fahrzeugsicherheitstests vermeiden. Hersteller autonomer Fahrzeuge können synthetische Daten nutzen, um selbstfahrende Autos in verschiedenen Szenarien zu trainieren.

Finanzen

Synthetische Finanzdaten können unter anderem zur Bewertung und Verwaltung von Risiken, zur prädiktiven Modellierung und zum Forecasting sowie zum Testen von Handelsalgorithmen eingesetzt werden. IBM Synthetic Data Sets bestehen zum Beispiel aus simulierten Daten zur Unterstützung der Betrugserkennung bei Kreditkarten und Gebäudeversicherungsansprüchen sowie simulierten Banktransaktionen, um Geldwäsche zu bekämpfen.

Gesundheitswesen

Synthetische Datensätze können Pharmaunternehmen helfen, die Arzneimittelentwicklung zu beschleunigen. Forschende im Bereich Medizin können teilsynthetische Daten für klinische Studien oder vollsynthetische Daten für die Erstellung künstlicher Patientenakten oder medizinischer Bildgebung verwenden, um innovative oder präventive Behandlungen zu entwickeln. Die agentenbasierte Modellierung kann auch in der Epidemiologie angewendet werden, um Krankheitsübertragungen und Interventionen zu untersuchen.

Herstellung

Fertigungsunternehmen können synthetische Daten nutzen, um die visuelle Inspektion von Computer-Vision-Modellen zu verbessern, die Produkte in Echtzeit auf Fehler und Abweichungen von Standards untersuchen. Künstliche Datensätze können außerdem die vorausschauende Wartung verbessern, mit synthetischen Sensordaten, die ML-Modellen dabei helfen, Equipment-Ausfälle besser vorherzusagen und angemessene und zeitnahe Maßnahmen zu empfehlen.

Mixture of Experts | Podcast

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Fußnoten
Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein
– mit branchenführendem Fachwissen im Bereich KI und dem umfassenden Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen
Fußnoten