Was sind synthetische Daten?

Autor

Staff Writer

IBM Think

Was sind synthetische Daten?

Synthetische Daten sind künstliche Daten, die echte Daten imitieren sollen. Sie werden durch statistische Methoden oder durch den Einsatz von Techniken der künstlichen Intelligenz (KI) wie Deep Learning und generative KI generiert.

Obwohl synthetische Daten künstlich generiert werden, behalten sie die zugrunde liegenden statistischen Eigenschaften der ursprünglichen Daten bei, auf denen sie basieren. So können synthetische Datensätze reale Datensätze ergänzen oder sogar ersetzen.

Synthetische Daten können als Platzhalter für Testdaten dienen und werden in erster Linie zum Trainieren von ML-Modellen verwendet. Sie sind eine potenzielle Lösung für den ständig wachsenden Bedarf an hochwertigen, realen Trainingsdaten für KI-Modelle, die jedoch knapp sind. Synthetische Daten gewinnen auch in Sektoren wie Finanz- und Gesundheitswesen an Bedeutung, wo Daten nur begrenzt verfügbar, zeitaufwändig zu beschaffen oder aufgrund von Datenschutzbedenken und Sicherheitsanforderungen schwer zugänglich sind. Das Forschungsunternehmen Gartner prognostiziert, dass 75 % der Unternehmen bis 2026 generative KI einsetzen werden, um synthetische Kundendaten zu erstellen.¹

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Arten von synthetischen Daten

Synthetische Daten können in Multimedia-, Tabellen- oder Textform vorliegen. Synthetische Textdaten können für die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) verwendet werden, während synthetische tabellarische Daten zur Erstellung relationaler Datenbanktabellen verwendet werden können. Synthetische Multimediadaten wie Videos, Bilder oder andere unstrukturierte Daten können für Computer-Vision-Aufgaben wie Bildklassifizierung, Bilderkennung und Objekterkennung eingesetzt werden.

Synthetische Daten können auch nach dem Grad ihrer Synthese klassifiziert werden:

Vollsynthetisch
Teilsynthetisch
Hybrid

Vollsynthetisch

Bei vollsynthetischen Daten werden völlig neue Daten generiert, die keine realen Informationen enthalten. Dabei werden die Attribute, Muster und Beziehungen, die realen Daten zugrunde liegen, geschätzt, um diese so genau wie möglich nachzubilden.

Finanzunternehmen zum Beispiel könnten Stichproben für verdächtige Transaktionen fehlen, um KI-Modelle effektiv für die Betrugserkennung zu trainieren. Anschließend können sie vollsynthetische Daten generieren, die betrügerische Transaktionen darstellen, um das Modelltraining zu verbessern.

Teilsynthetisch

Teilsynthetische Daten werden aus realen Informationen abgeleitet, ersetzen jedoch Teile des ursprünglichen Datensatzes – in der Regel solche, die sensible Informationen enthalten – durch künstliche Werte. Diese Technik zur Wahrung der Privatsphäre trägt dazu bei, personenbezogene Daten zu schützen und gleichzeitig die Eigenschaften echter Daten zu erhalten.

Teilsynthetische Daten können beispielsweise in der klinischen Forschung besonders wertvoll sein, wo echte Daten für die Ergebnisse von entscheidender Bedeutung sind, der Schutz der personenbezogenen Daten (PII) und der Krankenakten der Patienten jedoch ebenso wichtig ist.

Hybrid

Hybride synthetische Daten kombinieren reale Datensätze mit vollsynthetischen Datensätzen. Dabei werden Datensätze aus dem Originaldatensatz nach dem Zufallsprinzip mit Datensätzen aus den synthetischen Gegenstücken gekoppelt. Hybride synthetische Daten können beispielsweise verwendet werden, um Kundendaten zu analysieren und Erkenntnisse aus ihnen zu gewinnen, ohne sensible Daten auf einen bestimmten Kunden zurückzuführen.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Alle Episoden von Mixture of Experts ansehen

Wie werden synthetische Daten erzeugt?

Unternehmen können ihre eigenen synthetischen Daten generieren oder Lösungen wie Synthetic Data Vault, eine Python-Bibliothek zur Erstellung synthetischer Daten, oder andere Open-Source-Algorithmen, -Frameworks, -Pakete und -Tools verwenden. Vorgefertigte Datensätze, wie z. B.IBM Synthetic Data Sets, sind eine weitere Option.

Das sind einige gängige Techniken zur Generierung synthetischer Daten:

Statistische Methoden
Generative Adversarial Networks (GANs)
Transformer-Modelle
Variational Autoencoder (VAEs)
Agentenbasierte Modellierung

Statistische Methoden

Diese Methoden eignen sich für Daten, deren Verteilung, Korrelationen und Merkmale bekannt sind und daher durch mathematische Modelle simuliert werden können.

Bei verteilungsbasierten Ansätzen können statistische Funktionen verwendet werden, um die Datenverteilung zu definieren. Durch zufällige Stichproben aus dieser Verteilung können dann neue Datenpunkte generiert werden.

Bei korrelationsbasierten Strategien können Interpolation oder Extrapolation angewendet werden. Bei Zeitreihendaten können beispielsweise durch lineare Interpolation neue Datenpunkte zwischen benachbarten Punkten erzeugt werden, während durch lineare Extrapolation Datenpunkte über die bestehenden hinaus erzeugt werden können.

Generative Adversarial Networks (GANs)

Generative Adversarial Networks (GANs) umfassen zwei Neural Networks: einen Generator, der synthetische Daten erstellt, und einen Diskriminator, der als Gegenspieler fungiert und echte von künstlichen Daten unterscheidet. Beide Netzwerke werden iterativ trainiert, wobei das Feedback des Diskriminators die Ausgabe des Generators verbessert, bis der Diskriminator nicht mehr zwischen künstlichen und realen Daten unterscheiden kann. GANs werden häufig zur Bilderzeugung verwendet.

Transformer-Modelle

Transformer-Modelle, wie z. B. die Generative Pretrained Transformer (GPTs) von OpenAI, dienen als Grundlage für Small Language Models (SLMs) und Large Language Models (LLMs). Transformer verarbeiten Daten mit Encodern und Decodern.

Encoder transformieren Eingabesequenzen in numerische Darstellungen, sogenannte Einbettungen, die die Semantik und Position von Token in der Eingabesequenz erfassen. Ein Selbstaufmerksamkeitsmechanismus ermöglicht es Transformern, ihre „Aufmerksamkeit“ auf die wichtigsten Token in der Eingabesequenz zu richten, unabhängig von ihrer Position. Decoder nutzen dann diesen Selbstaufmerksamkeitsmechanismus und die Einbettungen der Encoder, um die statistisch wahrscheinlichste Ausgabesequenz zu generieren.

Transformer-Modelle zeichnen sich durch das Verständnis der Struktur und der Muster in der Sprache aus. So können sie zur Erstellung künstlicher Textdaten oder zur Erzeugung synthetischer Tabellendaten verwendet werden.

Variational Autoencoder (VAEs)

Variational Autoencoder (VAEs) sind generative Modelle, die Variationen der Daten erzeugen, mit denen sie trainiert wurden. Ein Encoder komprimiert die Eingabedaten in einen niedrigdimensionalen Raum, um die in der Eingabe enthaltenen sinnvollen Informationen zu erfassen. Ein Decoder rekonstruiert dann neue Daten aus dieser komprimierten Darstellung. Wie GANs können VAEs zur Erzeugung synthetischer Bilder verwendet werden.

Agentenbasierte Modellierung

Bei dieser Simulationsstrategie wird ein komplexes System als virtuelle Umgebung mit einzelnen Entitäten, auch Agenten genannt, modelliert. Agenten arbeiten auf der Grundlage eines vordefinierten Satzes von Regeln und interagieren mit ihrer Umgebung und anderen Agenten. Die agentenbasierte Modellierung simuliert diese Interaktionen und das Verhalten von Agenten, um synthetische Daten zu erzeugen.

So stellen beispielsweise agentenbasierte Modelle in der Epidemiologie Individuen in einer Population als Agenten dar. Bei der Modellierung von Agenteninteraktionen können synthetische Daten wie die Kontaktrate und die Infektionswahrscheinlichkeit generiert werden. Die Daten können dann bei der Vorhersage der Ausbreitung von Infektionskrankheiten und der Untersuchung der Auswirkungen von Maßnahmen helfen.

Vorteile synthetischer Daten

Synthetische Daten sind eine wachsende Technologie, die folgende Vorteile für Unternehmen bietet:

Anpassung
Effizienz
Verbesserter Datenschutz
Umfangreichere Daten

Anpassung

Data-Science-Teams können synthetische Daten genau auf die Spezifikationen und Bedürfnisse eines Unternehmens zuschneiden. Da Data Scientists eine bessere Kontrolle über synthetische Datensätze haben, wird deren Verwaltung und Analyse einfacher.

Effizienz

Durch die Generierung synthetischer Daten entfällt der zeitaufwändige Prozess der Erfassung echter Daten, sodass die Daten schneller erstellt werden können und die Workflows beschleunigt werden. Synthetische Daten sind außerdem vorgelabelt, wodurch der mühsame Schritt entfällt, Datenmengen manuell zu labeln und mit Anmerkungen zu versehen.

Verbesserter Datenschutz

Synthetische Daten ähneln realen Daten, können jedoch so generiert werden, dass personenbezogene Daten nicht auf eine bestimmte Person zurückführbar sind. Dies dient der Datenanonymisierung und trägt zum Schutz sensibler Informationen bei. Synthetische Daten ermöglichen es Unternehmen auch, Probleme im Zusammenhang mit geistigem Eigentum und Urheberrechten zu vermeiden, da sie auf Webcrawler verzichten, die ohne Wissen oder Zustimmung der Benutzer Informationen von Websites erfassen.

Umfangreichere Daten

Künstliche Datensätze können dazu beitragen, die Vielfalt zu erhöhen, indem sie Daten für unterrepräsentierte Gruppen im KI-Training erstellen oder ergänzen. Synthetische Daten können auch die Lücken füllen, wenn die Originaldaten knapp sind oder keine realen Daten vorhanden sind. Die Einbeziehung von Grenz- oder Sonderfällen als Datenpunkte kann den Umfang der synthetischen Datensätze erweitern, was die Variabilität und Unvorhersehbarkeit der realen Welt widerspiegelt.

Herausforderungen bei synthetischen Daten

Trotz der Vorteile synthetischer Daten sind auch einige Nachteile damit verbunden. Die Einhaltung von Best Practices für die Generierung synthetischer Daten kann dazu beitragen, diese Nachteile zu beseitigen und den Wert künstlicher Daten zu maximieren.

Hier sind einige Herausforderungen, die mit synthetischen Daten verbunden sind:

Verzerrung
Modellkollaps
Kompromiss zwischen Genauigkeit und Datenschutz
Verifizierung

Verzerrung

Synthetische Daten können die Verzerrungen aufweisen, die in den realen Daten, auf denen sie basieren, vorhanden sein können. Die Verwendung verschiedener Datenquellen, auch aus unterschiedlichen Regionen und demografischen Gruppen, kann dazu beitragen, Verzerrung abzuschwächen.

Zusammenbruch des Modells

Ein Modellkollaps tritt auf, wenn ein KI-Modell wiederholt mit KI-generierten Daten trainiert wird, was zu einer Verschlechterung der Modellleistung führt. Eine gesunde Mischung aus realen und künstlichen Datensätzen kann helfen, dieses Problem zu vermeiden.

Kompromiss zwischen Genauigkeit und Datenschutz

Während der Generierung synthetischer Daten kommt es zu einem Kampf zwischen Genauigkeit und Datenschutz. Wenn Sie der Genauigkeit den Vorrang geben, könnte dies bedeuten, dass mehr personenbezogene Daten gespeichert werden, während der Schutz der Privatsphäre zu einer Verringerung der Genauigkeit führen könnte. Es ist wichtig, das richtige Gleichgewicht für die Anwendungsfälle eines Unternehmens zu finden.

Verifizierung

Es müssen zusätzliche Prüfungen und Tests durchgeführt werden, um die Qualität der synthetischen Daten nach ihrer Erstellung zu validieren. Dieser zusätzliche Schritt im Workflow ist entscheidend, um sicherzustellen, dass die künstlichen Datensätze keine Fehler, Inkonsistenzen oder Ungenauigkeiten enthalten.

Anwendungsfälle für synthetische Daten

Synthetische Daten sind vielseitig einsetzbar und können für eine Vielzahl von Anwendungen generiert werden. Für folgende Branchen können synthetische Daten ein Segen sein:

Automobilbranche
Finanzwesen
Gesundheitswesen
Herstellung

Automobilbranche

Mithilfe agentenbasierter Modellierung können künstliche Daten zum Verkehrsfluss generiert werden, die zur Verbesserung von Straßen- und Transportsystemen beitragen. Durch die Verwendung synthetischer Daten können Automobilhersteller den kostspieligen und zeitaufwändigen Prozess der Erhebung echter Unfalldaten für Fahrzeugsicherheitstests vermeiden. Hersteller autonomer Fahrzeuge können synthetische Daten nutzen, um selbstfahrende Autos in verschiedenen Szenarien zu trainieren.

Finanzen

Synthetische Finanzdaten können unter anderem zur Bewertung und Verwaltung von Risiken, zur prädiktiven Modellierung und zum Forecasting sowie zum Testen von Handelsalgorithmen eingesetzt werden. IBM Synthetic Data Sets bestehen zum Beispiel aus simulierten Daten zur Unterstützung der Betrugserkennung bei Kreditkarten und Gebäudeversicherungsansprüchen sowie simulierten Banktransaktionen, um Geldwäsche zu bekämpfen.

Gesundheitswesen

Synthetische Datensätze können Pharmaunternehmen helfen, die Arzneimittelentwicklung zu beschleunigen. Forschende im Bereich Medizin können teilsynthetische Daten für klinische Studien oder vollsynthetische Daten für die Erstellung künstlicher Patientenakten oder medizinischer Bildgebung verwenden, um innovative oder präventive Behandlungen zu entwickeln. Die agentenbasierte Modellierung kann auch in der Epidemiologie angewendet werden, um Krankheitsübertragungen und Interventionen zu untersuchen.

Herstellung

Fertigungsunternehmen können synthetische Daten nutzen, um die visuelle Inspektion von Computer-Vision-Modellen zu verbessern, die Produkte in Echtzeit auf Fehler und Abweichungen von Standards untersuchen. Künstliche Datensätze können außerdem die vorausschauende Wartung verbessern, mit synthetischen Sensordaten, die ML-Modellen dabei helfen, Equipment-Ausfälle besser vorherzusagen und angemessene und zeitnahe Maßnahmen zu empfehlen.

Data Science und MLOps für Data Leader

Schließen Sie sich mit anderen Führungskräften zusammen, um die drei wesentlichen Säulen von MLOps und vertrauenswürdiger KI voranzutreiben: Vertrauen in Daten, Vertrauen in Modelle und Vertrauen in Prozesse.

Ressourcen

Zu mehr ML-Know-how

Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

Maschinelles Lernen erklärt

„Techsplainers“ von IBM erklärt die Grundlagen des maschinellen Lernens – von Schlüsselkonzepten bis hin zu realen Anwendungsfällen. Klare, kurze Folgen helfen Ihnen, die Grundlagen schnell zu erlernen.

KI zum Einsatz bringen: Mehr ROI dank generativer KI

Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.

IBM Granite erkunden

IBM Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Erkunden Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

Wie Sie im neuen KI-Zeitalter vertrauensvoll und zuversichtlich in eine erfolgreiche Zukunft blicken

Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.

Weitere Lösungen

IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken

Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

Fußnoten

¹ 3 Bold and Actionable Predictions for the Future of GenAI, Gartner, 12. April 2024

Was sind synthetische Daten?

Autor

Was sind synthetische Daten?

Die neuesten KI-Trends, präsentiert von Experten

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Arten von synthetischen Daten

Vollsynthetisch

Teilsynthetisch

Hybrid

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Wie werden synthetische Daten erzeugt?

Statistische Methoden

Generative Adversarial Networks (GANs)

Transformer-Modelle

Variational Autoencoder (VAEs)

Agentenbasierte Modellierung

Vorteile synthetischer Daten

Anpassung

Effizienz

Verbesserter Datenschutz

Umfangreichere Daten

Herausforderungen bei synthetischen Daten

Verzerrung

Zusammenbruch des Modells

Kompromiss zwischen Genauigkeit und Datenschutz

Verifizierung

Anwendungsfälle für synthetische Daten

Automobilbranche

Finanzen

Gesundheitswesen

Herstellung

Ressourcen

Fußnoten