8 Best Practices für die Generierung synthetischer Daten

Fabrikproduktionslinie für kleine Objekte

Autoren

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

Wenn man das Wort „synthetisch“ hört, assoziiert man damit vielleicht etwas Künstliches oder Gefertigtes. Nehmen Sie zum Beispiel synthetische Fasern wie Polyester und Nylon, die durch chemische Prozesse künstlich hergestellt werden.

Synthetische Materialien sind zwar preiswerter und lassen sich leichter in Massenproduktion herstellen, aber ihre Qualität kann mit der von Naturfasern mithalten. Sie sind oft so konzipiert, dass sie ihre natürlichen Vorbilder imitieren, und werden für bestimmte Verwendungszwecke entwickelt - ob elastisches Elastan, wärmespeicherndes Acryl oder strapazierfähiges Polyester.

Das gilt auch für synthetische Daten. Diese künstlich erzeugten Informationen können reale Daten beim Training oder Testen von künstlichen Intelligenz (KI)-Modellen ergänzen oder sogar ersetzen. Im Vergleich zu echten Datensätzen, die teuer zu beschaffen, schwer zugänglich, zeitaufwändig zu beschriften und nur begrenzt verfügbar sind, können synthetische Datensätze durch Computersimulationen oder generative Modelle synthetisiert werden. Dadurch können sie kostengünstiger auf Abruf in nahezu unbegrenzten Mengen produziert und an die Bedürfnisse eines Unternehmens angepasst werden.

Trotz ihrer Vorteile bringen synthetische Daten auch Herausforderungen mit sich. Der Generierungsprozess kann komplex sein, da Data Scientists realistische Daten erstellen und gleichzeitig Qualität und Datenschutz wahren müssen.

Doch auch in Zukunft werden wir mit synthetischen Daten arbeiten. Das Forschungsunternehmen Gartner prognostiziert, dass bis 2026 75 % der Unternehmen generative KI nutzen werden, um synthetische Kundendaten zu erstellen.1

Um Unternehmen dabei zu helfen, das Beste aus künstlichen Daten herauszuholen, finden Sie hier acht Best Practices für die Generierung synthetischer Daten:

1. Kennen Sie Ihr Ziel

Erfahren Sie, warum Ihr Unternehmen synthetische Daten benötigt und in welchen Anwendungsfällen diese möglicherweise hilfreicher sind als echte Daten. Im Gesundheitswesen können beispielsweise Patientenakten oder medizinische Bilder künstlich generiert werden — ohne sensible Daten oder persönlich identifizierbare Informationen (PII) zu enthalten. Dies ermöglicht auch den sicheren Datenaustausch zwischen Forschern und Data-Science-Teams.

Synthetische Daten können während der Softwareentwicklung als Testdaten verwendet werden, die sensible Produktionsdaten ersetzen, aber dennoch deren Merkmale nachbilden. Auf diese Weise können Unternehmen auch Probleme mit dem Urheberrecht und dem geistigen Eigentum vermeiden, indem sie Daten generieren, anstatt Web-Crawler einzusetzen, die ohne das Wissen oder die Zustimmung der Nutzer Informationen von Websites abgreifen und sammeln.

Außerdem können künstliche Daten als eine Form der Datenerweiterung dienen. Es kann verwendet werden, um die Datenvielfalt zu erhöhen, insbesondere für unterrepräsentierte Gruppen beim Training von KI-Modellen. Und wenn nicht genug Informationen vorliegen, können synthetische Daten die Lücken füllen.

Das Finanzdienstleistungsunternehmen J.P. Morgan zum Beispiel fand es schwierig, KI-gestützte Modelle für die Betrugserkennung effektiv zu schulen, da es im Vergleich zu nicht betrügerischen Fällen nur wenige betrügerische Fälle gab. Das Unternehmen nutzte synthetische Datengenerierung, um mehr Beispiele für betrügerische Transaktionen zu erstellen (Link führt zu einer Seite außerhalb von ibm.com), wodurch das Modeltraining verbessert wurde.

2. Vorbereitung ist das A und O

Die Qualität synthetischer Daten ist nur so gut wie die realen Daten, die ihr zugrunde liegen. Achten Sie beim Vorbereiten von Original-Datensätzen für die Generierung synthetischer Daten durch Algorithmen des maschinellen Lernens (ML) darauf, etwaige Fehler, Ungenauigkeiten und Inkonsistenzen zu überprüfen und zu korrigieren. Entfernen Sie alle Duplikate und geben Sie die Missing Values ein.

Erwägen Sie das Hinzufügen von Randfällen oder Ausreißern zu den Originaldaten. Diese Datenpunkte können ungewöhnliche Ereignisse, seltene Szenarien oder Extremfälle darstellen, die die Unvorhersehbarkeit und Variabilität der realen Welt widerspiegeln.

„Die ersten Beispiele sind grundlegend“, sagt Akash Srivastava, Chefarchitekt bei InstructLab (Link befindet sich außerhalb von ibm.com), einem Open-Source-Projekt von IBM und Red Hat, das einen gemeinsamen Ansatz verfolgt, um einem Modell neues Wissen und Fähigkeiten zu vermitteln, das auf der neuen Methode der synthetischen Datengenerierung von IBM und dem stufenweisen Trainingprotokoll von IBM basiert. „Die Beispiele, mit denen Sie die Generierung anstoßen, müssen Ihren realen Anwendungsfall nachahmen.“

3. Diversifizieren Sie die Datenquellen

Synthetische Daten neigen immer noch dazu, die Verzerrungen zu übernehmen und widerzuspiegeln, die in den ursprünglichen Daten, auf denen sie basieren, vorhanden sein könnten. Die Kombination von Informationen aus mehreren Quellen, einschließlich verschiedener demografischer Gruppen und Regionen, kann dazu beitragen, Verzerrungen in den generierten Daten zu verringern.

Auch vielfältige Datenquellen können die Qualität synthetischer Datensätze verbessern. Verschiedene Quellen können wesentliche Details oder wichtige Zusammenhänge bieten, die einer einzelnen Quelle oder nur einer Handvoll Quellen fehlen. Darüber hinaus kann die Einbeziehung Retrieval-Augmented Generation in den Prozess der synthetischen Datengenerierung den Zugriff auf aktuelle und domänenspezifische Daten ermöglichen, wodurch die Genauigkeit erhöht und die Qualität weiter verbessert werden kann.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

4. Wählen Sie geeignete Synthesetechniken

Die Auswahl der richtigen Technik zur Generierung synthetischer Daten hängt von einigen Faktoren ab, unter anderem von Datentyp und Komplexität. Relativ einfache Daten könnten von statistischen Methoden profitieren. Komplizierte Datensätze– strukturierte Daten wie Tabellendaten oder unstrukturierte Daten (z. B. Bilder oder Videos) erfordern möglicherweise Deep-Learning- Modelle. Unternehmen können sich auch dafür entscheiden, Synthesetechniken entsprechend ihren Anforderungen zu kombinieren.

Das sind einige gängige Mechanismen zur Generierung synthetischer Daten:

Statistische Verteilung

Data Scientists können statistische Verteilungen in realen Daten analysieren und synthetische Stichproben erstellen, die diese Verteilungen widerspiegeln. Dies erfordert jedoch umfangreiches Wissen und Fachkenntnisse, und nicht alle Daten passen in eine bekannte Verteilung.

Generative Adversarial Networks

Generative Adversarial Networks (GANs) bestehen aus zwei Neural Networks: einem Generator, der synthetische Daten erzeugt, und einem Diskriminator, der als Gegenspieler fungiert und zwischen künstlichen und echten Daten unterscheidet. Beide Netzwerke werden iterativ trainiert, wobei das Feedback des Diskriminators die Ausgabe des Generators verbessert, bis der Diskriminator nicht mehr in der Lage ist, künstliche von realen Daten zu unterscheiden.

GANs können verwendet werden, um synthetische Bilder für Computer Vision und Bildklassifizierungsaufgaben zu generieren.

Variational Autoencoder

Variational Autoencoders (VAEs) sind Deep-Learning-Modelle, die Variationen der Daten erzeugen, für die sie trainiert wurden. Ein Kodierer komprimiert die Eingabedaten in einen niedrigdimensionalen Raum, um die in der Eingabe enthaltenen sinnvollen Informationen zu erfassen. Ein Dekodierer rekonstruiert dann neue Daten aus dieser komprimierten Darstellung. VAEs können wie GANs zur Bilderzeugung verwendet werden.

Transformator-Modelle

Transformationsmodelle, wie z.B. generative pretrained transformers (GPTs), zeichnen sich durch ihr Verständnis der Struktur und der Muster in der Sprache aus. Sie können verwendet werden, um synthetische Textdaten zur Verarbeitung natürlicher Sprache zu erzeugen oder um künstliche Tabellendaten für Klassifizierung- oder Regressionsaufgaben zu erstellen.

5. Denken Sie an einen Modellkollaps

Es ist wichtig, den Modellkollaps im Blick zu haben: Denn die Leistung eines Modells nimmt ab, wenn es wiederholt mit KI-generierten Daten trainiert wird. Deshalb ist es wichtig, den Prozess der Generierung synthetischer Daten auf reale Daten zu stützen.

Bei InstructLab zum Beispiel basiert die Generierung synthetischer Daten auf einer Taxonomie, die den Bereich oder die Themen definiert, aus denen die Originaldaten stammen. Dadurch wird verhindert, dass das Modell entscheidet, mit welchen Daten es trainiert werden muss.

„Sie verlangen nicht, dass das Modell einfach in einer Schleife weiterläuft und kollabiert. Wir umgehen den Zusammenbruch vollständig, indem wir das Modell vom Probenahmeprozess entkoppeln“, sagt Srivastava.

6. Setzen Sie Validierungsmethoden ein

Qualitativ hochwertige Daten sind für die Modellleistung von entscheidender Bedeutung. Überprüfen Sie die die Qualität der synthetischen Daten, indem Sie auf Genauigkeit und Nutzen basierende Metriken verwenden. Genauigkeit bezieht sich darauf, wie sehr synthetische Datensätze realen Datensätzen ähneln. Bei Dienstprogrammen wird bewertet, wie gut synthetische Daten zum Trainieren von Deep-Learning- oder ML-Modellen verwendet werden können.

Zuverlässigkeit

Bei der Messung der Genauigkeit werden synthetische Daten mit den Originaldaten verglichen, wobei häufig statistische Methoden und Visualisierungen wie Histogramme verwendet werden. Auf diese Weise lässt sich feststellen, ob die generierten Datensätze die statistischen Eigenschaften realer Datensätze, wie Verteilung, Mittelwert, Median, Bereich und Varianz, beibehalten.

Die Bewertung der Ähnlichkeit von Korrelationen durch Korrelations- und Kontingenzkoeffizienten ist ebenfalls wichtig, um sicherzustellen, dass Abhängigkeiten und Beziehungen zwischen Datenpunkten erhalten bleiben und reale Muster genau wiedergeben. Neural Networks, generative Modelle und Sprachmodelle sind in der Regel in der Lage, Beziehungen in Tabellendaten und Zeitreihendaten zu erfassen.

Dienstprogramm

Um den Nutzen zu messen, werden synthetische Daten als Trainingsdaten für Modelle des maschinellen Lernens verwendet und dann die Leistung des Modells mit dem Training mit echten Daten verglichen. Hier sind einige gängige Metriken für das Benchmarking:

  • Genauigkeit oder Präzision berechnet den Prozentsatz korrekter Vorhersagen.

  • Der Rückruf quantifiziert die tatsächlich richtigen Vorhersagen.

  • Der F1-Score kombiniert Genauigkeit und Rückruf in einer einzigen Metrik.

  • Sowohl der Inception Score als auch die Fréchet Inception Distance (FID) bewerten die Qualität der generierten Bilder.

Tools oder Anbieter zur Generierung synthetischer Daten verfügen möglicherweise bereits über diese Metriken, aber Sie können auch andere Analysepakete wie SDMetrics (Link befindet sich außerhalb ibm.com), eine Open-Source-Python-Bibliothek zur Bewertung tabellarischer synthetischer Daten, verwenden.

Bei der Validierung künstlicher Daten ist die menschliche Komponente nach wie vor von entscheidender Bedeutung. Das kann so einfach sein wie die Entnahme von 5 bis 10 Zufallsstichproben aus dem synthetischen Datensatz und deren eigene Bewertung. „Man braucht einen Menschen für die Überprüfung“, sagt Srivastava. „Dies sind sehr komplizierte Systeme, und wie bei jedem komplizierten System gibt es viele heikle Punkte, an denen etwas falsch laufen könnte. Verlassen Sie sich auf Metriken, auf Benchmarks, testen Sie Ihre Pipeline gründlich, aber nehmen Sie immer ein paar Stichproben und überprüfen Sie manuell, ob sie Ihnen die gewünschten Daten liefern.“

7. Behalten Sie den Datenschutz im Auge

Einer der Vorteile der Verwendung synthetischer Daten besteht darin, dass sie keine sensiblen oder persönlichen Daten enthalten. Unternehmen müssen jedoch weiterhin überprüfen, dass die neuen Daten, die sie generieren, den Datenschutzbestimmungen entsprechen. Wie etwa die Datenschutz-Grundverordnung (DSGVO) der Europäischen Union oder der Health Insurance Portability and Accountability Act (HIPAA) der USA.

Synthetische Daten sind wie geschützte Daten zu behandeln, indem integrierte Sicherheitsmaßnahmen und Zugangskontrollen angewendet werden, um Datenhacks und -lecks zu verhindern. Auch während des Generierungsprozesses müssen Sicherheitsvorkehrungen getroffen werden, damit synthetische Daten nicht zurückverarbeitet und zu ihrem realen Äquivalent zurückverfolgt werden können, wodurch sensible Informationen während der Datenanalyse offengelegt werden. Zu diesen Schutzmaßnahmen gehören Techniken wie Maskierung, um sensible Daten zu verbergen oder zu maskieren, Anonymisierung, um personenbezogene Daten zu säubern oder zu entfernen, und differentieller Datenschutz, um „Rauschen“ oder Zufälligkeit in den Datensatz einzubringen.

„Zumindest ist eine PII-Maskierung oder Scrubbing erforderlich, oder man geht noch einen Schritt weiter und verwendet differenzierte Datenschutzmethoden“, sagt Srivastava. „Besonders wichtig wird das, wenn Sie keine lokalen Modelle verwenden. Wenn Sie [Daten] an einen Drittanbieter senden, ist es sogar noch wichtiger, dass Sie bei diesen Punkten besonders vorsichtig sind.“

Beachten Sie, dass synthetische Daten in der Regel nicht gleichzeitig im Hinblick auf Genauigkeit, Nutzen und Datenschutz optimiert werden können. Denn oft muss ein Kompromiss eingegangen werden. Eine Maskierung oder Anonymisierung könnte den Nutzen nominell verringern, während die differenzielle Privatsphäre die Genauigkeit leicht verringern kann. Werden jedoch keine Maßnahmen zum Schutz der Privatsphäre ergriffen, können potenziell personenbezogene Daten preisgegeben werden. Unternehmen müssen abwägen und Prioritäten setzen, was für ihre spezifischen Anwendungsfälle entscheidend ist.

8. Dokumentieren, überwachen und optimieren

Halten Sie Ihren Workflow zur synthetischen Datengenerierung, wie z. B. Strategien zur Bereinigung und Vorbereitung von Original-Datensätzen, Mechanismen zur Datengenerierung und Wahrung des Datenschutzes sowie Überprüfungs-Ergebnisse, fest. Fügen Sie die Gründe für Ihre Auswahl und Entscheidungen hinzu, um Rechenschaft und Transparenz zu gewährleisten.

Die Dokumentation ist besonders wertvoll, wenn Sie Ihr Verfahren zur Erzeugung synthetischer Daten regelmäßig überprüfen. Diese Aufzeichnungen dienen als Prüfpfade, die bei der Bewertung der Effektivität und Reproduzierbarkeit des Ablaufs helfen können.

Überwachen Sie regelmäßig, wie synthetische Daten verwendet werden und wie sie funktionieren, um eventuell auftretende unerwartete Verhaltensweisen oder Verbesserungsmöglichkeiten zu erkennen. Passen Sie den Generierungsprozess nach Bedarf an und verfeinern Sie ihn.

Ähnlich wie Fasern die Grundlage von Stoffen sind, sind Daten der Grundbaustein von KI-Modellen. Und obwohl die Generierung synthetischer Daten noch in den Kinderschuhen steckt. Fortschritte im Generierungsprozess können dazu beitragen, synthetische Daten in Zukunft so zu verbessern, dass sie der Qualität, der Zuverlässigkeit und dem Nutzen echter Daten entsprechen, ähnlich wie Kunstfasern natürlichen Fasern nahezu gleichkommen.

 

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Fußnoten

1 3 Bold and Actionable Predictions for the Future of GenAI (Link befindet sich außerhalb von ibm.com), Gartner, 12. April 2024

Weiterführende Lösungen
Analysetools und -lösungen

Um erfolgreich zu sein, müssen Unternehmen Daten nutzen, um die Kundenbindung zu stärken, Geschäftsprozesse zu automatisieren und mit KI-gestützten Lösungen Innovationen zu schaffen.

Analyselösungen entdecken
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken
IBM Cognos Analytics

Wir stellen vor: Cognos Analytics 12.0, KI-gestützte Erkenntnisse für eine bessere Entscheidungsfindung.

Cognos Analytics erkunden
Machen Sie den nächsten Schritt

Um erfolgreich zu sein, müssen Unternehmen Daten nutzen, um die Kundenbindung zu stärken, Geschäftsprozesse zu automatisieren und mit KI-gestützten Lösungen Innovationen zu schaffen.

Analyselösungen entdecken Analyse-Services entdecken