Was sind Datenlecks beim maschinellen Lernen?

Autor

Tim Mucci

IBM Writer

Gather

Was ist ein Datenleck beim maschinellen Lernen?

Datenlecks beim maschinellen Lernen treten auf, wenn ein Modell während des Trainings Informationen verwendet, die zum Zeitpunkt der Prognose nicht verfügbar sind. Lecks führen dazu, dass ein Vorhersagemodell so lange korrekt aussieht, bis es in seinem Anwendungsfall bereitgestellt wird. Dann liefert es ungenaue Ergebnisse, was zu schlechter Entscheidungsfindung und falschen Erkenntnissen führt.

Das Ziel der Vorhersagemodellierung besteht darin, ein maschinelles Lernmodell zu erstellen, das genaue Vorhersagen auf der Grundlage realer zukünftiger Daten treffen kann, die während des Modelltrainings nicht verfügbar sind. Um ungenaue Ergebnisse zu vermeiden, sollten Modelle nicht anhand derselben Daten ausgewertet werden, mit denen sie trainiert wurden. Daher teilen Data Scientists die verfügbaren Daten in der Regel in zwei Sätze auf: Einen, um das Modell zu trainieren, und den anderen, um zu überprüfen, wie gut das Modell mit unbekannten Daten funktionieren wird.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Beispiele und Arten von Datenlecks

Ein Datenleck tritt auf, wenn Daten von außerhalb des Datensatzes zur Erstellung des Modells verwendet werden, diese zukünftigen Daten jedoch nicht verfügbar sind, wenn das Modell zur Vorhersage verwendet wird. Das Modell funktioniert bei Tests und Validierungen gut, aber im Produktiveinsatz ist es völlig ungenau.

Es gibt zwei Arten von Lecks: Ziellecks und Trainingstest-Kontamination.

Zielleck: Modelle enthalten Daten, die nicht verfügbar sind, wenn das Modell zur Erstellung von Vorhersagen verwendet wird.

Die Verwendung von Informationen, die bei realen Vorhersagen nicht verfügbar sind, führt zu einer Überanpassung, bei der das Modell bei Trainings- und Validierungsdaten außergewöhnlich gut abschneidet, in der Produktion jedoch schlecht.

Trainingsdatenkontamination: Wenn sowohl Trainings- als auch Validierungsdaten zur Erstellung eines Modells verwendet werden, oft aufgrund einer falschen Aufteilung oder Vorverarbeitung.

Beispiel für ein Zielleck

Stellen Sie sich zum Beispiel ein Modell vor, das zur Vorhersage von Kreditkartenbetrug entwickelt wurde. Dieses Problem ist bei Prognoseanwendungen von Bedeutung, bei denen Modelle auf der Grundlage unvollständiger Daten zuverlässige Zukunftsvorhersagen treffen müssen. Der Rohdatensatz enthält Informationen über den Kunden, den Transaktionsbetrag, den Standort, ob ein Betrug aufgedeckt wurde und ob eine Rückbuchung erfolgt ist.

Beim Training des Modells werden in den Spalten Betrugserkennung und Rückbuchung wahre oder falsche Werte eingegeben. In der Praxis wird eine Rückbuchung in der Regel nach der Erkennung veranlasst, sodass diese Information zum Zeitpunkt der Erkennung nicht verfügbar ist.

Das Training eines Modells mit diesen Informationen zeigt, dass Transaktionen mit einer Rückbuchung fast immer betrügerisch sind. Bei der Validierung weist das Modell eine hohe Genauigkeit auf, da beim Training die Beziehung zwischen Betrug und Rückbuchungen eng ist. Allerdings werden die Rückbuchungsinformationen bei der Bereitstellung nicht verfügbar sein und das Modell in der Praxis schlecht abschneiden.

Beispiel für eine Training-Test-Kontamination

Stellen Sie sich vor, ein Data Scientist erstellt ein Modell zur Vorhersage von Immobilienpreisen auf der Grundlage von Merkmalen wie Hausgröße, Anzahl der Zimmer und Umgebung. Die Merkmale (wie Hausgröße und Alter) so zu standardisieren, dass sie alle den gleichen Maßstab haben, ist ein üblicher Vorverarbeitungsschritt, der für viele Algorithmen des maschinellen Lernens hilfreich ist.

Nehmen wir jedoch an, dass der Data Scientist den gesamten Datensatz standardisiert, bevor er ihn in Trainings- und Testdatensätze aufteilt. In diesem Fall „sieht“ das Modell während des Trainings indirekt Informationen aus dem Testsatz. Infolgedessen könnte die Leistung des Modells auf den Testdaten künstlich aufgeblasen erscheinen, da die Informationen des Testsatzes im Vorverarbeitungsschritt verwendet wurden. Dadurch kann das Modell leichter eine gute Leistung erbringen, aber möglicherweise seine Fähigkeit zur Verallgemeinerung auf neue, unbekannte Daten verringern.

Vorverarbeitungsschritte wie Skalierung, Imputation oder Merkmalsauswahl sollten nur auf die Trainingsdaten angepasst und dann auf den Validierungssatz angewendet werden, anstatt sie vor der Aufteilung auf den gesamten Datensatz anzupassen. Die falsche Anwendung von Transformern wie Skalierung oder Normalisierung kann zu einer Kontamination des Trainings- und Testdatensatzes führen, insbesondere bei Neural Networks. Wenn diese unsachgemäß ausgeführten Vorverarbeitungsschritte über den gesamten Datensatz hinweg durchgeführt werden, führt dies zu voreingenommenen Vorhersagen und einem unrealistischen Gefühl für die Leistung des Modells.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Ursachen für Datenlecks

Datenlecks können ein zeitaufwändiger Fehler sein, der mehrere Millionen Dollar kostet, und Datenlecks beim maschinellen Lernen sind auf eine Vielzahl von Faktoren zurückzuführen. Einige häufige Ursachen sind:

Einbeziehung zukünftiger Informationen: Wenn nicht verfügbare Informationen verwendet werden, die zum Zeitpunkt der Vorhersage in einem realen Szenario nicht verfügbar wären.

Falsche Merkmalsauswahl: Auswahl von Merkmalen, die mit dem Ziel korrelieren, aber nicht kausal zusammenhängen. Das Modell lernt, Informationen auszunutzen, auf die es bei realen Vorhersagen keinen Zugang hätte.

Kontamination externer Daten: Die Zusammenführung externer Datensätze mit Trainingsdaten kann zu voreingenommenen oder ungenauen Vorhersagen führen, da externe Daten direkte oder indirekte Informationen über die Zielvariable enthalten können.

Fehler bei der Datenvorverarbeitung: Bei der Skalierung der Daten vor der Aufteilung in Trainings- und Validierungssätze oder beim Ergänzen fehlender Werte mit Informationen aus dem gesamten Datensatz kommt es zu falschen Datenaufteilungen. Dies kann besonders bei Deep-Learning-Modellen problematisch sein, wo oft eine umfangreiche Vorverarbeitung erforderlich ist, weshalb es wichtig ist, eine Vermischung von Trainings- und Testdaten zu vermeiden.

Falsche Kreuzvalidierung: Bei der Kreuzvalidierung eines Datensatzes mit zeitabhängigen Daten erhält das Modell Zugriff auf Informationen, die es nicht haben sollte, wenn Datenpunkte aus der Zukunft einbezogen werden, was zu zu optimistischen Bewertungen führt.

Normalisierung: Datenkonvertierungen, wie z. B. die Skalierung oder Normalisierung von Merkmalen, führen zu Datenlecks, wenn sie fälschlicherweise gemeinsam auf Trainings- und Testdaten angewendet werden, anstatt sie separat anzuwenden.

Lecks bei der Validierung und Prozessänderungen: Eine Änderung der Art und Weise, wie die Validierung durchgeführt wird, kann zu Lecks führen, indem neue Informationen in den Trainingssatz aufgenommen werden. Wenn Sie den Prozess anpassen, indem Sie die Kreuzvalidierung erneut durchführen oder die Daten nach der Optimierung der Modelle erneut aufteilen, können unbeabsichtigt Informationen in den Trainingsprozess gelangen.

Auswirkungen von Datenlecks auf Modelle für maschinelles Lernen

Datenlecks sind eine häufige Gefahr beim Training von maschineller Lernalgorithmen für die Vorhersagemodellierung. Eine Studie der National Library of Medicine1 ergab, dass in 17 verschiedenen wissenschaftlichen Bereichen, in denen maschinelle Lernmethoden eingesetzt wurden, mindestens 294 wissenschaftliche Arbeiten von Datenlecks betroffen waren, was zu einer übermäßig optimistischen Leistung führte.

Eine Yale-Studie2 fand heraus, dass Datenlecks die Leistung oder die Metriken von Modellen auf der Basis von Neuro-Imaging entweder erhöhen oder verringern können, je nachdem, ob die weitergegebenen Informationen zu Rauschen oder unrealistischen Mustern führen. Diese Modelle werden zur Diagnose von Krankheiten verwendet, um Behandlungen zu identifizieren und Neurowissenschaftlern zu helfen, die Beziehung zwischen Gehirn und Körper besser zu verstehen.

Datenlecks in Modellen des maschinellen Lernens können in verschiedenen Bereichen und Datentypen verschiedene Auswirkungen haben. Hier sind die häufigsten Beispiele:

Schlechte Verallgemeinerung auf neue Daten: Wenn Modelle mit Informationen trainiert werden, die nicht der Realität entsprechen, hat das Modell Schwierigkeiten, Verallgemeinerungen auf die unbekannten Daten anzuwenden. Vorhersagen zu neuen Daten können ungenau und unzuverlässig sein.

Entscheidungsfindung mit Verzerrung: Verzerrungen in durchgesickerten Daten bergen die Gefahr, das Modellverhalten zu verzerren, was zu unfairen Entscheidungen führt, die von der Realität abweichen.

Unzuverlässige Erkenntnisse und Ergebnisse: Datenlecks beeinträchtigen die Zuverlässigkeit der aus dem Modell gewonnenen Erkenntnisse, was dazu führt, dass Benutzer den Ergebnissen misstrauen.

Leistungsmetriken: Lecks in Modellen für maschinelles Lernen führen oft dazu, dass Modelle fälschlicherweise eine hohe Genauigkeit und Präzision in den Ergebnissen anzeigen.

Ressourcenverschwendung: Das Auffinden und Beheben von Datenlecks nach dem Training eines Modells ist zeitaufwändig und kostspielig. Zur Behebung von Datenlecks müssen die Modelle von Grund auf neu trainiert werden, was rechenintensiv ist. Außerdem muss die gesamte Modellpipeline von der Datenvorverarbeitung bis zum erneuten Training überarbeitet werden, was in Bezug auf Personalaufwand und Rechenkosten ressourcenintensiv sein kann.

Vertrauensverlust: Unzuverlässige Modelle führen schließlich zu Misstrauen gegenüber Data-Science-Teams und dem gesamten Analyseprozess.

Rechtliche und Compliance-Risiken: Datenlecks bei vorausschauender Analyse können zu rechtlichen und regulatorischen Risiken führen. Wenn sensible Informationen missbraucht werden, kann dies Strafen und Reputationsschäden nach sich ziehen.

Erkennen von Datenlecks beim maschinellen Lernen

Um Datenlecks zu erkennen, müssen Unternehmen wissen, wie Modelle vorbereitet und verarbeitet werden. Dies erfordert strenge Strategien zur Validierung der Integrität von Modellen für maschinelles Lernen. Im Folgenden finden Sie einige Best Practices, die Sie bei der Erstellung von Modellen und der Erkennung von Datenlecks beachten sollten:

Vorbereitung: Die Daten müssen richtig aufgeteilt werden und die Vorverarbeitungsschritte sollten nur auf den Trainingsdatensatz angewendet werden. Überprüfen Sie während der Vorhersage alle Merkmale, um sicherzustellen, dass sie keine zukünftigen oder nicht verfügbaren Informationen darstellen.

Suche: Nachdem das Modell trainiert wurde, untersuchen Sie verdächtige Muster, die auf ein Datenleck hindeuten könnten. Überprüfen Sie die Merkmalsbedeutung und das Modellverhalten, um unrealistische Beziehungen zu erkennen.

Test: Testen Sie ein begrenztes Modell mit realen Daten. Überwachen Sie die Leistung in realen Szenarien. Wenn die Leistung deutlich abfällt, könnte dies darauf hindeuten, dass während des Trainings Verluste aufgetreten sind.

Hier sind einige häufige Warnsignale bei der Erkennung von Datenlecks:

Ungewöhnlich hohe Leistung: Wenn ein Modell eine deutlich höhere Genauigkeit, Präzision oder Rückruffunktion als erwartet aufweist, insbesondere bei Validierungsdaten, kann dies auf ein Datenleck hindeuten.

Diskrepanzen zwischen Trainings- und Testleistung: Eine große Diskrepanz zwischen der Leistung im Trainingsset und im Testset ist ein Zeichen dafür, dass das Modell aufgrund eines Lecks überangepasst ist.

Uneinheitliche Kreuzvalidierungsergebnisse: Wenn die Leistung über die Kreuzvalidierungsfalten hinweg stark variiert oder ungewöhnlich hoch erscheint, kann dies an einem Trainingsfehler oder einer falschen Aufteilung liegen.

Unerwartetes Modellverhalten: Wenn sich ein Modell stark auf Merkmale stützt, die logisch keinen Sinn ergeben, kann dies auf ein Leck hindeuten.

Richtige Bewertungstechniken

Die Minimierung von Datenlecks kann auf unterschiedliche Weise erreicht und verschiedene Tools eingesetzt werden, um die Integrität des Modells zu gewährleisten. Die Kreuzvalidierung, insbesondere die Zeitreihenvalidierung oder die geschichtete k-fache Validierung, hilft bei der korrekten Bewertung der Modelle und zeigt potenzielle Lecks auf. Bei LLMs (Large Language Models) sind Kreuzvalidierung und ein strikter Umgang mit Daten unerlässlich, um zu vermeiden, dass das Modell mit Daten trainiert wird, auf die es später bei der Inferenz stoßen könnte, was seine Fähigkeit, auf neue Eingaben zu reagieren, untergraben würde. Die Verwendung eines separaten Hold-out-Sets, das während des Trainings unberührt bleibt, bietet zusätzlichen Schutz vor Lecks.

Die Merkmalsbedeutung kann aufzeigen, ob sich das Modell auf Daten stützt, die bei der Vorhersage nicht verfügbar wären. Die Visualisierung von Daten und Modellvorhersagen kann Muster oder Anomalien aufdecken, die auf Lecks hinweisen. Darüber hinaus sollten Domain-Eperten das Modell prüfen, um festzustellen, ob es unrealistische oder nicht verfügbare Daten verwendet, um so problematische Merkmale aufzudecken.

Vermeidung von Datenlecks beim maschinellen Lernen

Um Datenlecks zu verhindern, müssen Unternehmen eine sorgfältige Datenverarbeitung und systematische Auswertung vornehmen. Hier sind einige wesentliche Praktiken:

Vorverarbeitung von Daten: Um Informationslecks zwischen Sätzen zu verhindern, führen Sie Vorverarbeitungsschritte wie Skalierung oder Imputation fehlender Werte getrennt für Trainings- und Testsätze durch. Führen Sie die Vorverarbeitung wie Skalierung, Codierung und Imputation für Trainings- und Testsätze separat durch – automatisieren Sie die Pipelines, wenn möglich.

Ordnungsgemäße Datenaufteilung: Teilen Sie Trainings- und Testsätze ordnungsgemäß auf. Eine sorgfältig geplante Aufteilung zwischen Trainings- und Testsatz schützt Informationen aus dem Testsatz davor, in die Trainingsphase zu gelangen. Teilen Sie zeitabhängige Daten chronologisch auf, um zu verhindern, dass zukünftige Daten in den Trainingsprozess gelangen. Um nach Lecks zu suchen, pflegen Sie einen separaten und eindeutigen Validierungssatz, der während des Trainings nicht verwendet wird und für reale Daten repräsentativ ist.

Kreuzvalidierung: Verwenden Sie die k-fache Kreuzvalidierung, um das Modell mit mehreren Teilmengen der Daten zu testen, was dazu beiträgt, potenzielle Lecks zu erkennen und die Generalisierung zu verbessern.

Merkmalsentwicklung: Vermeiden Sie die Entwicklung von Merkmalen, die zukünftige Daten einbringen. Überprüfen Sie die abgeleiteten Merkmale, um sicherzustellen, dass sie nur das widerspiegeln, was zum Vorhersagezeitpunkt verfügbar wäre. Bewerten Sie regelmäßig die Relevanz der Merkmale, um zu bestätigen, dass diese angemessen sind, und vermeiden sie es, nicht verfügbare Informationen zum Vorhersagezeitpunkt einzufügen.

Zeitbasierte Validierung: Verwenden Sie für Zeitreihendaten die zeitbasierte Validierung, um die Leistung in der Realität nachzuahmen. Dies trägt dazu bei, dass vergangene Daten verwendet werden, um zukünftige Ergebnisse vorherzusagen, und zukünftige Datenlecks zu vermeiden. Gehen Sie mit Zeitreihendaten vorsichtig um, indem Sie Methoden wie die Rolling-Window-Validierung oder die Walk-Forward-Validierung verwenden, um Lecks durch zukünftige Daten während des Trainings zu vermeiden.

Regelmäßige Modellevaluierung: Überwachen Sie die Leistung während des Trainings und der Tests kontinuierlich, um unerwartete Veränderungen zu erkennen, die auf Lecks hindeuten.

Datenlecks bei der Verhinderung von Datenverlusten

Es gibt eine andere Definition von Datenlecks, die nichts mit maschinellem Lernen zu tun hat, sondern sich eher auf die unbeabsichtigte Offenlegung von Daten aus Sicht der Datensicherheit bezieht. Datenlecks bei Data Loss Prevention (DLP) treten auf, wenn vertrauliche Informationen unbeabsichtigt Unbefugten zugänglich gemacht werden. Ein falsch konfigurierter Cloud-Speicher-Server könnte beispielsweise einen einfachen Zugriff auf personenbezogene Daten (PII) und Geschäftsgeheimnisse verursachen.

Die häufigsten Ursachen für Datenlecks sind menschliches Versagen, z. B. wenn ein Mitarbeiter seinen Laptop verlegt oder vertrauliche Informationen über E-Mail- und Messaging-Plattformen teilt. Hacker können offengelegte Daten verwenden, um Identitätsdiebstahl zu begehen, Kreditkartendaten zu stehlen oder die Daten im Dark Web zu verkaufen.

Weitere Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen