Was ist Datenvergiftung?

Autoren

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Was ist Datenvergiftung?

Datenvergiftung ist eine Art von Cyberangriff, bei dem Bedrohungsakteure die Trainingsdaten manipulieren oder beschädigen, die zur Entwicklung von Modellen für künstliche Intelligenz (KI) und maschinelles Lernen (ML) verwendet werden. 

Neuronale Netze, große Sprachmodelle (Large Language Models, LLMs) und Deep-Learning-Modelle sind in hohem Maße von der Qualität und Integrität der Trainingsdaten abhängig, die letztlich die Funktionen eines Modells bestimmen. Diese Trainingsdaten können aus verschiedenen Quellen stammen, z. B. aus dem Internet, aus staatlichen Datenbanken und von Drittanbietern. Indem sie falsche oder verzerrte Datenpunkte (vergiftete Daten) in diese Trainingsdatensätze einbringen, können böswillige Akteure das Verhalten eines Modells auf subtile oder drastische Weise verändern. 

Beispielsweise kann die Manipulation von Daten durch Vergiftung zu einer Fehlklassifizierung von Daten führen, was die Effizienz und Genauigkeit von KI- und ML-Systemen verringert. Darüber hinaus können diese Angriffe ernsthafte Cybersicherheitsrisiken mit sich bringen, insbesondere in Branchen wie dem Gesundheitswesen und bei autonomen Fahrzeugen.

Würde Ihr Team den nächsten Zero-Day rechtzeitig erkennen?

Schließen Sie sich Führungskräften im Bereich Sicherheit an, die von den kuratierten Nachrichten zu KI, Cybersicherheit, Daten und Automatisierung im Think Newsletter profitieren. Lernen Sie schnell von Experten-Tutorials und Erläuterungen, die direkt in Ihren Posteingang geliefert werden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

https://www.ibm.com/de-de/privacy

Zielgerichtete vs. nicht zielgerichtete Angriffe

Datenvergiftungsangriffe können je nach Absicht in zwei Kategorien eingeteilt werden: zielgerichtete und nicht zielgerichtete Angriffe.

Zielgerichtete Angriffe

Zielgerichtete Datenvergiftungsangriffe manipulieren die Ausgaben von KI-Modellen auf eine bestimmte Weise. So könnten Cyberkriminelle zum Beispiel vergiftete Daten in einen Chatbot oder eine Anwendung mit generativer KI wie ChatGPT injizieren, um dessen Antworten zu verändern. Ähnlich könnte ein Angreifer in einem Cybersicherheitsszenario vergiftete Daten in ein Modell einbringen, das Malware erkennen soll, so dass bestimmte Bedrohungen nicht erkannt werden.

Zielgerichtete Angriffe manipulieren das Verhalten des Modells in einer Weise, die dem Angreifer nützt, und schaffen so möglicherweise neue Schwachstellen im System.

Nicht zielgerichtete Angriffe

Nicht zielgerichtete Angriffe konzentrieren sich auf die Verschlechterung der allgemeinen Leistungsfähigkeit eines Modells. Anstatt bestimmte Outputs anzugreifen, besteht das Ziel in der Schwächung der Fähigkeit des Modells, Daten korrekt zu verarbeiten. Bei autonomen Fahrzeugen könnte ein nicht zielgerichteter Datenangriff beispielsweise dazu führen, dass das System die von den Sensoren empfangenen Daten fehlinterpretiert und ein „Stopp“-Schild mit einem „Vorfahrt gewähren“-Schild verwechselt. Diese Arten von Angriffen machen KI-Modelle anfälliger für feindliche Angriffe, bei denen ein Angreifer versucht, kleine, oft nicht wahrnehmbare Fehler im Entscheidungsfindungsprozess des Modells zu nutzen.

Arten von Datenvergiftungsangriffen

Datenvergiftungsangriffe können verschiedene Formen annehmen, darunter Label Flipping, Dateninjektion, Backdoor-Angriffe und Clean-Label-Angriffe. Dabei zielt jeder Typ auf unterschiedliche Aspekte der Funktionen eines KI-Modells ab. 

Label Flipping

Bei Label-Flipping-Angriffen manipulieren böswillige Akteure die Labels in den Trainingsdaten und vertauschen korrekte mit falschen Labels. Nehmen Sie Nightshade, ein KI-Vergiftungstool, das an der Universität von Chicago entwickelt wurde. Mithilfe von Nightshade können Digitalkünstler die Pixel in ihren Bildern subtil verändern, bevor sie sie online hochladen. Wenn KI-Unternehmen Online-Datensätze zum Trainieren ihrer generativen KI-Modelle auswerten, stören die veränderten Bilder den Trainingsprozess. Diese Manipulation kann dazu führen, dass die KI-Modelle falsche Klassifizierungen vornehmen oder sich unvorhersehbar verhalten (manchmal verwechseln sie Bilder von Kühen mit Ledertaschen).1

Dateninjektion

Die Dateninjektion fügt gefälschte Datenpunkte in den Trainingsdatensatz ein, oft um das Verhalten des KI-Modells in eine bestimmte Richtung zu lenken. Ein gängiges Beispiel ist die SQL-Injektion, bei der Angreifer „1=1“ oder „=“ in ein Eingabefeld einfügen. Wenn diese bösartigen Daten in eine SQL Query eingefügt werden, ändern sie die Bedeutung der Abfrage und geben alle Datensätze statt nur einen zurück.2Auch bei Modellen für maschinelles Lernen kann die Injektion von Daten die Entscheidungsfindung des Modells manipulieren. Dies kann dazu führen, dass das Modell falsche Klassifizierungen vornimmt oder Verzerrungen aufweist, was die Datenintegrität und die allgemeine Zuverlässigkeit des Modells untergräbt.

Backdoor-Angriffe

Backdoor-Angriffe sind gefährlich, weil sie subtile Manipulationen einführen, wie z. B. unhörbare Hintergrundgeräusche bei Audiodaten oder nicht wahrnehmbare Wasserzeichen bei Bildern. Dadurch funktioniert das KI-System unter den meisten Bedingungen normal. Wenn jedoch ein bestimmter Auslöser auftritt, verhält sich das Modell in einer Weise, die dem Angreifer zugute kommt. Im Falle von Open-Source-Modellen – bei denen der Zugang zu den Trainingsdaten und Algorithmen möglicherweise weniger eingeschränkt ist - können diese Angriffe besonders schädlich sein. ReversingLabs meldete einen Anstieg der Bedrohungen (mehr als 1300 %), die von 2020 bis 2023 über Open-Source-Repositories in Umlauf gebracht wurden.3

Clean-Label-Angriffe

Bei Clean-Label-Angriffen verändern die Angreifer die Daten auf eine Art und Weise, die schwer zu erkennen ist. Das Hauptmerkmal ist, dass die vergifteten Daten immer noch korrekt gekennzeichnet zu sein scheinen, was die Identifizierung durch herkömmliche Datenvalidierungsmethoden erschwert. Diese Angriffe nutzen die Komplexität moderner Systeme für maschinelles Lernen und Deep Learning, die kleine, scheinbar harmlose Änderungen nicht erkennen können. Clean-Label-Angriffe gehören zu den raffiniertesten. Sie machen KI-Modelle anfällig für verzerrte Ergebnisse und verschlechtern die Modellfunktionen.

Datenvergiftung vs. Prompt Injection

Während Datenvergiftung und Prompt Injections auf unterschiedliche Phasen des KI-Lebenszyklus abzielen, haben sie ein gemeinsames Ziel: die Ausnutzung von Schwachstellen in Modelleingaben. Bei der Datenvergiftung werden Trainingsdatensätze manipuliert, indem beschädigte oder bösartige Daten eingebettet werden, die den Lernprozess und die langfristige Funktionalität eines Modells beeinträchtigen können. Im Gegensatz dazu tarnen Injektionen böswillige Eingaben als legitime Prompts und manipulieren so Systeme für generative KI, sodass diese vertrauliche Daten preisgeben, Fehlinformationen verbreiten oder Schlimmeres verursachen.

Beispiele für Datenvergiftung

  • Zielgerichtete Datenvergiftung: Hacker vergiften die Trainingsdaten eines Cybersicherheitsmodells, indem sie Malware-Proben als sicher einstufen, wodurch das Modell bestimmte Bedrohungen ignoriert. 

  • Nicht zielgerichtete Datenvergiftung: Böswillige Akteure fügen dem Trainingsdatensatz eines Spam-Filters verfälschte Daten zu, was die Gesamtgenauigkeit und Zuverlässigkeit des Filters verringert.

Beispiele für Prompt Injections

  • Direkte Prompt Injection: Ein Hacker bettet einen Befehl in eine Chatbot-Interaktion ein, um Schutzmechanismen zu umgehen und an vertrauliche Kontodetails zu gelangen.

  • Indirekte Prompt Injection: Ein Angreifer versteckt Anweisungen auf einer Webseite, die einen KI-Assistenten zur Werbung für Phishing-Links in seinem Output veranlassen.

Hacker können diese Strategien einzeln oder im Tandem einsetzen, um ihre Wirkung zu verstärken. So könnte ein Insider mit Zugriff auf die Systeme eines Unternehmens theoretisch einen Trainingsdatensatz vergiften, indem er verzerrte oder verfälschte Daten einbettet und so die Validierungsmaßnahmen umgeht. Später könnte der Insider das kompromittierte System ausnutzen, indem er eine Prompt Injection durchführt, um die vergifteten Daten zu aktivieren und ein bösartiges Verhalten auszulösen. Dies könnte bedeuten, dass sensible Informationen preisgegeben werden, eine Hintertür für weitere Angriffe geschaffen wird oder die Entscheidungsfindungsfähigkeiten des Systems geschwächt wird.

Auswirkungen von Datenvergiftung auf KI-Modelle

Datenvergiftung kann eine Vielzahl von Auswirkungen auf KI- und ML-Modelle haben und sowohl deren Sicherheit als auch die allgemeine Modellleistung beeinträchtigen.

Fehlklassifizierung und verminderte Leistung

Vergiftete Trainingsdaten können dazu führen, dass Modelle für maschinelles Lernen Eingaben falsch klassifizieren, was die Zuverlässigkeit und die Funktionen von KI-Modellen untergräbt. Bei verbrauchernahen Anwendungen kann dies zu ungenauen Empfehlungen führen, die das Vertrauen und die Erfahrung der Kunden untergraben. In ähnlicher Weise können vergiftete Daten im Lieferkettenmanagement zu fehlerhaften Prognosen, Verzögerungen und Fehlern führen, die sowohl die Leistung des Modells als auch die Effizienz des Unternehmens beeinträchtigen. Solche Fehlklassifizierungen zeigen Schwachstellen in den Trainingsdaten auf und können die allgemeine Zuverlässigkeit von KI-Systemen beeinträchtigen. 

Voreingenommenheit und verzerrte Entscheidungsfindung

Datenvergiftung kann auch bestehende Verzerrungen in KI-Systemen verstärken. So können die Angreifer bestimmte Teilmengen von Daten (z. B. eine bestimmte Bevölkerungsgruppe) ins Visier nehmen und entsprechend voreingenommene Eingaben einbringen. Dies kann dazu führen, dass das KI-Modell unfaire oder ungenaue Leistungen erbringt. Gesichtserkennungsmodelle, die mit verzerrten oder vergifteten Daten trainiert wurden, könnten beispielsweise Menschen aus bestimmten Gruppen falsch identifizieren, was zu diskriminierenden Ergebnissen führt. Diese Arten von Angriffen können sowohl die Fairness als auch die Genauigkeit von KI-Modellen bei verschiedenen Anwendungen beeinträchtigen, von Einstellungsentscheidungen bis zur Überwachung durch die Strafverfolgungsbehörden.

Sicherheitslücken und Backdoor-Bedrohungen

Die Datenvergiftung kann Tür und Tor für raffiniertere Angriffe öffnen, beispielsweise für Inversionsangriffe, bei denen Hacker versuchen, die Trainingsdaten des Modells zurückzuentwickeln. Sobald ein Angreifer die Trainingsdaten erfolgreich vergiftet hat, kann er diese Schwachstellen nutzen, um weitere Angriffe zu starten oder Backdoor-Aktionen auszulösen. Bei Systemen, die für sensible Aufgaben entwickelt wurden, z. B. für die Gesundheitsdiagnostik oder die Cybersicherheit, können diese Sicherheitsrisiken besonders gefährlich sein.

Minderung der Risiken einer Datenvergiftung

Um sich gegen Datenvergiftungsangriffe zu schützen, können Unternehmen Strategien implementieren, die die Integrität von Trainingsdatensätzen sicherstellen, die Widerstandsfähigkeit von Modellen verbessern und KI-Modelle kontinuierlich überwachen. 

Datenvalidierung und -bereinigung

Eine grundlegende Verteidigungsstrategie gegen Datenvergiftung ist die Validierung und Bereinigung von Trainingsdaten vor der Verwendung. Die Implementierung von Datenvalidierungsprozessen während der Trainingsphase kann dazu beitragen, verdächtige oder beschädigte Datenpunkte zu identifizieren und zu entfernen, bevor sie sich negativ auf das Modell auswirken. Dieser Schritt ist unerlässlich, um das Einschleusen bösartiger Daten in KI-Systeme zu verhindern, insbesondere bei der Verwendung von Open-Source-Datenquellen oder Modellen, bei denen die Integrität schwieriger zu gewährleisten ist.

Zuverlässigkeit gegen Angriffe und verbesserte Belastbarkeit

Adversarial Training ist eine proaktive Methode, um sich gegen Datenvergiftung und andere Arten von Angriffen zu verteidigen. Durch das absichtliche Einbringen von Negativbeispielen in die Trainingsmodelle können die Entwickler dem Modell die Erkennung und Abwehr von vergifteten Daten beibringen und so seine Widerstandsfähigkeit gegen Manipulationen verbessern. Für Anwendungsbereiche mit hohem Risiko, wie z. B. autonome Fahrzeuge oder KI-Sicherheit, ist das Training mit Negativbeispielen ein wichtiger Schritt, um KI- und ML-Modelle widerstandsfähiger und vertrauenswürdiger zu machen.

Kontinuierliche Überwachung und Erkennung

Einmal eingesetzt, können KI-Systeme kontinuierlich überwacht werden, um ungewöhnliches Verhalten zu erkennen, das auf einen Datenvergiftungsangriff hindeuten könnte. Tools zur Erkennung von Anomalien, wie z. B. Algorithmen zur Mustererkennung, können Sicherheitsteams bei der Erkennung von Diskrepanzen zwischen Eingaben und Ausgaben helfen und eine schnelle Reaktion im Falle eines Angriffs auf ein System ermöglichen. Eine kontinuierliche Überprüfung ist besonders wichtig für Anwendungen der generativen KI wie ChatGPT, wo Echtzeit-Updates der Trainingsdaten und des Modellverhaltens entscheidend sein können, um Missbrauch zu verhindern. Wenn eine Anomalie entdeckt wird, kann das Modell angehalten oder neu bewertet werden, um weiteren Schaden zu verhindern.

Zugriffskontrollen und Sicherheitsmaßnahmen

Die Implementierung strikter Zugriffskontrollen ist eine weitere Strategie, um das Risiko der Datenvergiftung einzudämmen. Die Beschränkung der Personen, die Trainingsdatensätze und Repositories verändern dürfen, kann das Risiko einer unbefugten Manipulation verringern. Auch Sicherheitsmaßnahmen wie Verschlüsselung können zum Schutz von Datenquellen und KI-Systemen vor externen Angriffen beitragen. In Umgebungen, in denen viel auf dem Spiel steht, wie z. B. im Gesundheitswesen und in der Cybersicherheit, können strenge Sicherheitskontrollen dazu beitragen, dass maschinelle Lernmodelle sicher und vertrauenswürdig bleiben.

Weiterführende Lösungen
IBM watsonx.governance

Verwalten Sie generative KI-Modelle ortsunabhängig und stellen Sie diese in der Cloud oder lokal mit IBM watsonx.governance bereit.

Entdecken sie watsonx.governance
Datensicherheits- und Datenschutzlösungen

Schützen Sie Ihre Daten in mehreren Umgebungen, erfüllen Sie Datenschutzauflagen und verringern Sie die Komplexität von Betriebsabläufen.

 

Mehr über Datensicherheitslösungen
Datensicherheitsservices

IBM bietet umfassende Datensicherheitsservices zum Schutz von Unternehmensdaten, Anwendungen und KI.

Mehr über Datensicherheitsservices
Gehen Sie den nächsten Schritt

Steuern, verwalten und überwachen Sie Ihre KI mit einem einzigen Portfolio, um verantwortungsvolle, transparente und erklärbare KI voranzubringen.

watsonx.governance erkunden Buchen Sie eine Live-Demo
Fußnoten

1 What is Nightshade. University of Chicago. 2024.

2 SQL Injection. W3 Schools. 

3 Key Takeaways from the 2024 State of SSCS Report. ReversingLabs, 16. Januar 2024.