Was ist Adversarial Machine Learning?

Autor

Staff Writer

IBM Think

Definition von Adversarial Machine Learning

Adversarial Machine Learning ist die Kunst, KI-Systeme auszutricksen. Der Begriff bezieht sich sowohl auf Bedrohungsakteure, die diese Kunst böswillig verfolgen, als auch auf Forscher mit guten Absichten, die versuchen, Sicherheitslücken aufzudecken, um letztlich die Robustheit des Modells zu verbessern.

Das Feld stellt neue Herausforderungen in der Cybersicherheit dar, da maschinelle Lernmodelle komplex und ihre Angriffsflächen vielfältig sind – oft auch die physische Welt.

Ein Beispiel aus der Praxis

Um zu veranschaulichen, wie sich Adversarial Machine Learning Angriffe von herkömmlichen Cybersicherheitsbedrohungen unterscheiden, dient ein Beispiel aus dem Bereich selbstfahrender Autos. Selbstfahrende Autos werden von komplexen KI-Systemen angetrieben, die Sensor-Eingaben aufnehmen und dann Klassifizierungen bilden, die das Verhalten des Autos bestimmen. Wenn sich ein autonomes Fahrzeug beispielsweise einem Stoppschild nähert, erkennen die Algorithmen des maschinellen Lernens dieses und bringen das Fahrzeug sicher zum Stehen.

Das Problem besteht darin, dass die Systeme des maschinellen Lernens, die gelernt haben, Stoppschilder zu klassifizieren, andere Kriterien verwenden als der menschliche Verstand. Das wiederum führt zu einer unheimlichen Sicherheitslücke, wie Forscher an mehreren Universitäten 2017 bewiesen haben.¹ Indem sie nur subtile, aber strategische Änderungen an den Stoppschildern vornahmen – das Hinzufügen einiger kleiner, harmloser Aufkleber, die die meisten Menschen einfach ignorieren würden – waren Forscher in der Lage, KI-Modelle, wie sie selbstfahrende Autos verwenden, dazu zu bringen, Stoppschilder gefährlich falsch als „Geschwindigkeitsbegrenzung: 45 MPH“ -Schilder einzustufen. Ein vorbeifahrender menschlicher Streifenpolizist würde die Sabotage nicht bemerken, aber für ein KI-System hatten nur ein paar subtile Aufkleber ein Stoppschild in ein Schild verwandelt, das zum Weiterfahren auffordert.

Hätten böswillige Hacker diese Schwachstelle zuerst entdeckt, hätte es natürlich leicht zu realen Schäden wie tödlichen Verkehrsunfällen kommen können.

Think-Newsletter

Würde Ihr Team den nächsten Zero-Day rechtzeitig erkennen?

Schließen Sie sich Führungskräften im Bereich Sicherheit an, die von den kuratierten Nachrichten zu KI, Cybersicherheit, Daten und Automatisierung im Think Newsletter profitieren. Lernen Sie schnell von Experten-Tutorials und Erläuterungen, die direkt in Ihren Posteingang geliefert werden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Arten von böswilligen Angriffen

Forscher haben Taxonomien für verschiedene Arten von Angriffen auf KI-Systeme erstellt.

Ausweichangriffe:

Ausweichangriffe – wie der beschriebene Stoppschilder-Trick – beziehen sich auf Fälle, in denen Hacker von einem KI-System verarbeitete Daten verändern und sogenannte „adversariale Beispiele“ schaffen, die KI-Klassifikatoren täuschen. Die Angriffe werden so genannt, weil die veränderten Daten oder der Stimulus die normale Wahrnehmung eines KI-Modells umgehen können. Neben dem lebhaften Beispiel eines selbstfahrenden Autos konnten Forscher fast unmerkliche Formen von visuellem Rauschen erzeugen – sogenannte „kontradiktorische Störungen“ – die auf Daten geschichtet werden können, um künstliche Intelligenz zu täuschen. In einem bekannten Beispiel aus dem Jahr 2015 konnten Google-Forscher einem Bild eines Pandas nur ein wenig visuelles Rauschen hinzufügen, wodurch ein Computer-Vision-Modell entstand, das ziemlich sicher einen Gibbon darstellte. Tatsächlich war die KI von ihrer falschen Klassifizierung als „Gibbon“ sogar noch überzeugter als von ihrer korrekten Klassifizierung als „Panda“.² (Die dunkle Kunst, Rauschmuster effizient zu erzeugen, die ein Modell täuschen, wird im Abschnitt „Bekannte Methoden von Ausweichangriffen“ weiter unten beschrieben.)

Eine wichtige Unterart von Ausweichangriffen sind Malware-Angriffe, bei denen Angreifer die Erkennungssysteme umgehen, die Computerviren auffangen sollen. Angreifer erreichen dies auf unterschiedliche Weise, meist aber durch Tricks, um ihre Malware wie harmlosen Code aussehen zu lassen. Manchmal nutzen Angreifer ihre eigene KI, um genau diesen Prozess zu optimieren. In einem Beispiel entwickelten Forscher einen Bot, der Malware über viele Versuche hinweg automatisch tarnen konnte und 20 Malware-Erkennungssysteme in 98 % der Fälle täuschte.³

Datenvergiftungsangriffe

Angriffe, bei denen Daten vergiftet werden, treten in einer anderen, früheren Phase des Lebenszyklus eines KI-Modells auf, nämlich während der Trainingsphase. Tiefe Neural Networks sind auf große Mengen an Trainingsdaten angewiesen, um nützliche Muster zu erlernen. Bei einem Datenvergiftungsangriff kann ein Angreifer den ursprünglichen Trainingsdatensatz verfälschen und Daten einfügen, die dazu führen, dass das resultierende trainierte Modell funktionsunfähig wird.

Ein Beispiel beruht auf der Tatsache, dass viele KI-Modelle nach der Bereitstellung erfasste Daten verwenden, um iterativ die nächste Version des Modells zu trainieren. Dieses Prinzip machten sich Trolle auf Twitter zunutze und bombardierten einen Microsoft-Chatbot namens Tay aus dem Jahr 2016 mit beleidigendem Material, was schließlich dazu führte, dass der Chatbot selbst hasserfüllte Inhalte veröffentlichte.

Ein weiteres Beispiel von der University of Chicago zielt darauf ab, Künstler zu befähigen, skrupellose Firmen zu bestrafen, die urheberrechtlich geschützte Bilder von Künstlern nutzen, um ihre Modelle ohne deren Zustimmung zu trainieren. Das Projekt Nightshade „ist laut seinen Machern als Angriffswerkzeug konzipiert, um Funktionsrepräsentationen in generativen KI-Bildmodellen zu verzerren“.⁴ Wenn ein Künstler Nightshade auf seine Bilder anwendet und ein KI-Modell diese Bilder später verwendet, könnte das Modell nach und nach falsche Bezeichnungen für bestimmte Objekte lernen – zum Beispiel Kühe als Lederhandtaschen visualisieren.

Datenschutzangriffe

Datenschutzangriffe nutzen die Eigenheiten von KI-Systemen aus, um indirekt sensible Informationen abzuleiten oder zu extrahieren, die Teil ihres Trainingsdatensatzes waren. Theoretisch sind ML-Modelle nicht dazu gedacht, sich an die Daten, auf denen sie trainieren, zu „erinnern“ – sie extrahieren nützliche Muster über Datensätze hinweg und behalten die Daten, auf denen sie trainieren, nicht wie eine Festplatte. Die Realität des KI-„Gedächtnisses“ ist jedoch in Wirklichkeit komplexer. In der Praxis haben Forscher beobachtet, dass Modelle in mancher Hinsicht ihre Trainingsdaten tatsächlich zu „erinnern“ scheinen. Insbesondere zeigen ML-Systeme oft ein höheres Maß an Vertrauen in ihre Vorhersagen, wenn diese Vorhersagen sich auf Datenpunkte beziehen, die sie während des Trainings gesehen haben. (Während Verbraucher-Chatbots wie ChatGPT keine Vertrauenswerte anzeigen, sind diese Werte oft über Entwickler-API oder Forschungstools zugänglich.)

Bei einer Methode zum Angriff auf den Datenschutz, die als Mitgliedschaftsinferenz bekannt ist, könnte ein Angreifer in der Lage sein, sensible Informationen über eine Person abzuleiten: beispielsweise ob die Person Patient in einer psychiatrischen Einrichtung war. Solange der Angreifer über Daten zu einer bestimmten Person verfügt (vielleicht Teile einer medizinischen Akte), könnte dieser Angreifer ein Modell abfragen, das bekanntermaßen auf sensiblen Datensätzen trainiert wurde (z. B. psychiatrische Einrichtungen). Durch die Beobachtung der vom Modell zurückgegebenen Konfidenzwerte könnte der Angreifer zu dem Schluss kommen, dass sein Opfer tatsächlich ein Mitglied der Gruppe war, mit der das Modell trainiert wurde.

Ein Angriff auf die Modellinversion geht noch einen Schritt weiter und ermöglicht es dem Angreifer, die tatsächlichen Daten, die das Modell trainiert haben, zurückzuentwickeln. Der Angreifer kann dies mit Brute-Force-Techniken tun, indem er iterativ die vom Modell zurückgegebenen Konfidenzwerte als Anleitung anwendet, wie die Verwandlung beliebiger rauschiger Daten in etwas, das tatsächlich realen Trainingsdaten für das Modell ähnelt. So konnten Universitätsforscher beispielsweise im Jahr 2015 die Konfidenzwerte eines Gesichtserkennungsmodells ausnutzen, um Bilder zu rekonstruieren, die den realen Gesichtern, mit denen das Modell trainiert wurde, äußerst nahe kamen. Dazu begannen sie mit einem Bild des reinen Rauschens, optimierten das Bild iterativ und verwendeten die Konfidenzwerte der Modellausgabe, um die nächste Optimierung zu steuern.⁵

Modellextraktionsangriffe

Bei einem Modellextraktionsangriff (manchmal einfach „Model Stealing“ genannt) ist das Ziel des Angreifers, ein gegebenes Modell effektiv zu „klonen“. Die Motive für einen solchen Angriff können variieren: Ein Angreifer möchte möglicherweise einfach die Nutzung des Originalmodells ohne Pay-per-Query vermeiden, oder der Angreifer möchte den Klon nutzen, um gezielte Angriffe heimlich zu verfeinern, die auf dem ursprünglichen Modell gut funktionieren könnten.

Die Methoden der meisten Modellextraktionsangriffe sind relativ einfach: Der Angreifer fordert das Modell systematisch mit sorgfältig ausgewählten Eingaben an und indexiert die Ausgaben. Wenn die Eingaben strategisch gewählt werden, kann in einigen Fällen ein Datensatz mit nur Tausenden oder Zehntausenden von Eingabe-Ausgabe-Paaren verwendet werden, um das Modell oder zumindest einen Teil des Modells zu replizieren. Beispielsweise zeigte eine 2023 veröffentlichte Arbeit zum Thema „Model Leeching“, wie ein solcher Angriff genutzt werden kann, um auf kostengünstige Weise aufgabenspezifisches Wissen aus einem LLM zu extrahieren. Für lediglich 50 US-Dollar an API-Kosten konnte das Team ein geklontes Modell erstellen, das eine der Funktionen des Sprachmodells – das Leseverständnis – mit einer Genauigkeit von 87 % emulieren konnte.⁶

White-Box-Angriffe versus Black-Box-Angriffe

Eine weitere Angriffstaxonomie unterscheidet nicht nach der Art des Schadens, sondern nach der Art des Zielmodells. Die meisten der oben genannten Beispiele sind sogenannte Blackbox-Angriffe, was bedeutet, dass die anvisierten Modelle nur Zugriff auf ihre Ausgabe gewähren. Bei sogenannten White-Box-Angriffen greifen Hacker jedoch Open-Source-Modelle an, die (oft aufgrund positiver Impulse ihrer Hersteller) transparenter hinsichtlich ihrer Funktionsweise sind. Mit Einblick in das Verhalten der tatsächlich erlernten Gewichtungen, aus denen das Modell besteht, können Hacker diesen White-Box-Zugriff oft nutzen, um effizientere und gezieltere Angriffe auszuführen.

Bekannte Methoden von Ausweichangriffen

Von den oben genannten Arten von Angriffen sind Ausweichangriffe wohl die schwierigsten und stellen eine wirklich neue Grenze in der Cybersicherheit dar. Ausweichangriffe beunruhigen (und faszinieren) Cybersicherheitsforscher besonders, weil sie die grundlegend unterschiedlichen Wege ausnutzen, wie Maschinen und Menschen die Welt analysieren. Aus diesem Grund hat sich ein umfangreicher Forschungsbereich darauf konzentriert, Methoden zu finden, mit denen Hacker Ausweichangriffe auslösen könnten – es ist besser, diese Sicherheitslücken zu schließen, bevor Hacker sie angreifen. (Zum Glück wurden auch viele Verteidigungsmechanismen entdeckt.) Weitere Informationen finden Sie unter „Wie man sich gegen Adversarial Machine Learning verteidigt“.

Schnelle Gradientenzeichenmethode

2015 enthüllten Google-Forscher eine einfache Methode, um adversarielle Beispiele zu generieren – Eingaben, die jedes Deep-Learning-System täuschen – die sie die „Fast Gradient Sign Method“ oder „FGSM“ nannten.² Nehmen wir das Beispiel eines Bilderkennungssystems. Solche Systeme teilen die Welt im Grunde in Cluster auf – dieses für Katzen, dieses für Hunde und so weiter. Die schnelle Gradientenzeichenmethode ist ein Mechanismus, um einen schnellen Weg zu finden, ein Bild zu optimieren, um es von einem Cluster in einen anderen zu „schieben“, wodurch die Integrität der Entscheidungsfindung des Systems vereitelt wird. Entscheidend ist, dass diese Anpassungen oft lediglich visuelle Störungen erfordern, die für Menschen nicht wahrnehmbar sind, aber die Maschine täuschen. FGSM wird als „gradientbasierter“ Angriff bezeichnet, da er einen von Systemen des maschinellen Lernens verwendeten Optimierungsalgorithmus namens „ Gradient Descent“ ausnutzt.

Angesichts der stärkeren Angriffe, die kurz darauf entdeckt wurden, gilt ein Modell, das nur auf FGSM-Angriffe vorbereitet wurde, als äußerst anfällig.

Projizierter Gradientenabstieg

Projected Gradient Descent (PGD) ist ein weiterer gradientenbasierter Angriff, subtiler und kraftvoller als FGSM. Während FGSM im Wesentlichen einen großen Schritt in eine feindliche Richtung unternimmt, um seine Störungen zu erzeugen (das „Rauschen“, das die Erkennung des Modells außer Kraft setzt), verwendet PGD einen Algorithmus, um eine Reihe kleiner Schritte zu unternehmen. Dieser sorgfältigere, iterative Prozess ermöglicht es, stärkere und unempfindlichere Störungen zu finden. Darüber hinaus verhindert eine clevere Einschränkung im Algorithmus, dass die PGD-Störungen zu weit von einer Basislinie abweichen, sodass sie für Menschen nicht wahrnehmbar sind. Der Nachteil für Angreifer sind die Kosten. Während FGSM mit nur einer Gradientenberechnung eine schnelle, aber schwache Störung erzeugen kann, muss PGD Dutzende oder Hunderte durchführen.

PGD wird oft als wichtiger Benchmark für adversariale Robustheit verwendet, da es als der stärkste gradientenbasierte Angriff gilt.⁷ Eine KI-Anwendung, die darauf trainiert wurde, PGD-Angriffen zu widerstehen, kann als sehr robust angesehen werden.

Carlini- und Wagner-Angriffe

Das Ausnutzen des „Gradienten“ von Modellen des maschinellen Lernens ist, wie sich herausstellt, nicht die einzige Möglichkeit, solche Systeme anzugreifen. Eine Forschungsarbeit⁸ der Informatiker Nicholas Carlini und David Richard von der UC Berkeley aus dem Jahr 2017 enthüllte eine weitere Methode zur Suche nach kontradiktorischen Eingabedaten, eine, die Informationen über den Gradienten des Modells völlig verzichtet. Die Angriffe von Carlini und Wagner hingegen stellen das Problem als reines Optimierungsproblem dar, bei dem es darum geht, die minimale Änderung zu finden, die an einer Eingabe erforderlich ist, während gleichzeitig eine Fehlklassifizierung erzwungen wird. Bei einer Bildstörung könnte ein solcher Algorithmus zum Beispiel die geringste Anzahl von Pixeln ermitteln, die verändert werden müssen, um ein Modell zu täuschen. Die Erstellung ist zwar rechenintensiv, aber das Ergebnis ist in der Regel eine Störung, die viel zu subtil ist, als dass ein Mensch sie bemerken könnte.

Wie man sich gegen Adversarial Machine Learning verteidigt

Dank der Bemühungen von Forschern, die diese Schwächen entdeckt haben, wurden Gegenmaßnahmen entwickelt, um die Robustheit von Modellen für maschinelles Lernen zu erhöhen.

Für Ausweichangriffe der gerade beschriebenen Art haben Experten Methoden des sogenannten Adversarial-Trainings entwickelt. Im Wesentlichen besteht der Prozess darin, neben „sauberen“ Daten auch Daten einzubeziehen, die so verändert wurden, wie es Hacker versuchen könnten, damit das Modell lernt, auch diese fehlerhaften Beispiele richtig zu kennzeichnen. Diese Abschwächung ist zwar effektiv, kann aber in zweierlei Hinsicht kostspielig sein: 1) Sie erfordert mehr Rechenaufwand und 2) die Modelle können insgesamt etwas ungenauer werden, wenn sie gestörten Daten ausgesetzt sind. „Das Training robuster Modelle ist möglicherweise nicht nur ressourcenintensiver, sondern führt auch zu einer Verringerung der Standardgenauigkeit“, schreiben die MIT-Forscher in ihrer 2018 veröffentlichten Studie „Robustness May Be at Odds with Accuracy“.⁹

Im Allgemeinen gelten die Grundsätze einer effektiven Cybersicherheit auch für den Bereich des maschinellen Lernens. Zu den betrieblichen Abwehrmaßnahmen gehören Tools zur Anomalie-Erkennung und Intrusionserkennung, die nach ungewöhnlichen Mustern in Daten oder im Verkehr suchen, die darauf hindeuten könnten, dass ein Hacker versucht, sich in ein ML-System einzumischen, unabhängig von der Phase seines Lebenszyklus. Darüber hinaus ist Red Teaming, also das gezielte Aussetzen von Modellen bei kontrollierten Angriffen durch Cybersicherheitsexperten, die die Angriffe von Gegnern simulieren, eine effektive Methode, um Systeme einem Stresstest zu unterziehen.

In einem so schnelllebigen Bereich wie der KI finden ständig Veränderungen statt. Unternehmen wie das National Institute of Standards and Technology sind Quellen für die neuesten Entwicklungen. Der NIST-Bericht¹⁰ von 2024 zum KI-Risikomanagement behandelt Adversarial Machine Learning und umfasst zugleich Ansätze zu KI-Risiken im weiteren Sinne – darunter Themen wie Verzerrung, Halluzination und Datenschutz. Die Einführung eines KI-Governance-Framework kann auch dazu beitragen, Modelle gegen Gegner zu sichern.

Cost of a Data Breach Report 2025

Die Kosten für Datenschutzverletzungen haben einen neuen Höchststand erreicht. Erhalten Sie aktuelle Erkenntnisse in Cybersicherheit und deren finanzielle Auswirkungen auf Unternehmen.

Ressourcen

IBM® X-Force Threat Intelligence Index 2025

Gewinnen Sie mit dem Index „IBM X-Force Threat Intelligence“ Erkenntnisse, um Vorbereitung und Reaktion auf Cyberangriffe schneller und effektiver zu machen.

IDC MarketScape: Cybersecurity Consulting Services Vendor Assessment 2025

Erfahren Sie, warum IBM als „Major Player“ eingestuft wurde, und gewinnen Sie Einblicke in die Auswahl des Anbieters von Cybersecurity Consulting Services, der am besten zu den Anforderungen Ihres Unternehmens passt.

Cybersicherheit im Zeitalter generativer KI

Erfahren Sie, wie sich die heutige Sicherheitslandschaft verändert und wie Sie die Herausforderungen meistern und die Leistungsfähigkeit der generativen KI nutzen können.

IBM® X-Force Cloud Threat Landscape Report 2024

Verstehen Sie die neuesten Bedrohungen und stärken Sie Ihre Cloud-Abwehr mit dem IBM X-Force Cloud Threat Landscape Report.

Was ist Datensicherheit?

Erfahren Sie, wie Datensicherheit dazu beiträgt, digitale Informationen während ihres gesamten Lebenszyklus vor unbefugtem Zugriff, Beschädigung oder Diebstahl zu schützen.

Was ist ein Cyberangriff?

Ein Cyberangriff ist ein vorsätzlicher Versuch, Daten, Anwendungen oder andere Assets durch unbefugten Zugriff zu stehlen, offenzulegen, zu verändern, zu deaktivieren oder zu zerstören.

Weiterführende Lösungen

Sicherheitslösungen für Unternehmen

Transformieren Sie Ihr Sicherheitsprogramm mit Lösungen vom größten Anbieter von Unternehmenssicherheit.

Cybersicherheitslösungen entdecken

Cybersicherheit-Services

Transformieren Sie Ihr Unternehmen und verwalten Sie Risiken mit Beratungsleistungen im Bereich Cybersicherheit sowie Cloud- und Managed-Security-Services.

Mehr über Cybersicherheitsservices

Cybersicherheit mit künstlicher Intelligenz (KI)

Verbessern Sie die Geschwindigkeit, Genauigkeit und Produktivität von Sicherheitsteams mit KI-gestützten Cybersicherheits-Lösungen.

KI für Cybersicherheit erkunden

Machen Sie den nächsten Schritt

Ganz gleich, ob Sie nach Lösungen für Datensicherheit, Endpunktmanagement oder Identitäts- und Zugriffsverwaltung (IAM) suchen – unsere Experten helfen Ihnen bei der Etablierung eines hohen Sicherheitsstatus. Transformieren Sie Ihr Unternehmen und managen Sie Risiken mit einem globalen Branchenführer für Beratungsleistungen im Bereich Cybersicherheit sowie Cloud- und Managed-Security-Services.

Cybersicherheitslösungen entdecken

Entdecken Sie Cybersicherheitsservices

Fußnoten

„Robust Physical-World Attacks on Deep Learning Visual Classification,“ CVPR 2018, 10. April 2028
„Explaining and Harnessing Adversarial Examples,“ ICLR 2015, 20. März 2015
„Defending malware detection models against evasion based adversarial attacks,” Pattern Recognition Letters, Dezember 2022
„What Is Nightshade?,„ auf uchicago.edu gehostete Nightshade Website, Mai 2024
„Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures,“ CCS’15, Oktober 2015
„Model Leeching: An Extraction Attack Targeting LLMS,“ arXiv, 19. September 2023
„On the Convergence and Robustness of Adversarial Training,“ Proceedings of the 36 th International Conference on Machine Learning, 2019
„Towards Evaluating the Robustness of Neural Networks,“ arXiv, August 2016
„Robustness May Be at Odds with Accuracy,“ arXiv, 9. September 2019
„Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile,“ NIST, Juli 2024