Testen der Grenzen generativer KI: Wie Red Teaming Sicherheitslücken in KI-Modellen aufdeckt

Autor

Charles Owen-Jackson

Freelance Content Marketing Writer

Mit generativer künstlicher Intelligenz (generative KI) an vorderster Front der Informationssicherheit spielen rote Teams eine wichtige Rolle bei der Identifizierung von Sicherheitslücken, die andere übersehen können.

Mit den durchschnittlichen Kosten eines Datenverstoßes, die im Jahr 2024 ein Rekordhoch von 4,88 Mio. USD erreicht haben, müssen Unternehmen genau wissen, wo ihre Sicherheitslücken liegen. Angesichts des bemerkenswerten Tempos, mit dem sie generative KI einführen, ist die Chance groß, dass einige dieser Schwachstellen in den KI-Modellen selbst liegen – oder in den Daten, mit denen sie trainiert wurden.

Hier kommt das KI-spezifische Red Teaming ins Spiel. Auf diese Weise können Sie die Widerstandsfähigkeit von KI-Systemen gegen dynamische Bedrohungsszenarien testen. Dabei werden realweltliche Angriffsszenarien simuliert, um KI-Systeme vor und nach ihrem Einsatz in einer Produktionsumgebung einem Stresstest zu unterziehen. Red Teaming ist von entscheidender Bedeutung, um sicherzustellen, dass Unternehmen die Vorteile der KI nutzen können, ohne zusätzliche Risiken einzugehen.

IBMs X-Force Red Offensive Security Service folgt einem iterativen Prozess mit kontinuierlichem Test, um Schwachstellen in vier Schlüsselbereichen zu beheben:

Modell-Sicherheit und Sicherheitstests
GenAI-Anwendungen testen
Sicherheitstests für KI-Plattformen
Sicherheitstests der MLSecOps-Pipeline

In diesem Artikel werden wir uns auf drei Arten von Angriffen konzentrieren, die auf KI-Modelle und Trainingsdaten abzielen.

Prompt Injection

Die meisten gängigen KI-Modelle verfügen über integrierte Sicherheitsvorkehrungen, um das Risiko der Produktion schädlicher Inhalte zu minimieren. Unter normalen Umständen kann man beispielsweise ChatGPT oder Copilot nicht dazu auffordern, bösartigen Code zu schreiben. Methoden wie Prompt-Injection-Angriffe und Jailbreaking ermöglichen es jedoch, diese Sicherheitsvorkehrungen zu umgehen.

Eines der Ziele von KI-Red-Teaming ist es, die KI bewusst dazu zu bringen, sich „schlecht zu benehmen“ – genau wie es Angreifer tun. Jailbreaking ist eine solche Methode, bei der kreative Anreize genutzt werden, um ein Modell dazu zu bringen, seine Sicherheitsfilter zu umgehen. Obwohl Jailbreak theoretisch einem Benutzer helfen kann, eine tatsächliche Straftat zu begehen, verwenden die meisten böswilligen Akteure andere Angriffsvektoren – einfach, weil sie weitaus effektiver sind.

Prompt-Injection-Angriffe sind viel schwerwiegender. Anstatt die Modelle selbst ins Visier zu nehmen, zielen sie auf die gesamte Lieferkette ab, indem sie bösartige Anweisungen in Prompts verschleiern, die ansonsten harmlos erscheinen. Ein Angreifer könnte beispielsweise Prompt Injection nutzen, um ein KI-Modell dazu zu bringen, sensible Informationen wie einen API-Schlüssel preiszugeben, was ihm möglicherweise einen Hintertürzugang zu anderen damit verbundenen Systemen verschafft.

Red Teams können auch Ausweichangriffe simulieren, eine Art von Angriff, bei dem ein Angreifer die Eingaben subtil verändert, um ein Modell dazu zu bringen, eine Anweisung falsch zu klassifizieren oder zu interpretieren. Diese Veränderungen sind für den Menschen in der Regel nicht wahrnehmbar. Sie können jedoch immer noch ein KI-Modell so manipulieren, dass es eine unerwünschte Aktion ausführt. Dies könnte beispielsweise das Verändern eines einzelnen Pixels in einem Eingabebild beinhalten, um den Klassifikator eines Computer-Vision-Modells, wie etwa eines für den Einsatz in einem selbstfahrenden Fahrzeug vorgesehenen Modells, zu täuschen.

Mehr über die offensiven X-Force Red Sicherheitsservices erfahren

Branchen-Newsletter

Die neuesten Tech-News – von Experten bestätigt

Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Datenvergiftung

Angreifer haben es auch auf KI-Modelle während des Trainings und der Entwicklung abgesehen. Daher ist es wichtig, dass Red Teams die gleichen Angriffe simulieren, um Risiken zu erkennen, die das gesamte Projekt gefährden könnten. Bei einer Datenvergiftung schleust ein Angreifer bösartige Daten in den Trainingsdatensatz ein, wodurch der Lernprozess verfälscht und Schwachstellen in das Modell selbst Einbetten werden. Das Ergebnis ist, dass das gesamte Modell zu einem potenziellen Einfallstor für weitere Angriffe wird. Wenn die Trainingsdaten beeinträchtigt sind, muss das Modell normalerweise von Grund auf neu trainiert werden. Das ist ein sehr ressourcenintensiver und zeitaufwändiger Vorgang.

Die Einbindung eines Red Teams von Beginn des KI-Modellentwicklungsprozesses an ist unerlässlich, um das Risiko der Datenvergiftung zu minimieren. Red Teams simulieren reale Datenvergiftungsangriffe in einer sicheren Sandbox-Umgebung, die von bestehenden Produktionssystemen durch eine Air-Gap getrennt ist. Dies liefert Erkenntnisse darin, wie anfällig das Modell für Datenvergiftung ist und wie reale Bedrohungsakteure in den Trainingsprozess eindringen oder ihn kompromittieren könnten.

KI-gestützte Red Teams können auch proaktiv Schwachstellen in Datenerfassungspipelines aufdecken. Große Sprachmodelle (LLMs) beziehen oft Daten aus einer riesigen Anzahl unterschiedlicher Quellen. ChatGPT wurde beispielsweise auf einem riesigen Textkorpus von Millionen von Websites, Büchern und anderen Quellen trainiert. Beim Aufbau eines firmeneigenen LLM ist es wichtig, dass Unternehmen genau wissen, woher sie ihre Trainingsdaten beziehen und wie sie auf Qualität überprüft werden. Während das eher eine Aufgabe von Sicherheitsprüfern und Prozessprüfern ist, können Red Teams Penetrationprüfungen nutzen, um die Fähigkeit eines Modells zu bewerten, Mängel in seiner Datenerfassungspipeline zu bekämpfen.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Alle Episoden von Mixture of Experts ansehen

Modellinversion

Proprietäre KI-Modelle werden in der Regel zumindest teilweise mit den eigenen Daten des Unternehmens trainiert. Ein im Kundenservice eingesetztes LLM könnte beispielsweise die Kundendaten des Unternehmens für Schulungszwecke nutzen, um möglichst relevante Ergebnisse zu liefern. Idealerweise sollten Modelle nur auf Basis anonymisierter Daten trainiert werden, die jeder einsehen kann. Selbst dann besteht jedoch weiterhin das Risiko von Datenschutzverletzungen aufgrund von Modellinversionsangriffen und Angriffen auf die Mitgliedschaft.

Selbst nach der Bereitstellung können KI-Modelle Spuren der Daten behalten, mit denen sie trainiert wurden. Zum Beispiel gelang es dem Team im DeepMind-KI-Forschungslabor von Google erfolgreich, ChatGPT hereinzulegen mithilfe eines einfachen Prompts dazu zu bringen, Trainingsdaten zu leaken. Durch Angriffe mit Modellinversion können böswillige Akteure daher Trainingsdaten rekonstruieren und dabei möglicherweise vertrauliche Informationen offenlegen.

Membership Inference Attacks funktionieren auf ähnliche Weise. In diesem Fall versucht ein Angreifer vorherzusagen, ob ein bestimmter Datenpunkt durch Inferenz mit Hilfe eines anderen Modells trainiert wurde. Dies ist eine ausgefeiltere Methode, bei der ein Angreifer zunächst ein separates Modell – ein sogenanntes Mitgliedschaftsinferenzmodell – auf der Grundlage der Ausgabe des Modells, das er angreift, trainiert.

Nehmen wir zum Beispiel an, ein Modell wurde auf der Grundlage der Kaufhistorie eines Kunden trainiert, um personalisierte Produktempfehlungen zu geben. Ein Angreifer kann dann ein Mitgliedschaftsinferenzmodell erstellen und dessen Ausgaben mit denen des Zielmodells vergleichen, um potenziell sensible Informationen abzuleiten, die er für einen gezielten Angriff nutzen könnte.

In beiden Fällen können Red Teams KI-Modelle hinsichtlich ihrer Fähigkeit bewerten, unbeabsichtigt sensible Informationen direkt oder indirekt durch Schlussfolgerungen preiszugeben. Dies kann helfen, Sicherheitslücken in den Workflows für Trainingsdaten selbst zu identifizieren, z. B. Daten, die gemäß den Datenschutzrichtlinien des Unternehmens nicht ausreichend anonymisiert wurden.

Vertrauen in KI aufbauen

Der Aufbau von Vertrauen in KI erfordert eine proaktive Strategie, und KI-Red-Teaming spielt dabei eine grundlegende Rolle. Durch den Einsatz von Methoden wie Adversarial Training und simulierten Modellinversionsangriffen können Red Teams Sicherheitslücken identifizieren, die andere Sicherheitsanalysten wahrscheinlich übersehen würden.

Diese Ergebnisse können KI-Entwicklern dann helfen, Prioritäten zu setzen und proaktive Schutzmaßnahmen zu implementieren, um zu verhindern, dass echte Bedrohungsakteure dieselben Sicherheitslücken ausnutzen. Für Unternehmen führt das zu einem reduzierten Sicherheitsrisiko und einem gestiegenen Vertrauen in KI-Modelle, die sich in vielen kritischen Systemen zunehmend tief verankern.

Testen der Grenzen generativer KI: Wie Red Teaming Schwachstellen in KI-Modellen aufdeckt