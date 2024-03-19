Wie KI mit Prompt Injection gehackt werden kann: NIST-Bericht

Autoren

Ronda Swaney

Freelance Technology Writer

Das National Institute of Standards and Technology (NIST) beobachtet den Lebenszyklus der KI genau, und das aus gutem Grund. Mit der zunehmenden Verbreitung von KI nimmt auch die Entdeckung und Ausnutzung von Schwachstellen in der KI-Cybersicherheit zu. Prompt Injection ist eine solche Schwachstelle, die speziell generative KI angreift.

In Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations definiert das NIST verschiedene Taktiken und Cyberangriffe im Bereich Adversarial Machine Learning (AML), wie beispielsweise Prompt Injection, und gibt Anwendern Empfehlungen, wie sie diese abwehren und bewältigen können. AML-Taktiken extrahieren Informationen darüber, wie sich Machine-Learning-Systeme (ML) verhalten, um herauszufinden, wie sie manipuliert werden können. Diese Informationen werden verwendet, um KI und ihre großen Sprachmodelle (LLMs) anzugreifen, um Sicherheitsvorkehrungen zu umgehen, Schutzmaßnahmen zu überwinden und Wege für Exploits zu öffnen.

Was ist Prompt Injection?

NIST definiert zwei Arten von Prompt-Injection-Angriffen: direkt und indirekt. Mit direkter Prompt Injektion gibt ein Benutzer einen Prompt ein, der dazu führt, dass das LLM unbeabsichtigte oder nicht autorisierte Aktionen ausführt. Von einer indirekten Prompt Injection spricht man, wenn ein Angreifer die Daten, aus denen ein LLM schöpft, vergiftet oder verfälscht.

Eine der bekanntesten direkten Prompt-Injection-Methoden ist DAN, Do Anything Now, eine Prompt Injection, die gegen ChatGPT verwendet wird. DAN nutzt Rollenspiel, um Moderationsfilter zu umgehen. In der ersten Iteration teilten Prompt ChatGPT mit, dass es sich nun um DAN handelte. DAN konnte alles tun, was es wollte, und sollte beispielsweise so tun, als würde es einer ruchlosen Person dabei helfen, Sprengstoff herzustellen und zu zünden. Diese Taktik umging die Filter, die die Bereitstellung krimineller oder schädlicher Informationen verhinderten, indem sie einem Rollenspielszenario folgte. OpenAI, die Entwickler von ChatGPT, verfolgen diese Taktik und aktualisieren das Modell, um seine Verwendung zu verhindern, aber die Benutzer umgehen Filter so oft, dass sich die Methode auf (mindestens) DAN 12.0 weiterentwickelt hat.

Die indirekte Prompt Injection hängt, wie das NIST feststellt, davon ab, dass ein Angreifer Quellen bereitstellen kann, die ein generatives KI-Modell verarbeiten würde, wie beispielsweise PDF-Dateien, Dokumente, Webseiten oder sogar Audiodateien, die zur Erzeugung gefälschter Stimmen verwendet werden. Die indirekte Prompt-Injektion gilt weithin als größte Sicherheitslücke der generativen KI, ohne dass es einfache Möglichkeiten gibt, diese Angriffe zu finden und Fixes durchzuführen. Beispiele für diesen Prompt-Typ sind breit und vielfältig. Sie reichen von absurd (ein Chatbot antwortet mit „Piratenjargon“) über schädlich (ein Chatbot nutzt Social Engineering Chat, um einen Nutzer dazu zu bringen, Kreditkarten- und andere persönliche Daten preiszugeben) bis hin zu weitreichend (Entführung von KI-Assistenten, um Betrugs-E-Mails an Ihre gesamte Kontaktliste zu versenden).

So stoppen Sie Prompt-Injection-Angriffe

Diese Angriffe sind in der Regel gut versteckt, was sie sowohl effektiv als auch schwer aufzuhalten macht. Wie schützen Sie sich vor direkter Prompt Injection? Wie NIST feststellt, kann man sie nicht vollständig stoppen, aber defensive Strategien bieten ein gewisses Maß an Schutz. Für Modellentwickler empfiehlt das NIST, darauf zu achten, dass Trainingsdatensätze sorgfältig kuratiert werden. Außerdem wird empfohlen, das Modell darauf zu trainieren, welche Arten von Eingaben auf einen Prompt-Injection-Versuch hindeuten, und es darin zu schulen, wie man feindliche Prompts identifiziert.

Für die indirekte Prompt Injection empfiehlt das NIST die Einbeziehung des Menschen zur Feinabstimmung der Modelle, bekannt als „Reinforcement Learning from Human Feedback“ (RLHF). RLHF hilft dabei, Modelle besser auf menschliche Werte abzustimmen, die unerwünschte Verhaltensweisen verhindern. Ein weiterer Vorschlag besteht darin, Anweisungen aus den abgerufenen Eingaben herauszufiltern, wodurch die Ausführung unerwünschter Anweisungen aus externen Quellen verhindert werden kann. Das NIST empfiehlt außerdem den Einsatz von LLM-Moderatoren, um Angriffe zu erkennen, die nicht auf abgerufenen Quellen basieren. Schließlich schlägt NIST Lösungen vor, die auf Interpretierbarkeit basieren. Das bedeutet, dass die Vorhersagetrajektorie des Modells, das anomale Eingaben erkennt, verwendet werden kann, um anomale Eingaben zu erkennen und dann zu stoppen.

Generative KI und diejenigen, die ihre Schwachstellen ausnutzen wollen, werden die Cybersicherheitslandschaft weiterhin verändern. Doch dieselbe transformative Kraft kann auch Lösungen liefern. Erfahren Sie mehr darüber, wie IBM Security KI-Cybersicherheitslösungen bereitstellt, die Sicherheitsvorkehrungen stärken.

