NIST definiert zwei Arten von Prompt-Injection-Angriffen: direkt und indirekt. Mit direkter Prompt Injektion gibt ein Benutzer einen Prompt ein, der dazu führt, dass das LLM unbeabsichtigte oder nicht autorisierte Aktionen ausführt. Von einer indirekten Prompt Injection spricht man, wenn ein Angreifer die Daten, aus denen ein LLM schöpft, vergiftet oder verfälscht.

Eine der bekanntesten direkten Prompt-Injection-Methoden ist DAN, Do Anything Now, eine Prompt Injection, die gegen ChatGPT verwendet wird. DAN nutzt Rollenspiel, um Moderationsfilter zu umgehen. In der ersten Iteration teilten Prompt ChatGPT mit, dass es sich nun um DAN handelte. DAN konnte alles tun, was es wollte, und sollte beispielsweise so tun, als würde es einer ruchlosen Person dabei helfen, Sprengstoff herzustellen und zu zünden. Diese Taktik umging die Filter, die die Bereitstellung krimineller oder schädlicher Informationen verhinderten, indem sie einem Rollenspielszenario folgte. OpenAI, die Entwickler von ChatGPT, verfolgen diese Taktik und aktualisieren das Modell, um seine Verwendung zu verhindern, aber die Benutzer umgehen Filter so oft, dass sich die Methode auf (mindestens) DAN 12.0 weiterentwickelt hat.

Die indirekte Prompt Injection hängt, wie das NIST feststellt, davon ab, dass ein Angreifer Quellen bereitstellen kann, die ein generatives KI-Modell verarbeiten würde, wie beispielsweise PDF-Dateien, Dokumente, Webseiten oder sogar Audiodateien, die zur Erzeugung gefälschter Stimmen verwendet werden. Die indirekte Prompt-Injektion gilt weithin als größte Sicherheitslücke der generativen KI, ohne dass es einfache Möglichkeiten gibt, diese Angriffe zu finden und Fixes durchzuführen. Beispiele für diesen Prompt-Typ sind breit und vielfältig. Sie reichen von absurd (ein Chatbot antwortet mit „Piratenjargon“) über schädlich (ein Chatbot nutzt Social Engineering Chat, um einen Nutzer dazu zu bringen, Kreditkarten- und andere persönliche Daten preiszugeben) bis hin zu weitreichend (Entführung von KI-Assistenten, um Betrugs-E-Mails an Ihre gesamte Kontaktliste zu versenden).