Prompt Injections nutzen die Tatsache aus, dass LLM-Anwendungen nicht klar zwischen Entwickleranweisungen und Benutzereingaben unterscheiden können. Durch das Schreiben sorgfältig ausgearbeiteter Prompts können Hacker die Anweisungen des Entwicklers außer Kraft setzen und das LLM dazu bringen, ihre Befehle auszuführen.

Um Prompt-Injection-Angriffe zu verstehen, ist es hilfreich, sich zunächst anzusehen, wie Entwickler viele LLM-basierte Apps erstellen.

LLMs sind eine Art Foundation Model, ein hochflexibles Modell für maschinelles Lernen, das anhand eines großen Datensatzes trainiert wird. Sie können durch einen Prozess namens „Instruction Fine-Tuning“ an verschiedene Aufgaben angepasst werden. Entwickler geben dem LLM eine Reihe von Anweisungen in natürlicher Sprache für eine Aufgabe und das LLM hält sich daran.

Dank der Feinabstimmung der Anweisungen müssen Entwickler keinen Code schreiben, um LLM-Apps zu programmieren. Stattdessen können sie Systemprompts schreiben, bei denen es sich um Anweisungen handelt, die dem KI-Modell mitteilen, wie es mit Benutzereingaben umgehen soll. Wenn ein Benutzer mit der App interagiert, wird seine Eingabe zum Systemprompt hinzugefügt und das Ganze wird als einziger Befehl an das LLM weitergeleitet.

Die Prompt-Injection-Schwachstelle entsteht, weil sowohl der Systemprompt als auch die Benutzereingaben dasselbe Format haben: Zeichenfolgen mit Text in natürlicher Sprache. Das bedeutet, dass das LLM nicht allein anhand des Datentyps zwischen Anweisungen und Eingaben unterscheiden kann. Stattdessen verlässt es sich auf das bisherige Training und die Prompts selbst, um zu bestimmen, was zu tun ist. Wenn ein Angreifer also Eingaben vornimmt, die einem Systemprompt ähneln, ignoriert das LLM die Anweisungen der Entwickler und macht, was der Hacker will.

Der Data Scientist Riley Goodside war einer der ersten, der Prompt Injections entdeckte. Goodside verwendete eine einfache LLM-basierte Übersetzungs-App, um zu veranschaulichen, wie die Angriffe funktionieren. Hier ist eine leicht abgewandelte Version von Goodsides Beispiel2: