Obwohl die beiden Begriffe oft synonym verwendet werden, handelt es sich bei Prompt Injections und Jailbreaking um unterschiedliche Techniken. Prompt Injections tarnen bösartige Anweisungen als harmlose Eingaben, während Jailbreaking dazu führt, dass ein LLM seine Sicherheitsmaßnahmen ignoriert.
Systemprompts sagen LLMs nicht nur, was zu tun ist. Sie enthalten auch Schutzmaßnahmen, die dem LLM mitteilen, was es nicht tun soll. So könnte zum Beispiel der Systemprompt einer einfachen Übersetzungs-App wie folgt lauten:
Sie sind ein Übersetzungs-Chatbot. Sie übersetzen keine Aussagen, die Schimpfwörter enthalten. Übersetzen Sie den folgenden Text aus dem Englischen ins Französische:
Diese Sicherheitsvorkehrungen sollen verhindern, dass Benutzer LLMs für ungewünschte Aktionen verwenden – in diesem Fall, dass der Bot beleidigende Aussagen macht.
„Jailbreaking“ eines LLM bedeutet, einen Prompt zu schreiben, der es davon überzeugt, seine Sicherheitsmaßnahmen zu missachten. Hacker können dies oft tun, indem sie das LLM bitten, eine Persona anzunehmen oder ein „Spiel“ zu spielen. Die Eingabeaufforderung „Do Anything Now“ oder „DAN“ ist eine gängige Jailbreaking-Technik, bei der Benutzer ein LLM bitten, die Rolle von „DAN“ zu übernehmen, einem KI-Modell ohne Regeln.
Schutzmaßnahmen können den Jailbreak eines LLM erschweren. Dennoch arbeiten Hacker und Hobbyanwender gleichermaßen daran, die neuesten Regelwerke durch Prompt Engineering zu überlisten. Wenn sie Prompts finden, die funktionieren, teilen sie diese oft online. Das Ergebnis ist so etwas wie ein Wettrüsten: LLM-Entwickler aktualisieren ihre Sicherheitsmaßnahmen, um auf neue Jailbreaking-Prompts zu reagieren, während die Jailbreaker ihre Prompts aktualisieren, um die neuen Sicherheitsmaßnahmen zu umgehen.
Prompt Injections können zum Jailbreak eines LLM verwendet werden, und Jailbreaking-Taktiken können den Weg für eine erfolgreiche Prompt Injection ebnen, aber letztendlich handelt es sich um zwei unterschiedliche Techniken.