Sebbene i due termini siano spesso usati come sinonimi, le prompt injection e il jailbreak sono tecniche diverse. Le prompt injection mascherano le istruzioni dannose come input benigni, mentre il jailbreak fa in modo che un LLM ignori le sue protezioni.
I prompt di sistema non si limitano a dire agli LLM cosa fare. Includono anche misure di salvaguardia che dicono all'LLM cosa non fare. Ad esempio, il prompt di sistema di una semplice app di traduzione potrebbe essere:
Sei un chatbot di traduzione. Non si traducono dichiarazioni contenenti bestemmie. Traduci il seguente testo dall'inglese al francese:
Queste salvaguardie mirano a impedire che le persone utilizzino gli LLM per azioni non volute: in questo caso, per far dire al bot qualcosa di offensivo.
"Jailbreaking" di un LLM significa scrivere un prompt che lo convince a ignorare le sue protezioni. Spesso gli hacker possono farlo chiedendo al LLM di adottare un personaggio o di giocare a un "gioco". Il prompt "Do Anything Now" o "DAN" è una tecnica comune di jailbreaking in cui gli utenti chiedono a un LLM di assumere il ruolo di "DAN", un modello AI senza regole.
Le misure di salvaguardia possono rendere più difficile il jailbreak di un LLM. Tuttavia, sia gli hacker che gli hobbisti sono sempre impegnati negli sforzi di prompt engineering per battere le regole più recenti. Quando trovano prompt che funzionano, spesso li condividono online. Il risultato è una sorta di corsa agli armamenti: gli sviluppatori LLM aggiornano le misure di sicurezza per tenere conto delle nuove richieste di jailbreaking, mentre i jailbreaker aggiornano i prompt per aggirare le nuove misure di sicurezza.
Le prompt injection possono essere utilizzate per eseguire il jailbreaking di un LLM e le tattiche di jailbreak possono spianare la strada per un'injection rapida di successo, ma in definitiva sono due tecniche distinte.