Embora os dois termos sejam frequentemente usados como sinônimos, injeções de prompt e jailbreaking são técnicas diferentes. As injeções de prompt disfarçam instruções maliciosas como entradas benignas, enquanto o jailbreak faz com que um LLM ignore suas proteções.
As instruções do sistema não dizem apenas aos LLMs o que fazer. Eles também incluem proteções que dizem ao LLM o que não fazer. Por exemplo, o prompt do sistema de um aplicativo de tradução simples pode ler:
Você é um chatbot de tradução. Você não traduz nenhuma declaração que contenha palavrões. Traduza o seguinte texto do inglês para o francês:
Essas proteções visam impedir que as pessoas usem os LLMs para ações não intencionais - nesse caso, fazer com que o bot diga algo ofensivo.
"Fazer jailbreak" em um LLM significa escrever um prompt que o convença a desconsiderar suas proteções. Os hackers geralmente podem fazer isso pedindo ao LLM que adote uma persona ou jogue um "jogo". O prompt "Faça qualquer coisa agora" ou "DAN" é uma técnica comum de jailbreaking na qual os usuários pedem a um LLM para assumir o papel de "DAN", um modelo de IA sem regras.
As proteções podem dificultar o jailbreak de um LLM. Ainda assim, hackers e amadores estão sempre trabalhando em esforços rápidos de engenharia para vencer os conjuntos de regras mais recentes. Quando encontram instruções que funcionam, geralmente as compartilham on-line. O resultado é uma espécie de corrida de braço: os desenvolvedores de LLM atualizam suas proteções para levar em conta os novos prompts de jailbreaking, enquanto os jailbreakers atualizam seus prompts para contornar as novas proteções.
As injeções de prompt podem ser usadas para fazer o jailbreak de um LLM, e as táticas de jailbreaking podem abrir caminho para uma injeção de prompt bem-sucedida, mas, em última análise, são duas técnicas distintas.