Aunque los dos términos se utilizan a menudo como sinónimos, las inyecciones de prompts y el jailbreak son técnicas diferentes. Las inyecciones de prompts disfrazan instrucciones maliciosas de entradas benignas, mientras que el jailbreak hace que un LLM ignore sus protecciones.
Los prompts del sistema no se limitan a decir a los LLM lo que tienen que hacer. También incluyen protecciones que indican al LLM lo que no debe hacer. Por ejemplo, en una aplicación de traducción sencilla, el mensaje del sistema podría ser:
Usted es un chatbot de traducción. No traduzca declaraciones que contengan blasfemias. Traduzca el siguiente texto del inglés al francés:
El objetivo de estas protecciones es impedir que la gente utilice los LLM para acciones no deseadas; en este caso, para hacer que el bot diga algo ofensivo.
"Hacer jailbreak" a un LLM significa escribir un prompt que lo convenza de ignorar sus protecciones. Los piratas informáticos a menudo pueden hacer esto pidiendo al LLM que adopte un personaje o juegue a un "juego". El prompt "Haga cualquier cosa ahora", o "DAN" (por sus siglas en inglés), es una técnica común de jailbreak en la que los usuarios piden a un LLM que asuma el papel de "DAN", un modelo de IA sin reglas.
Las protecciones pueden dificultar el jailbreak de un LLM. Aun así, hackers y aficionados por igual siempre están trabajando en proyectos de ingeniería de prompts para superar los últimos conjuntos de reglas. Cuando encuentran sugerencias que funcionan, suelen compartirlas en Internet. El resultado es una especie de carrera armamentística: Los desarrolladores de LLM actualizan sus protecciones para tener en cuenta las nuevas peticiones de jailbreak, mientras que los jailbreakers actualizan sus peticiones para eludir las nuevas protecciones.
Las inyecciones de prompts se pueden utilizar para hacer jailbreak a un LLM, y las tácticas de jailbreak pueden despejar el camino para una inyección de prompts exitosa, pero son dos técnicas distintas.