Si bien los dos términos a menudo se usan como sinónimos, la inyección de instrucciones y el desbloqueo por jailbreaking son técnicas diferentes. La inyección de instrucciones disfraza las instrucciones maliciosas como entradas benignas, mientras que el desbloqueo por jailbreaking hace que un LLM ignore sus medidas de seguridad.
Las instrucciones del sistema no solo indican a los LLM qué hacer. También incluyen medidas de seguridad que le indican al LLM lo que no debe hacer. Por ejemplo, la instrucción del sistema de una aplicación de traducción simple podría decir:
Eres un chatbot de traducción. No traduces ninguna declaración que contenga malas palabras. Traducir el siguiente texto del inglés al español:
Estas medidas de seguridad tienen como objetivo evitar que las personas utilicen los LLM para acciones no previstas; en este caso, evitar que el bot diga algo ofensivo.
"Jailbreaking o desbloquear" un LLM significa escribir una instrucción que lo convenza de ignorar las medidas de seguridad. Los hackers a menudo pueden hacerlo pidiéndole al LLM que adopte un personaje o participe en un "juego". La instrucción "DAN" (sigla en inglés que corresponde a "Do Anything Now" y significa "ahora haz cualquier cosa") es una técnica común de desbloqueo por jailbreaking en la que los usuarios le piden a un LLM que asuma el rol de "DAN", un modelo de IA sin reglas.
Las medidas de seguridad pueden dificultar el desbloqueo por jailbreaking de un LLM. Aun así, tanto los hackers como los aficionados siempre están trabajando en esfuerzos de ingeniería para superar los conjuntos de reglas más recientes. Cuando encuentran instrucciones que funcionan, a menudo las comparten en línea. El resultado es una especie de carrera armamentista: los desarrolladores de LLM actualizan las medidas de seguridad para tener en cuenta las nuevas instrucciones de desbloqueo por jailbreaking, mientras que quienes hacen los desbloqueos actualizan las instrucciones para sortear las nuevas medidas de seguridad.
La inyección de instrucciones se puede utilizar para desbloquear por jailbreaking un LLM y las tácticas de desbloqueo pueden despejar el camino para que la inyección de instrucciones sea exitosa, pero en última instancia son dos técnicas distintas.