Los ataques mediante inyección de instrucciones aprovechan el hecho de que las aplicaciones de LLM no distinguen con claridad entre las instrucciones del desarrollador y las entradas del usuario. Al escribir instrucciones cuidadosamente elaboradas, los hackers pueden anular las instrucciones del desarrollador y hacer que el LLM cumpla sus órdenes.

Para comprender los ataques mediante inyección de instrucciones, es útil observar primero cómo los desarrolladores crean muchas aplicaciones impulsadas por LLM.

Los LLM son un tipo de modelo fundacional, un modelo de aprendizaje automático sumamente flexible entrenado con un gran conjunto de datos. Se pueden adaptar a diversas tareas a través de un proceso llamado "ajuste de instrucciones". Los desarrolladores dan al LLM un conjunto de instrucciones en lenguaje natural para una tarea y el LLM las sigue.

Gracias a los ajustes precisos de las instrucciones, los desarrolladores no necesitan escribir ningún código para programar aplicaciones LLM. En cambio, pueden escribir instrucciones del sistema, que son conjuntos de instrucciones que indican al modelo de IA cómo manejar las entradas del usuario. Cuando un usuario interactúa con la aplicación, las entradas se añaden a las instrucciones del sistema y todo ello se transmite al LLM como un único comando.

La vulnerabilidad de inyección de instrucciones surge porque las instrucciones del sistema y las entradas del usuario toman el mismo formato: cadenas de texto en lenguaje natural. Eso significa que el LLM no puede distinguir entre las instrucciones y las entradas del usuario basándose únicamente en el tipo de datos. En cambio, se basa en el entrenamiento anterior y en las instrucciones en sí mismas para determinar qué hacer. Si un atacante genera una entrada que tiene una similitud suficiente con una instrucción del sistema, el LLM ignora las instrucciones de los desarrolladores y hace lo que el hacker quiere.

El científico de datos Riley Goodside fue uno de los primeros en descubrir las inyecciones de instrucciones. Goodside utilizó una sencilla aplicación de traducción basada en LLM para ilustrar el funcionamiento de los ataques. Aquí hay una versión ligeramente modificada del ejemplo2 de Goodside: