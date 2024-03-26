Las inyecciones de instrucciones aprovechan el hecho de que las aplicaciones de LLM no distinguen claramente entre las instrucciones del desarrollador y las entradas del usuario. Escribiendo instrucciones cuidadosamente elaboradas, los hackers pueden anular las instrucciones del desarrollador y hacer que el LLM cumpla sus órdenes.

Para entender los ataques de inyección de prompts, es útil observar primero cómo los desarrolladores construyen muchas aplicaciones basadas en LLM.

Los LLM son un tipo de modelo fundacional, un modelo de machine learning altamente flexible entrenado en un gran conjunto de datos. Pueden adaptarse a diversas tareas mediante un proceso llamado "ajuste de instrucciones". Los desarrolladores dan al LLM un conjunto de instrucciones en lenguaje natural para una tarea, y el LLM las sigue.

Gracias al ajuste fino de las instrucciones, los desarrolladores no necesitan escribir ningún código para programar aplicaciones LLM. En su lugar, pueden escribir instrucciones del sistema, que son conjuntos de instrucciones que indican al modelo de IA cómo manejar la entrada del usuario. Cuando un usuario interactúa con la aplicación, su entrada se añade a la instrucción del sistema y todo ello se transmite al LLM como un único comando.

La vulnerabilidad de inyección de instrucciones surge porque tanto la instrucción del sistema como las entradas del usuario tienen el mismo formato: cadenas de texto en lenguaje natural. Esto significa que los LLM no pueden distinguir entre instrucciones y entradas basándose únicamente en el tipo de datos. Por el contrario, se basan en el entrenamiento anterior y en las propias instrucciones para determinar qué hacer. Si un atacante introduce datos que se parecen lo suficiente a una instrucción del sistema, el LLM ignora las instrucciones de los desarrolladores y hace lo que el hacker quiere.

El científico de datos Riley Goodside fue uno de los primeros en descubrir las inyecciones de instrucciones. Goodside utilizó una sencilla aplicación de traducción basada en LLM para ilustrar el funcionamiento de los ataques. He aquí una versión ligeramente modificada del ejemplo de Goodside2: