El NIST define dos tipos de ataques de inyección de instrucciones: directo e indirecto. Con la inyección directa de instrucciones, un usuario ingresa una instrucción de texto que hace que el LLM realice acciones no deseadas o no autorizadas. Una inyección indirecta de instrucciones ocurre cuando un atacante envenena o degrada los datos en los que se basa un LLM.

Uno de los métodos de inyección de instrucciones directas más conocidos es DAN, Do Anything Now, una inyección de instrucciones utilizada contra ChatGPT. DAN utiliza el juego de roles para eludir los filtros de moderación. En su primera iteración, las instrucciones indicaban a ChatGPT que ahora era DAN. DAN podía hacer lo que quisiera y debía fingir, por ejemplo, ayudar a una persona nefasta a crear y detonar explosivos. Esta táctica evadió los filtros que le impedían proporcionar información criminal o dañina siguiendo un escenario de juego de roles. OpenAI, los desarrolladores de ChatGPT, rastrean esta táctica y actualizan el modelo para evitar su uso, pero los usuarios siguen eludiendo los filtros hasta el punto de que el método ha evolucionado a (al menos) DAN 12.0.

La inyección indirecta de instrucciones, como señala el NIST, depende de que un atacante pueda proporcionar fuentes que un modelo de IA generativa ingeriría, como un PDF, un documento, un sitio web o incluso archivos de audio utilizados para generar voces falsas. Se cree que la inyección indirecta es la mayor falla de seguridad de IA generativa, sin formas sencillas de encontrar y arreglar estos ataques. Los ejemplos de este tipo de instrucciones son amplios y variados. Van desde lo absurdo (hacer que un chatbot responda usando "charla pirata") hasta lo dañino (usar chat de ingeniería social para convencer a un usuario de que revele tarjetas de crédito y otros datos personales) y de amplio alcance (secuestrar asistentes de IA para enviar correos electrónicos fraudulentos a toda su lista de contactos).