Cómo se puede hackear la IA con inyección de instrucciones: informe del NIST

El Instituto Nacional de Estándares y Tecnología (NIST) de EE. UU. observa de cerca el ciclo de vida de la IA, y por una buena razón. A medida que prolifera la IA, también lo hace el descubrimiento y la explotación de las vulnerabilidades de ciberseguridad de la IA. La inyección de instrucciones es una de esas vulnerabilidades que ataca específicamente a la IA generativa.

En Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations, el NIST define varias tácticas y ciberataques de machine learning adversarial (AML), como la inyección de instrucciones, y asesora a los usuarios sobre cómo mitigarlos y gestionarlos. Las tácticas de AML extraen información sobre cómo se comportan los sistemas de machine learning (ML) para descubrir cómo se pueden manipular. Esa información se utiliza para atacar a la IA y sus modelos de lenguaje grandes (LLM) para eludir la seguridad y las salvaguardas, y abrir caminos para explotar.

¿Qué es la inyección de instrucciones?

El NIST define dos tipos de ataques de inyección de instrucciones: directo e indirecto. Con la inyección directa de instrucciones, un usuario ingresa una instrucción de texto que hace que el LLM realice acciones no deseadas o no autorizadas. Una inyección indirecta de instrucciones ocurre cuando un atacante envenena o degrada los datos en los que se basa un LLM.

Uno de los métodos de inyección de instrucciones directas más conocidos es DAN, Do Anything Now, una inyección de instrucciones utilizada contra ChatGPT. DAN utiliza el juego de roles para eludir los filtros de moderación. En su primera iteración, las instrucciones indicaban a ChatGPT que ahora era DAN. DAN podía hacer lo que quisiera y debía fingir, por ejemplo, ayudar a una persona nefasta a crear y detonar explosivos. Esta táctica evadió los filtros que le impedían proporcionar información criminal o dañina siguiendo un escenario de juego de roles. OpenAI, los desarrolladores de ChatGPT, rastrean esta táctica y actualizan el modelo para evitar su uso, pero los usuarios siguen eludiendo los filtros hasta el punto de que el método ha evolucionado a (al menos) DAN 12.0.

La inyección indirecta de instrucciones, como señala el NIST, depende de que un atacante pueda proporcionar fuentes que un modelo de IA generativa ingeriría, como un PDF, un documento, un sitio web o incluso archivos de audio utilizados para generar voces falsas. Se cree que la inyección indirecta es la mayor falla de seguridad de IA generativa, sin formas sencillas de encontrar y arreglar estos ataques. Los ejemplos de este tipo de instrucciones son amplios y variados. Van desde lo absurdo (hacer que un chatbot responda usando "charla pirata") hasta lo dañino (usar chat de ingeniería social para convencer a un usuario de que revele tarjetas de crédito y otros datos personales) y de amplio alcance (secuestrar asistentes de IA para enviar correos electrónicos fraudulentos a toda su lista de contactos).

Cómo detener los ataques de inyección de instrucciones

Estos ataques tienden a estar bien ocultos, lo que los hace efectivos y difíciles de detener. ¿Cómo se protege contra la inyección directa de instrucciones? Como señala el NIST, no se pueden detener por completo, pero las estrategias defensivas agregan cierta medida de protección. Para los creadores de modelos, el NIST sugiere asegurarse de que los conjuntos de datos se curan cuidadosamente. También sugiere entrenar el modelo sobre qué tipos de entradas señalan un intento de inyección de instrucciones y sobre cómo identificar las instrucciones adversarias.

Para la inyección indirecta de instrucciones, el NIST sugiere la participación humana para ajustar los modelos, lo que se conoce como aprendizaje por refuerzo a partir del feedback humano (RLHF). El RLHF ayuda a los modelos a alinearse mejor con los valores humanos que evitan comportamientos no deseados. Otra sugerencia es filtrar las instrucciones de las entradas recuperadas, lo que puede evitar la ejecución de instrucciones no deseadas de fuentes externas. El NIST sugiere además el uso de moderadores de LLM para ayudar a detectar ataques que no dependen de fuentes recuperadas para ejecutarse. Finalmente, el NIST propone soluciones basadas en la interpretabilidad. Eso significa que la trayectoria de predicción del modelo que reconoce entradas anómalas se puede utilizar para detectar y luego detener entradas anómalas.

La IA generativa y aquellos que deseen explotar sus vulnerabilidades continuarán alterando el panorama de la ciberseguridad. Pero ese mismo poder transformador también puede ofrecer soluciones. Aprenda más sobre cómo IBM Security ofrece soluciones de ciberseguridad de IA que fortalecen las defensas de seguridad.

