Cómo se puede hackear la IA con la inyección de instrucciones: informe del NIST

Autores

Ronda Swaney

Freelance Technology Writer

El Instituto Nacional de Estándares y Tecnología (NIST) observa de cerca el ciclo de vida de la IA, y por una buena razón. A medida que prolifera la IA, también lo hace el descubrimiento y la explotación de las vulnerabilidades de ciberseguridad de la IA. La inyección de instrucciones es una de esas vulnerabilidades que ataca específicamente a la IA generativa.

En Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations, el NIST define varias tácticas y ciberataques de machine learning adversarial (AML), como la inyección de instrucciones, y asesora a los usuarios sobre cómo mitigarlos y gestionarlos. Las tácticas de AML extraen información sobre cómo se comportan los sistemas de machine learning (ML) para descubrir cómo se pueden manipular. Esa información se utiliza para atacar a la IA y sus modelos de lenguaje de gran tamaño (LLM) para eludir la seguridad, eludir las salvaguardas y abrir vías de explotación.

Piense más allá de las instrucciones y obtenga el contexto completo 

Manténgase a la vanguardia de las últimas noticias de los sectores, herramientas de IA y tendencias emergentes en prompt engineering con el boletín Think. Además, acceda a nuevos artículos explicativos, tutoriales y conocimientos de expertos, directamente en su bandeja de entrada. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

¿Qué es la inyección de instrucciones?

El NIST define dos tipos de ataque de inyección de instrucciones: directo e indirecto. Con la inyección directa de instrucciones, un usuario introduce una instrucción que hace que el LLM realice acciones no deseadas o no autorizadas. Una inyección indirecta de instrucciones se produce cuando un atacante envenena o degrada los datos de los que se basa un LLM.

Uno de los métodos de inyección directa de instrucciones más conocidos es DAN, Do Anything Now, una inyección de instrucciones utilizada contra ChatGPT. DAN utiliza el juego de roles para eludir los filtros de moderación. En su primera iteración, las instrucciones indicaban a ChatGPT que ahora era DAN. DAN podría hacer lo que quisiera y debería pretender, por ejemplo, ayudar a una persona malvada a crear y detonar explosivos. Esta táctica eludió los filtros que le impedían proporcionar información criminal o dañina siguiendo un escenario de juego de roles. OpenAI, los desarrolladores de ChatGPT, rastrean esta táctica y actualizan el modelo para evitar su uso, pero los usuarios siguen eludiendo los filtros hasta el punto de que el método ha evolucionado a (al menos) DAN 12.0.

La inyección indirecta de instrucciones, como señala el NIST, depende de que un atacante pueda proporcionar fuentes que un modelo de IA generativa consumiría, como un PDF, un documento, una página web o incluso archivos de audio utilizados para generar voces falsas. Se cree que la inyección indirecta de instrucciones es el mayor defecto de seguridad de la IA generativa, sin formas sencillas de encontrar y corregir estos ataques. Los ejemplos de este tipo de instrucción son amplios y variados. Van desde lo absurdo (hacer que un chatbot responda utilizando "lenguaje pirata") hasta lo dañino (utilizar un chat de ingeniería social para convencer a un usuario de que revele la tarjeta de crédito y otros datos personales) o generalizado (secuestrar asistentes de IA para enviar correos electrónicos fraudulentos a su toda la lista de contactos).

AI Academy

Conviértase en un experto en IA

Obtenga los conocimientos necesarios para priorizar las inversiones en IA que impulsan el crecimiento empresarial. Dé sus primeros pasos hoy mismo con nuestra AI Academy gratuita y lidere el futuro de la IA en su organización.

Cómo detener los ataques de inyección de instrucciones

Estos ataques tienden a estar bien ocultos, lo que los hace efectivos y difíciles de detener. ¿Cómo protegerse frente la inyección directa de instrucciones? Como señala el NIST, no se pueden detener por completo, pero las estrategias defensivas añaden cierta medida de protección. Para los creadores de modelos, el NIST sugiere asegurarse de que los conjuntos de datos de entrenamiento estén cuidadosamente curados. También sugieren entrenar el modelo sobre qué tipos de entradas señalan un intento de inyección de instrucciones y sobre cómo identificar las instrucciones adversarias.

Para la inyección indirecta de instrucciones, el NIST sugiere la participación humana para afinar los modelos, lo que se conoce como aprendizaje por refuerzo a partir de feedback humana (RLHF). El RLHF ayuda a los modelos a alinearse mejor con los valores humanos que evitan comportamientos no deseados. Otra sugerencia es filtrar las instrucciones de las entradas recuperadas, lo que puede evitar la ejecución de instrucciones no deseadas de fuentes externas. El NIST sugiere además el uso de moderadores LLM para ayudar a detectar ataques que no dependen de fuentes recuperadas para ejecutarse. Por último, el NIST propone soluciones basadas en la interpretabilidad. Eso significa que la trayectoria de predicción del modelo que reconoce entradas anómalas puede utilizarse para detectar y luego detener entradas anómalas.

La IA generativa y aquellos que desean explotar sus vulnerabilidades continuarán alterando el panorama de ciberseguridad. Pero ese mismo poder transformador también puede ofrecer soluciones. Obtenga más información sobre cómo IBM® Security ofrece soluciones de ciberseguridad de IA que refuerzan las defensas de seguridad.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA al servicio de su negocio con la experiencia líder del sector y el portfolio de soluciones de IA de IBM.

Explore las soluciones de IA
Servicios y consultoría de inteligencia artificial (IA)

Los servicios de IA de IBM Consulting ayudan a reinventar la forma de trabajar de las empresas usando IA para la transformación.

Explore los servicios de IA
Dé el siguiente paso

Gracias a la IA, IBM Concert descubre información crucial sobre sus operaciones y ofrece recomendaciones de mejora personalizadas para cada aplicación. Descubra cómo Concert puede hacer avanzar su negocio.

Explorar el concierto Explore las soluciones de automatización de procesos empresariales