Probando los límites de la IA generativa: cómo el red teaming expone las vulnerabilidades de los modelos de IA

Técnicos de TI hablando y caminando en una sala de servidores oscura

Autor

Charles Owen-Jackson

Freelance Content Marketing Writer

Con la IA generativa en la primera línea de la seguridad de la información, los red teams o equipos rojos desempeñan un papel esencial en la identificación de vulnerabilidades que otros pueden pasar por alto.

En vista de que el coste medio de una vulneración de datos alcanzó un máximo histórico de 4,88 millones de dólares en 2024, las empresas necesitan saber exactamente dónde están sus vulnerabilidades. Dado el notable ritmo al que están adoptando la IA generativa, es muy probable que algunas de esas vulnerabilidades residan en los propios modelos de IA, o en los datos utilizados para entrenarlos.

Ahí es donde entra en juego el red teaming específico de la IA. Es una forma de probar la resiliencia de los sistemas de IA frente a escenarios de amenazas dinámicas. Esto implica simular escenarios de ataque del mundo real para someter a prueba los sistemas de IA antes y después de implementarlos en un entorno de producción. El red teaming se ha vuelto vital para garantizar que las organizaciones puedan disfrutar de los beneficios de la IA generativa sin añadir riesgos.

El servicio X-Force Red Offensive Security de IBM sigue un proceso iterativo con pruebas continuas para abordar las vulnerabilidades en cuatro áreas clave:

  1. Pruebas de seguridad y protección de modelos
  2. Pruebas de la aplicación de IA generativa
  3. Pruebas de seguridad de plataformas de IA
  4. Pruebas de seguridad de canalización de MLSecOps

En este artículo, nos centraremos en tres tipos de ataques adversarios que tienen como objetivo los modelos de IA y los datos de entrenamiento.

Inyección de instrucciones

La mayoría de los modelos de IA de generación convencional cuentan con salvaguardas integradas para mitigar el riesgo de que produzcan contenido dañino. Por ejemplo, en circunstancias normales, no puede pedir a ChatGPT o Copilot que escriban código malicioso. Sin embargo, métodos como los ataques de inyección de prompts y el jailbreak pueden hacer posible eludir estas salvaguardas.

Uno de los objetivos del red teaming de la IA es hacer que la IA se "comporte mal" deliberadamente, al igual que lo hacen los atacantes. El jailbreaking es uno de esos métodos que implican una incitación creativa para conseguir que un modelo subvierta sus filtros de seguridad. Sin embargo, aunque teóricamente el jailbreak puede ayudar a un usuario a cometer un delito real, la mayoría de los actores maliciosos utilizan otros vectores de ataque, simplemente porque son mucho más eficaces.

Los ataques de inyección de prompts son mucho más graves. En lugar de dirigirse a los modelos en sí, apuntan a toda la cadena de suministro de software ofuscando instrucciones maliciosas en prompts que de otro modo parecen inofensivos. Por ejemplo, un atacante podría utilizar la inyección de prompts para conseguir que un modelo de IA revele información confidencial como una clave API, dándole potencialmente acceso de puerta trasera a cualquier otro sistema que esté conectado a él.

Los equipos rojos también pueden simular ataques de evasión, un tipo de ataque adversario en el que un atacante modifica sutilmente las entradas para engañar a un modelo para que clasifique o malinterprete una instrucción. Estas modificaciones suelen ser imperceptibles para los humanos. Sin embargo, pueden manipular un modelo de IA para que realice una acción no deseada. Por ejemplo, esto podría incluir cambiar un solo píxel en una imagen de entrada para engañar al clasificador de un modelo de visión artificial, como uno destinado a su uso en un vehículo autónomo.

Las últimas novedades sobre tecnología, respaldadas por conocimientos de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes del sector en materia de IA, automatización, datos y mucho más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Se ha suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Envenenamiento de datos

Los atacantes también atacan a los modelos de IA durante el entrenamiento y el desarrollo, por lo que es esencial que los equipos rojos simulen los mismos ataques para identificar los riesgos que podrían comprometer todo el proyecto. Un ataque de envenenamiento de datos ocurre cuando un adversario introduce datos maliciosos en el conjunto de entrenamiento, corrompiendo así el proceso de aprendizaje e incorporando vulnerabilidades en el propio modelo. El resultado es que todo el modelo se convierte en un punto de entrada potencial para nuevos ataques. Si los datos de entrenamiento se ven comprometidos, suele ser necesario volver a entrenar el modelo desde cero. Es una operación que requiere muchos recursos y mucho tiempo.

La implicación de los equipos rojos es vital desde el inicio del proceso de desarrollo del modelo de IA para mitigar el riesgo de intoxicación de datos. Los equipos rojos simulan ataques de envenenamiento de datos del mundo real en un entorno aislado, separado de los sistemas de producción existentes. Hacerlo proporciona conocimiento sobre cuán vulnerable es el modelo al envenenamiento de datos y cómo los actores de amenazas podrían infiltrarse o comprometer el proceso de entrenamiento.

Los equipos rojos de IA también pueden identificar de forma proactiva los puntos débiles en los procesos de recopilación de datos. Los grandes modelos de lenguaje (LLM) suelen extraer datos de un gran número de fuentes diferentes. ChatGPT, por ejemplo, se entrenó con un vasto corpus de datos de texto de millones de sitios web, libros y otras fuentes. A la hora de crear un LLM propio, es crucial que las organizaciones sepan exactamente de dónde obtienen sus datos de formación y cómo se comprueba su calidad. Si bien eso es más un trabajo para los auditores de seguridad y los revisores de procesos, los equipos rojos pueden utilizar las pruebas de penetración para evaluar la capacidad de un modelo de resistir los defectos en su proceso de recopilación de datos.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Inversión del modelo

Los modelos de IA patentados suelen entrenarse, al menos parcialmente, con los propios datos de la organización. Por ejemplo, un LLM implementado en el servicio de atención al cliente podría utilizar los datos de los clientes de la empresa para el entrenamiento, de modo que pueda proporcionar los outputs más relevantes. Lo ideal es que los modelos solo se entrenen en función de datos anónimos que todo el mundo pueda ver. Aun así, sin embargo, las violaciones de privacidad pueden seguir siendo un riesgo debido a ataques de inversión de modelos y ataques de inferencia de pertenencia.

Incluso después de la implementación, los modelos de IA pueden conservar rastros de los datos con los que fueron entrenados. Por ejemplo, el equipo del laboratorio de investigación de IA DeepMind de Google consiguió engañar a ChatGPT para que filtrara datos de entrenamiento mediante una simple instrucción. Por lo tanto, los ataques de inversión de modelos pueden permitir a los actores maliciosos reconstruir los datos de entrenamiento, revelando potencialmente información confidencial en el proceso.

Los ataques por inferencia de pertenencia funcionan de manera similar. En este caso, un adversario intenta predecir si un punto de datos en particular se utilizó para entrenar al modelo a través de la inferencia con la ayuda de otro modelo. Este es un método más sofisticado en el que un atacante entrena primero un modelo separado, conocido como modelo de inferencia de pertenencia, basado en la salida del modelo que está atacando.

Por ejemplo, supongamos que se ha entrenado un modelo a partir de los historiales de compra de los clientes para ofrecer recomendaciones personalizadas de productos. Un atacante puede entonces crear un modelo de inferencia de pertenencia y comparar sus outputs con los del modelo objetivo para inferir información potencialmente sensible que podría utilizar en un ataque dirigido.

En cualquier caso, los equipos rojos pueden evaluar los modelos de IA para determinar su capacidad de filtrar inadvertidamente información confidencial directa o indirectamente mediante inferencias. Esto puede ayudar a identificar vulnerabilidades en los propios flujos de trabajo de datos de entrenamiento, como datos que no han sido suficientemente anonimizados conforme a las políticas de privacidad de la organización.

Crear confianza en la IA

Generar confianza en la IA requiere una estrategia proactiva, y el red teaming de la IA juega un papel fundamental. Mediante métodos como el entrenamiento adversarial y ataques simulados de inversión de modelos, los equipos rojos pueden identificar vulnerabilidades que otros analistas de seguridad probablemente pasarán por alto.

Estos hallazgos pueden entonces ayudar a los desarrolladores de IA a priorizar e implementar salvaguardas proactivas para evitar que los actores de amenazas reales exploten las mismas vulnerabilidades. Para las empresas, el resultado es una reducción del riesgo de seguridad y una mayor confianza en los modelos de IA, que se están arraigando rápidamente en muchos sistemas críticos para el negocio.