Probando los límites de la IA generativa: cómo el teaming rojo expone las vulnerabilidades en los modelos de IA

Autor

Charles Owen-Jackson

Freelance Content Marketing Writer

Con la inteligencia artificial generativa (IA generativa) en la primera línea de la seguridad de la información, los equipos rojos desempeñan un papel esencial en la identificación de vulnerabilidades que otros pueden pasar por alto.

Dado que el costo promedio de una filtración de datos alcanzó un máximo histórico de 4.88 millones de dólares en 2024, las empresas necesitan saber exactamente dónde se encuentran sus vulnerabilidades. Dado el notable ritmo al que están adoptando la IA generativa, es muy probable que algunas de esas vulnerabilidades se encuentren en los modelos de IA, o en los datos utilizados para entrenarlos.

Ahí es donde entra en juego el red teaming específico para IA. Es una forma de probar la resiliencia de los sistemas de IA frente a escenarios de amenazas dinámicas. Esto implica simular escenarios de ataque del mundo real para someter a prueba los sistemas de IA antes y después de desplegarlos en un entorno de producción. El equipo rojo se ha vuelto de vital importancia para garantizar que las organizaciones puedan disfrutar de los beneficios de la IA generativa sin agregar riesgos.

El servicio X-Force Red Offensive Security de IBM sigue un proceso iterativo con pruebas continuas para abordar las vulnerabilidades en cuatro áreas clave:

Pruebas de seguridad y protección de modelos
Pruebas de aplicaciones de IA generativa
Pruebas de seguridad de plataformas de IA
Pruebas de seguridad de pipelines de MLSecOps

En este artículo, nos centraremos en tres tipos de ataques adversarios que tienen como objetivo los modelos de IA y los datos de entrenamiento.

Inyección de instrucciones

La mayoría de los modelos de IA de generación convencional cuentan con salvaguardas integradas para mitigar el riesgo de que produzcan contenido dañino. Por ejemplo, en circunstancias normales, no puede pedir a ChatGPT o Copilot que escriban código malicioso. Sin embargo, métodos como los ataques de inyección de instrucción y el jailbreaking pueden permitir eludir estas medidas de seguridad.

Uno de los objetivos del equipo rojo de IA es hacer que la IA se “comporte mal” deliberadamente, tal como lo hacen los atacantes. El jailbreaking es uno de esos métodos que implica incitar creativamente a un modelo a subvertir sus filtros de seguridad. Sin embargo, aunque teóricamente el jailbreaking puede ayudar a un usuario a cometer un delito real, la mayoría de los actores maliciosos utilizan otros vectores de ataque, simplemente porque son mucho más efectivos.

Los ataques de inyección de instrucción son mucho más graves. En lugar de atacar a los modelos en sí, atacan a toda la cadena de suministro de software ocultando instrucciones maliciosas en mensajes que, de otro modo, parecerían inofensivos. Por ejemplo, un atacante podría utilizar la inyección de instrucciones para conseguir que un modelo de IA revele información confidencial, como una clave API, lo que le daría acceso trasero a cualquier otro sistema conectado a él.

Los equipos rojos también pueden simular ataques de evasión, un tipo de ataque adversario en el que un atacante modifica sutilmente las entradas para engañar a un modelo para que clasifique o malinterprete una instrucción. Estas modificaciones suelen ser imperceptibles para los humanos. Sin embargo, aún pueden manipular un modelo de IA para que realice una acción no deseada. Por ejemplo, esto podría incluir cambiar un solo píxel en una imagen de entrada para engañar al clasificador de un modelo de visión artificial, como uno destinado a utilizarse en un vehículo autónomo.

Explore los servicios de seguridad ofensiva X-Force Red

Boletín de la industria

Las últimas noticias tecnológicas, respaldadas por los insights de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.

Envenenamiento de datos

Los atacantes también se dirigen a los modelos de IA durante su formación y desarrollo, por lo que es esencial que los equipos rojos simulen los mismos ataques para identificar los riesgos que podrían comprometer todo el proyecto. Un ataque de envenenamiento de datos ocurre cuando un adversario introduce datos maliciosos en el conjunto de entrenamiento, corrompiendo así el proceso de aprendizaje e incorporación de vulnerabilidades en el modelo. El resultado es que todo el modelo se convierte en un posible punto de entrada para futuros ataques. Si los datos de entrenamiento se ven comprometidos, generalmente es necesario volver a entrenar el modelo desde cero. Es una operación que requiere muchos recursos y mucho tiempo.

La participación de los equipos rojos es vital desde el inicio del proceso de desarrollo del modelo de IA para mitigar el riesgo de intoxicación de datos. Los equipos rojos simulan ataques reales de envenenamiento de datos en un entorno sandbox seguro, separado de los sistemas de producción existentes. Esto proporciona insights sobre la vulnerabilidad del modelo ante el envenenamiento de datos y sobre cómo los actores de amenazas reales podrían infiltrarse o comprometer el proceso de entrenamiento.

Los equipos rojos de IA también pueden identificar de manera proactiva las debilidades en los canales de recopilación de datos. Los modelos de lenguaje de gran tamaño (LLM) a menudo extraen datos de una gran cantidad de fuentes diferentes. ChatGPT, por ejemplo, se entrenó con un vasto corpus de datos de texto de millones de sitios web, libros y otras fuentes. Al crear un LLM patentado, es crucial que las organizaciones sepan exactamente de dónde obtienen sus datos de entrenamiento y cómo se examina la calidad. Aunque esa es más bien una tarea para los auditores de seguridad y los revisores de procesos, los equipos rojos pueden utilizar las pruebas de penetración para evaluar la capacidad de un modelo para resistir fallos en su canal de recopilación de datos.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Vea todos los episodios de Mixture of Experts

Inversión del modelo

Los modelos de IA patentados suelen entrenarse, al menos parcialmente, con los datos propios de la organización. Por ejemplo, un LLM desplegado en la atención al cliente podría usar los datos de clientes de la compañía para capacitación, de modo que pueda proporcionar los resultados más relevantes. Idealmente, los modelos solo deben entrenarse en función de datos anónimos que todos puedan ver. Sin embargo, incluso entonces, las violaciones de la privacidad pueden seguir siendo un riesgo debido a los ataques de inversión de modelos y los ataques de inferencia de membresía.

Incluso luego del despliegue, los modelos de IA generativa pueden conservar rastros de los datos con los que fueron capacitados. Por ejemplo, el equipo del laboratorio de investigación de IA DeepMind de Google logró engañar a ChatGPT para que filtrara datos de entrenamiento usando una simple instrucción. Por lo tanto, los ataques de inversión de modelos pueden permitir a los actores maliciosos reconstruir los datos de entrenamiento, lo que podría revelar información confidencial en el proceso.

Los ataques de inferencia de membresía funcionan de manera similar. En este caso, un adversario intenta predecir si un punto de datos en particular se utilizó para entrenar el modelo a través de la inferencia con la ayuda de otro modelo. Este es un método más sofisticado en el que un atacante primero entrena un modelo separado, conocido como modelo de inferencia de membresía, basado en el resultado del modelo que está atacando.

Por ejemplo, supongamos que se ha entrenado un modelo con los historiales de compra de los clientes para ofrecer recomendaciones de productos personalizadas. Luego, un atacante puede crear un modelo de inferencia de membresía y comparar sus resultados con los del modelo objetivo para inferir información potencialmente confidencial que podría usar en un ataque dirigido.

En cualquier caso, los equipos rojos pueden evaluar los modelos de IA por su capacidad para filtrar inadvertidamente información confidencial directa o indirectamente a través de la inferencia. Esto puede ayudar a identificar vulnerabilidades en los propios flujos de trabajo de datos de entrenamiento, como los datos que no se han anonimizado lo suficiente de acuerdo con las políticas de privacidad de la organización.

Generar confianza en la IA

Generar confianza en la IA requiere una estrategia proactiva, y el equipo rojo de IA desempeña un papel fundamental. Mediante métodos como el entrenamiento adversarial y ataques simulados de inversión de modelos, los equipos rojos pueden identificar vulnerabilidades que otros analistas de seguridad probablemente pasarán por alto.

Estos hallazgos pueden ayudar a los desarrolladores de IA a priorizar e implementar medidas de protección proactivas para evitar que los actores de amenazas exploten las mismas vulnerabilidades. Para las empresas, el resultado es una reducción del riesgo de seguridad y un aumento de la confianza en los modelos de IA, que se están integrando rápidamente en muchos sistemas críticos para el negocio.

Poniendo a prueba los límites de la IA generativa: cómo el red teaming expone las vulnerabilidades de los modelos de IA