¿Qué es el envenenamiento de datos?

10 diciembre 2024

Autores

Alexandra Jonker

Editorial Content Lead

¿Qué es el envenenamiento de datos?

El envenenamiento de datos es un tipo de ataque cibernético en el que los actores de amenazas manipulan o corrompen los datos de entrenamiento utilizados para desarrollar modelos de inteligencia artificial (IA) y machine learning (ML). 

Las redes neuronales, los modelos de lenguaje extensos (LLM) y los modelos de aprendizaje profundo dependen en gran medida de la calidad y la integridad de los datos de entrenamiento, que en última instancia determinan las funciones de un modelo. Estos datos de entrenamiento pueden provenir de diversas fuentes, como Internet, bases de datos de gobierno y proveedores de datos de terceros. Al inyectar puntos de datos incorrectos o con sesgo (datos envenenados) en estos conjuntos de datos de entrenamiento, los actores maliciosos pueden alterar sutil o drásticamente el comportamiento de un modelo. 

Por ejemplo, la manipulación de datos mediante envenenamiento puede provocar una clasificación errónea de los datos, lo que reduce la eficacia y precisión de los sistemas de IA y ML. Además, estos ataques pueden introducir graves riesgos de ciberseguridad, especialmente en industrias como la de atención médica y vehículos autónomos.

Ataques dirigidos frente a ataques no dirigidos

Los ataques de envenenamiento de datos se pueden clasificar en dos categorías según la intención: dirigidos y no dirigidos.

Ataques dirigidos

Los ataques de envenenamiento de datos dirigidos manipulan los resultados del modelo de IA de una manera específica. Por ejemplo, los delincuentes cibernéticos pueden inyectar datos envenenados en un chatbot o en una aplicación de IA generativa, como ChatGPT, para alterar sus respuestas. Del mismo modo, en un escenario de ciberseguridad, un atacante podría introducir datos envenenados en un modelo diseñado para detectar malware, lo que deriva en que pase por alto ciertas amenazas.

Los ataques dirigidos manipulan el comportamiento del modelo de una manera que beneficia al atacante, creando potencialmente nuevas vulnerabilidades en el sistema.

Ataques no dirigidos

Los ataques no dirigidos se centran en degradar la solidez general de un modelo. En lugar de atacar resultados específicos, el objetivo es debilitar la capacidad del modelo para procesar los datos correctamente. Por ejemplo, en los vehículos autónomos, el envenenamiento de datos no dirigido puede hacer que el sistema malinterprete las entradas de sus sensores, confundiendo una señal de "alto" con una señal de "ceda el paso". Este tipo de ataques hacen que los modelos de IA sean más susceptibles a los ataques de adversarios, en los que un atacante intenta emplear fallas pequeñas, a menudo imperceptibles, en el proceso de toma de decisiones del modelo.

Hombre mirando una computadora

Fortalezca su inteligencia de seguridad 


Adelántese cada semana a las amenazas con novedades e información sobre seguridad, IA y más con el boletín Think. 


Tipos de ataques de envenenamiento de datos

Los ataques de envenenamiento de datos pueden adoptar diversas formas, como el cambio de etiquetas, la inyección de datos, los ataques de puerta trasera y los ataques de etiqueta limpia. Cada tipo se centra en aspectos diferentes de las funciones de un modelo de IA. 

Cambio de etiquetas

En los ataques de cambio de etiquetas, los actores maliciosos manipulan las etiquetas en los datos de entrenamiento, intercambiando las etiquetas correctas por las incorrectas. Considere Nightshade, una herramienta de envenenamiento de IA desarrollada en la Universidad de Chicago. Nightshade permite a los artistas digitales alterar sutilmente los píxeles de sus imágenes antes de subirlas a Internet. Cuando las empresas de IA extraen conjuntos de datos en línea para entrenar sus modelos de IA generativa, las imágenes alteradas interrumpen el proceso de entrenamiento. Esta manipulación puede hacer que los modelos de IA se clasifiquen erróneamente o se comporten de manera impredecible, a veces confundiendo imágenes de vacas con bolsas de cuero.1

Inyección de datos

La inyección de datos introduce puntos de datos fabricados en el conjunto de datos de entrenamiento, a menudo para dirigir el comportamiento del modelo de IA en una dirección específica. Un ejemplo común es la inyección SQL, donde los atacantes agregan “1=1” o “=” en un campo de entrada. Cuando se incluye en una consulta SQL, estos datos maliciosos alteran el significado de la consulta, devolviendo todos los registros en lugar de solo uno.2 Del mismo modo, en los modelos de machine learning, la inyección de datos puede manipular la toma de decisiones del modelo. Esto puede hacer que el modelo se clasifique erróneamente o muestre sesgos, lo que socava la integridad de los datos y la solidez general del modelo.

Ataques de puerta trasera

Los ataques de puerta trasera son peligrosos porque introducen manipulaciones sutiles, como ruido de fondo inaudible en el audio o marcas de agua imperceptibles en las imágenes. Esto deja el sistema de IA funcionando normalmente en la mayoría de las condiciones. Sin embargo, cuando se encuentra una entrada de activador específica, el modelo se comporta de una manera que tiene beneficio para el atacante. En el caso de los modelos de código abierto, donde el acceso a los datos y algoritmos de entrenamiento puede estar menos restringido, estos ataques pueden ser especialmente dañinos. ReversingLabs reportó un aumento en las amenazas, más del 1300 %, que circularon a través de los repositorios de código abierto de 2020 a 2023.3

Ataques de etiqueta limpia

En los ataques de etiqueta limpia, los atacantes modifican los datos de formas que son difíciles de detectar. La característica clave es que los datos envenenados todavía aparecen correctamente etiquetados, lo que dificulta su identificación para los métodos tradicionales de validación de datos. Estos ataques emplean la complejidad de los sistemas modernos de machine learning y aprendizaje profundo, que pueden fallar en señalar cambios pequeños y aparentemente inofensivos. Los ataques de etiqueta limpia se encuentran entre los más sigilosos, lo que deja a los modelos de IA vulnerables a resultados sesgados y funciones degradantes del modelo.

Envenenamiento de datos frente a inyección de instrucciones

Si bien el envenenamiento de datos y las inyecciones de instrucciones se dirigen a diferentes etapas del ciclo de vida de la IA, comparten un objetivo común: explotar las vulnerabilidades en las entradas del modelo. El envenenamiento de datos manipula los conjuntos de datos de entrenamiento mediante la incorporación de datos corruptos o maliciosos que pueden comprometer el proceso de aprendizaje y la funcionalidad a largo plazo de un modelo. En contraste, las inyecciones de instrucciones disfrazan las entradas maliciosas como instrucciones legítimas, manipulando los sistemas generativos de IA para filtrar datos confidenciales, difundir información errónea o algo peor.

Ejemplos de envenenamiento de datos

  • Envenenamiento de datos dirigido: los hackers envenenan los datos de entrenamiento de un modelo de ciberseguridad etiquetando muestras de malware como seguras, haciendo que el modelo ignore amenazas específicas. 

  • Envenenamiento de datos no dirigido: los actores maliciosos inyectan datos con sesgo en el conjunto de datos de entrenamiento de un filtro de spam, lo que reduce su precisión y confiabilidad generales.

Ejemplos de inyecciones de instrucciones

  • Inyección directa de instrucciones: un hacker inserta un comando en una interacción de chatbot para eludir las barreras de seguridad y revelar detalles confidenciales de la cuenta.

  • Inyección indirecta de instrucciones: un atacante oculta instrucciones en un sitio web que hacen que un asistente de IA promueva enlaces de phishing en su resultado.

Los hackers pueden desplegar estas estrategias por separado o en conjunto para amplificar su impacto. Por ejemplo, un usuario interno con acceso a los sistemas de una organización podría, en teoría, envenenar un conjunto de datos de entrenamiento mediante la incorporación de datos con sesgo, evadiendo las medidas de validación. Más tarde, el usuario interno podría explotar el sistema comprometido realizando una inyección de instrucciones, activando los datos envenenados y desencadenando un comportamiento malicioso. Esto podría incluir la filtración de información confidencial, la creación de una puerta trasera para nuevos ataques adversarios o el debilitamiento de las capacidades de toma de decisiones del sistema.

Mixture of Experts | 25 de abril, episodio 52

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Impacto del envenenamiento de datos en los modelos de IA

El envenenamiento de datos puede tener una amplia gama de impactos en los modelos de IA y ML, afectando tanto su seguridad como el rendimiento general del modelo.

Clasificación errónea y menor rendimiento

Los conjuntos de datos de entrenamiento envenenados pueden hacer que los modelos de machine learning clasifiquen erróneamente las entradas, socavando la confiabilidad y las funciones de los modelos de IA. En las aplicaciones orientadas al consumidor, esto puede causar recomendaciones inexactas que erosionan la confianza y la experiencia del cliente. De manera similar, en la gestión de la cadena de suministro, los datos envenenados pueden causar pronósticos defectuosos, retrasos y errores, dañando tanto el rendimiento del modelo como la eficacia del negocio. Estas clasificaciones erróneas exponen vulnerabilidades en los datos de entrenamiento y pueden comprometer la solidez general de los sistemas de IA. 

Sesgo y toma de decisiones desvirtuada

El envenenamiento de datos también puede amplificar los sesgos existentes en los sistemas de IA. Los atacantes pueden dirigirse a subconjuntos específicos de datos, como un grupo demográfico en particular, para ingresar entradas con sesgo. Esto puede hacer que el modelo de IA funcione de manera poco parcial o imprecisa. Por ejemplo, los modelos de reconocimiento facial entrenados con datos con sesgo pueden identificar erróneamente a personas de ciertos grupos, lo que lleva a resultados discriminatorios. Estos tipos de ataques pueden afectar tanto la imparcialidad como la precisión de los modelos de ML en diversas aplicaciones, desde las decisiones de contratación hasta la vigilancia policial.

Vulnerabilidades de seguridad y amenazas de puerta trasera

El envenenamiento de datos puede abrir la puerta a ataques más sofisticados, como los ataques de inversión en los que los hackers intentan aplicar ingeniería inversa a los datos de entrenamiento del modelo. Una vez que un atacante envenena los datos de entrenamiento, puede utilizar estas vulnerabilidades para lanzar más ataques adversarios o desencadenar acciones de puerta trasera. En los sistemas diseñados para tareas sensibles, como diagnósticos de atención médica o la ciberseguridad, estos riesgos de seguridad pueden ser especialmente peligrosos.

Mitigar los riesgos de envenenamiento de datos

Para defenderse de los ataques de envenenamiento de datos, las organizaciones pueden aplicar estrategias que ayuden a garantizar la integridad de los conjuntos de datos de entrenamiento, mejorar la solidez de los modelos y monitorear continuamente los modelos de IA. 

Validación y desinfección de datos

Una estrategia de defensa fundamental contra el envenenamiento de datos consiste en validar y desinfectar los datos de entrenamiento antes de usarlos. Implementar procesos de validación de datos durante la fase de entrenamiento puede ayudar a identificar y eliminar puntos de datos sospechosos o corruptos antes de que afecten negativamente al modelo. Este paso es esencial para evitar la introducción de datos maliciosos en los sistemas de IA, especialmente cuando se usan fuentes de datos de código abierto o modelos cuya integridad es más difícil de mantener.

Entrenamiento adversario y robustez mejorada

El entrenamiento adversario es un método proactivo de defensa contra el envenenamiento de datos y otros tipos de ataques. Al introducir intencionalmente ejemplos contradictorios en los modelos de entrenamiento, los desarrolladores pueden enseñar al modelo a reconocer y resistir datos envenenados, mejorando su robustez contra la manipulación. Para las aplicaciones de alto riesgo, como los vehículos autónomos o la seguridad de IA, el entrenamiento adversario es un paso crucial para hacer que los modelos de IA y ML sean más robustos y confiables.

Supervisión continua y detección de anomalías

Una vez desplegados, los sistemas de IA pueden ser monitoreados continuamente para detectar comportamientos inusuales que podrían indicar un ataque de envenenamiento de datos. Las herramientas de detección de anomalías, como los algoritmos de reconocimiento de patrones, pueden ayudar a los equipos de seguridad a identificar discrepancias tanto en las entradas como en las salidas y responder rápidamente si un sistema se ve comprometido. La auditoría continua es especialmente importante para las aplicaciones de IA generativa como ChatGPT, donde las actualizaciones en tiempo real de los datos de entrenamiento y el comportamiento del modelo pueden ser críticas para prevenir el uso indebido. Si se detecta una anomalía, el modelo puede pausarse o reevaluarse para evitar daños mayores.

Controles de acceso y medidas de seguridad

La implementación de estrictos controles de acceso es otra estrategia para mitigar los riesgos de envenenamiento de datos. Limitar quién puede modificar los conjuntos de datos y repositorios de entrenamiento puede reducir el riesgo de manipulación no autorizada.  Además, la incorporación de medidas de seguridad, como el cifrado, puede ayudar a proteger las fuentes de datos y los sistemas de IA de ataques externos. En entornos de alto riesgo, como la atención médica y la ciberseguridad, los estrictos controles de seguridad pueden ayudar a garantizar que los modelos de machine learning sigan siendo seguros y confiables.

Notas de pie de página

1 What is Nightshade, University of Chicago, 2024.

2 SQL Injection, W3 Schools. 

3 Key Takeaways from the 2024 State of SSCS Report, ReversingLabs, 16 de enero de 2024.

Soluciones relacionadas
IBM watsonx.governance™

Gobierne modelos de IA generativa desde cualquier lugar y despliéguelos en la nube u on-premises con IBM watsonx.governance.

Descubra watsonx.governance
Soluciones de seguridad y protección de datos

Proteja los datos en múltiples entornos, cumpla con la normativa sobre privacidad y simplifique la complejidad operativa.

    Explore las soluciones de seguridad de datos
    Servicios de seguridad de datos

    IBM ofrece servicios integrales de seguridad de datos para proteger los datos empresariales, las aplicaciones e IA.

    Explore los servicios de seguridad de datos
    Dé el siguiente paso

    Dirija, gestione y monitoree su IA con una única cartera para acelerar una IA responsable, transparente y explicable.

    Explore watsonx.governance Reserve una demostración en vivo