¿Qué es el envenenamiento de datos?

Autores

Staff Writer

IBM Think

Staff Editor

IBM Think

¿Qué es el envenenamiento de datos?

El envenenamiento de datos es un tipo de ciberataque en el que los actores de amenazas manipulan o corrompen los datos de entrenamiento utilizados para desarrollar modelos de inteligencia artificial (IA) y machine learning (ML).

Las redes neuronales, los modelos de lenguaje de gran tamaño (LLM) y los modelos de deep learning dependen en gran medida de la calidad y la integridad de los datos de entrenamiento, lo que en última instancia determina las funciones de un modelo. Estos datos de entrenamiento pueden provenir de varias fuentes, como Internet, bases de datos de gobierno y proveedores de datos de terceros. Al inyectar puntos de datos incorrectos o sesgados (datos envenenados) en estos conjuntos de datos de entrenamiento, los actores maliciosos pueden alterar sutil o drásticamente el comportamiento de un modelo.

Por ejemplo, la manipulación de datos mediante envenenamiento puede provocar una clasificación errónea de los datos, lo que reduce la eficacia y precisión de los sistemas de IA y ML. Es más, estos ataques pueden introducir graves riesgos de ciberseguridad, especialmente en sectores como la atención sanitaria y los vehículos autónomos.

Boletín de Think

¿Su equipo detectaría a tiempo el próximo día cero?

Únase a los líderes de seguridad que confían en el boletín Think para obtener noticias seleccionadas sobre IA, ciberseguridad, datos y automatización. Aprenda rápidamente de tutoriales de expertos y artículos explicativos, directamente en su bandeja de entrada. Consulte la Declaración de privacidad de IBM.

Ataques dirigidos vs. ataques no dirigidos

Los ataques de envenenamiento de datos se pueden clasificar en dos categorías según la intención: dirigidos y no dirigidos.

Ataques dirigidos

Los ataques de envenenamiento de datos dirigidos manipulan los resultados de los modelos de IA de una manera específica. Por ejemplo, los ciberdelincuentes podrían inyectar datos envenenados en un chatbot o en una aplicación de IA generativa (IA gen) como ChatGPT para alterar sus respuestas. Del mismo modo, en un escenario de ciberseguridad, un atacante podría introducir datos envenenados en un modelo diseñado para detectar malware, haciendo que pase por alto ciertas amenazas.

Los ataques dirigidos manipulan el comportamiento del modelo de manera que obtienen beneficio el atacante y pueden crear nuevas vulnerabilidades en el sistema.

Ataques no dirigidos

Los ataques no dirigidos se centran en degradar la robustez general de un modelo. En lugar de atacar resultados específicos, el objetivo es debilitar la capacidad del modelo para procesar los datos correctamente. Por ejemplo, en los vehículos autónomos, el envenenamiento de datos no dirigido puede hacer que el sistema malinterprete las entradas de sus sensores, confundiendo una señal de "alto" con una señal de "ceda el paso". Este tipo de ataques hacen que los modelos de IA sean más susceptibles a los ataques de adversarios, en los que un atacante intenta utilizar fallos pequeños, a menudo imperceptibles, en el proceso de toma de decisiones del modelo.

Tipos de ataques de envenenamiento de datos

Los ataques de envenenamiento de datos pueden adoptar varias formas, como el cambio de etiquetas, la inyección de datos, los ataques de puerta trasera y los ataques de etiqueta limpia. Cada tipo se enfoca en diferentes aspectos de las funciones de un modelo de IA.

Cambio de etiquetas

En los ataques de cambio de etiquetas, los actores maliciosos manipulan las etiquetas en los datos de entrenamiento, intercambiando las etiquetas correctas por las incorrectas. Pensemos en Nightshade, una herramienta de envenenamiento por IA desarrollada en la Universidad de Chicago. Nightshade permite a los artistas digitales alterar sutilmente los píxeles de sus imágenes antes de subirlas a Internet. Cuando las empresas de IA extraen conjuntos de datos en línea para entrenar sus modelos generativos de IA, las imágenes alteradas interrumpen el proceso de entrenamiento. Esta manipulación puede hacer que los modelos de IA se clasifiquen erróneamente o se comporten de forma impredecible, a veces confundiendo imágenes de vacas con bolsas de cuero¹.

Inyección de datos

La inyección de datos introduce puntos de datos fabricados en el conjunto de datos de entrenamiento, a menudo para dirigir el comportamiento del modelo de IA en una dirección específica. Un ejemplo común es la inyección SQL, en la que los atacantes añaden "1=1" o "=" en un campo de entrada. Cuando se incluye en una consulta SQL, estos datos maliciosos alteran el significado de la consulta, devolviendo todos los registros en lugar de solo uno². Del mismo modo, en los modelos de machine learning, la inyección de datos puede manipular la toma de decisiones del modelo. Esto puede hacer que el modelo se clasifique incorrectamente o exhiba sesgos, lo que socava la integridad de los datos y la robustez general del modelo.

Ataques de puerta trasera

Los ataques de puerta trasera son peligrosos porque introducen manipulaciones sutiles, como un ruido de fondo inaudible en el audio o marcas de agua imperceptibles en las imágenes. De este modo, el sistema de IA funciona con normalidad en la mayoría de las condiciones. Sin embargo, cuando se encuentra una entrada de activación específica, el modelo se comporta de una manera que tiene beneficio para el atacante. En el caso de los modelos de código abierto, donde el acceso a los datos de entrenamiento y a los algoritmos puede estar menos restringido,- estos ataques pueden ser especialmente dañinos. ReversingLabs informó de un aumento de las amenazas (más del 1300 %) que circulan a través de repositorios de código abierto de 2020 a 2023³.

Ataques de etiqueta limpia

En los ataques de etiqueta limpia, los atacantes modifican los datos de formas que son difíciles de detectar. La característica clave es que los datos envenenados siguen apareciendo correctamente etiquetados, lo que dificulta su identificación para los métodos tradicionales de validación de datos. Estos ataques utilizan la complejidad de los sistemas modernos de machine learning y deep learning, que pueden no detectar cambios pequeños y aparentemente inocuos. Los ataques de etiqueta limpia se encuentran entre los más sigilosos, lo que deja a los modelos de IA vulnerables a resultados sesgados y a la degradación de las funciones del modelo.

Envenenamiento de datos frente a inyecciones de instrucciones

Aunque el envenenamiento de datos y las inyecciones de instrucciones se dirigen a diferentes etapas del ciclo de vida de la IA, comparten un objetivo común: explotar vulnerabilidades en las entradas del modelo. El envenenamiento de datos manipula los conjuntos de datos de entrenamiento, incrustando datos corruptos o maliciosos que pueden comprometer el proceso de aprendizaje de un modelo y su funcionalidad a largo plazo. Por el contrario, las inyecciones de instrucciones disfrazan las entradas maliciosas como instrucciones legítimas, manipulando los sistemas de IA generativa para que filtren datos confidenciales, difundan información errónea o algo peor.

Ejemplos de envenenamientos de datos

Envenenamiento de datos dirigido: los hackers envenenan los datos de entrenamiento de un modelo de ciberseguridad etiquetando las muestras de malware como seguras, lo que hace que el modelo ignore amenazas específicas.
Envenenamiento de datos no dirigido: actores maliciosos inyectan datos sesgados en el conjunto de datos de entrenamiento de un filtro de spam, lo que reduce su precisión y fiabilidad generales.

Ejemplos de inyecciones de instrucciones

Inyección de instrucciones directa: un hacker incrusta un comando en una interacción de chatbot para eludir las barreras de seguridad y revelar detalles confidenciales de la cuenta.
Inyección de instrucciones indirecta: un atacante oculta instrucciones en una página web que hacen que un asistente de IA promueva enlaces de phishing en su resultado.

Los hackers pueden implementar estas estrategias por separado o en conjunto para amplificar su impacto. Por ejemplo, un (usuario) interno con acceso a los sistemas de una organización podría teóricamente envenenar un conjunto de datos de entrenamiento al incrustar datos sesgado, eludiendo las medidas de validación. Más tarde, el (usuario) interno podría explotar el sistema comprometido realizando una inyección de instrucción, lo quea activaría los datos envenenados y desencadenaría un comportamiento malicioso. Esto podría incluir la filtración de información confidencial, la creación de una puerta trasera para nuevos ataques adversarios o el debilitamiento de las capacidades de toma de decisiones del sistema.

Impacto del envenenamiento de datos en los modelos de IA

El envenenamiento de datos puede tener una amplia gama de impactos en los modelos de IA y ML, lo que afecta tanto a su seguridad como al rendimiento general del modelo.

Clasificación errónea y rendimiento reducido

Los conjuntos de datos envenenados pueden hacer que los modelos de machine learning clasifiquen erróneamente las entradas, socavando la fiabilidad y las funciones de los modelos de IA. En las aplicaciones orientadas al consumidor, esto puede provocar recomendaciones inexactas que erosionen la confianza y la experiencia del cliente. Del mismo modo, en la gestión de la cadena de suministro, los datos envenenados pueden causar previsiones defectuosas, retrasos y errores, perjudicando tanto al rendimiento del modelo como a la eficacia del negocio. Estas clasificaciones erróneas exponen vulnerabilidades en los datos de entrenamiento y pueden comprometer la robustez general de los sistemas de IA.

Sesgo y toma de decisiones sesgada

El envenenamiento de datos también puede amplificar los sesgos existentes en los sistemas de IA. Los atacantes pueden apuntar a subconjuntos específicos de datos (como un grupo demográfico particular) para introducir entradas sesgadas. Esto puede hacer que el modelo de IA funcione de forma injusta o imprecisa. Por ejemplo, los modelos de reconocimiento facial entrenados con datos sesgados o envenenados podrían identificar erróneamente a personas de ciertos grupos, lo que daría lugar a resultados discriminatorios. Estos tipos de ataques pueden afectar tanto a la imparcialidad como a la precisión de los modelos de ML en diversas aplicaciones, desde las decisiones de contratación hasta la vigilancia de las fuerzas del orden.

Vulnerabilidades de seguridad y amenazas de puerta trasera

El envenenamiento de datos puede abrir la puerta a ataques más sofisticados, como los ataques de inversión en los que los hackers intentan aplicar ingeniería inversa a los datos de entrenamiento del modelo. Una vez que un atacante envenena con éxito los datos de entrenamiento, puede utilizar estas vulnerabilidades para lanzar más ataques adversarios o desencadenar acciones de puerta trasera. En los sistemas diseñados para tareas sensibles, como el diagnóstico sanitario o la ciberseguridad, estos riesgos de seguridad pueden ser especialmente peligrosos.

Mitigación de los riesgos de envenenamiento de datos

Para defenderse de los ataques de envenenamiento de datos, las organizaciones pueden implementar estrategias para ayudar a garantizar la integridad de los conjuntos de datos de entrenamiento, mejorar la robustez de los modelos y supervisar los modelos de IA de forma continua.

Validación y saneamiento de datos

Una estrategia de defensa fundamental contra el envenenamiento de datos es validar y sanear los datos de entrenamiento antes de utilizarlos. Implementar procesos de validación de datos durante la fase de formación puede ayudar a identificar y eliminar puntos de datos sospechosos o corruptos antes de que afecten negativamente al modelo. Este paso es esencial para evitar la introducción de datos maliciosos en los sistemas de IA, especialmente cuando se utilizan fuentes de datos de código abierto o modelos en los que la integridad es más difícil de mantener.

Entrenamiento adversarial y solidez mejorada

El entrenamiento adversarial es un método proactivo de defensa contra el envenenamiento de datos y otros tipos de ataques. Al introducir intencionalmente ejemplos adversarios en los modelos de entrenamiento, los desarrolladores pueden enseñar al modelo a reconocer y resistir datos envenenados, mejorando su robustez contra la manipulación. Para las aplicaciones de alto riesgo, como los vehículos autónomos o la seguridad de la IA, el entrenamiento adversarial es un paso crucial para hacer que los modelos de IA y ML sean más sólidos y fiables.

Monitorización continua y detección de anomalías

Una vez implementados, los sistemas de IA pueden monitorizarse continuamente para detectar comportamientos inusuales que puedan indicar un ataque de envenenamiento de datos. Las herramientas de detección de anomalías, como los algoritmos de reconocimiento de patrones, pueden ayudar a los equipos de seguridad a identificar discrepancias tanto en las entradas como en las salidas y responder rápidamente si un sistema se ve comprometido. La auditoría continua es especialmente importante para las aplicaciones de IA generativa como ChatGPT, en las que las actualizaciones en tiempo real de los datos de entrenamiento y el comportamiento del modelo pueden ser crítico para prevenir mal uso. Si se detecta una anomalía, el modelo se puede pausar o reevaluar para evitar daños mayores.

Controles de acceso y medidas de seguridad

La implementación de controles de acceso estrictos es otra estrategia para mitigar los riesgos de envenenamiento de datos. Limitar quién puede modificar los conjuntos de datos y repositorios de entrenamiento puede reducir el riesgo de manipulación no autorizada. Además, la incorporación de medidas de seguridad como el cifrado puede ayudar a proteger las fuentes de datos y los sistemas de IA de ataques externos. En entornos de alto riesgo, como la sanidad y la ciberseguridad, los estrictos controles de seguridad pueden ayudar a garantizar que los modelos de machine learning sigan siendo seguros y fiables.

Informe “Cost of a Data Breach” de 2025

Los costes de las vulneraciones de datos han alcanzado un nuevo máximo. Obtenga conocimientos actualizados sobre las amenazas a la ciberseguridad y su impacto financiero en las organizaciones.

Notas a pie de página

¹ What is Nightshade. Universidad de Chicago. 2024.

² SQL Injection. W3 Schools.

³ Key Takeaways from the 2024 State of SSCS Report. ReversingLabs. 16 de enero de 2024.

¿Qué es el envenenamiento de datos?

Autores

¿Qué es el envenenamiento de datos?

¿Su equipo detectaría a tiempo el próximo día cero?

Ataques dirigidos vs. ataques no dirigidos

Ataques dirigidos

Ataques no dirigidos

Tipos de ataques de envenenamiento de datos

Cambio de etiquetas

Inyección de datos

Ataques de puerta trasera

Ataques de etiqueta limpia

Envenenamiento de datos frente a inyecciones de instrucciones

Ejemplos de envenenamientos de datos

Ejemplos de inyecciones de instrucciones

Impacto del envenenamiento de datos en los modelos de IA

Clasificación errónea y rendimiento reducido

Sesgo y toma de decisiones sesgada

Vulnerabilidades de seguridad y amenazas de puerta trasera

Mitigación de los riesgos de envenenamiento de datos

Validación y saneamiento de datos

Entrenamiento adversarial y solidez mejorada

Monitorización continua y detección de anomalías

Controles de acceso y medidas de seguridad

Share

Recursos

Notas a pie de página