¿Qué es el machine learning adversarial?

Autor

Staff Writer

IBM Think

Definición de machine learning adversarial

El machine learning adversarial es el arte de engañar a los sistemas de IA. El término se refiere tanto a los agentes maliciosos que practican este arte con fines delictivos, como a los investigadores bienintencionados que buscan exponer vulnerabilidades con el fin de mejorar la solidez de los modelos.

Este campo presenta nuevos retos en materia de ciberseguridad debido a la complejidad de los modelos de machine learning y a la amplia gama de superficies de ataque, que a menudo incluyen el mundo físico.

Un ejemplo real

Para empezar a ilustrar cómo pueden ser diferentes los ataques de machine learning adversarial de las amenazas heredadas de ciberseguridad, consideremos un ejemplo del ámbito de los vehículos autónomos. Los vehículos autónomos son impulsados por complejos sistemas de IA que reciben la entrada de los sensores y luego forman clasificaciones que determinan el comportamiento de los vehículos. Por ejemplo, cuando un vehículo autónomo se acerca a una señal de alto, sus algoritmos de machine learning la identificarán, deteniéndolo de forma segura.

El problema es que los sistemas de machine learning que han aprendido a clasificar las señales de alto utilizan criterios diferentes a los de la mente humana. Esto a su vez crea una vulnerabilidad misteriosa, demostraron investigadores de varias universidades en 2017.¹ Al hacer solo alteraciones sutiles, pero estratégicas a las señales de alto, la incorporación de algunas pegatinas pequeñas e inocuas que la mayoría de los humanos simplemente ignorarían, los investigadores pudieron engañar a los modelos de IA del tipo que usan los vehículos autónomos para clasificar de manera peligrosa y errónea las señales de alto como señales de “Límite de velocidad: 45 MPH”. Un oficial humano de patrulla que pasara no notaría el sabotaje, pero para un sistema de IA, solo unas pocas pegatinas sutiles habían convertido una señal de alto en una señal de “siga”.

No hace falta decir que si los hackers maliciosos hubieran descubierto esta vulnerabilidad primero, podrían haberse producido fácilmente daños en el mundo real, como muertes por accidentes de tráfico.

¿Su equipo captaría a tiempo el próximo día cero?

Únase a los líderes de seguridad que confían en el boletín Think para obtener noticias seleccionadas sobre IA, ciberseguridad, datos y automatización. Aprende rápido con tutoriales de expertos y documentos explicativos, que se envían directamente a su bandeja de entrada. Consulte la Declaración de privacidad de IBM.

Tipos de ataques adversariales

Los investigadores han creado taxonomías de diferentes tipos de ataques a los sistemas de IA.

Ataques de evasión

Los ataques de evasión, como el truco de la señal de alto descrito, se refieren a instancias en las que los hackers alteran los datos procesados por un sistema de IA, creando los llamados “ejemplos adversariales” que engañan a los clasificadores de IA. Los ataques se denominan así porque los datos o estímulos alterados son capaces de evadir la percepción normal de un modelo de IA. Además del vívido ejemplo del vehículo autónomo, los investigadores han podido crear formas casi imperceptibles de ruido visual, las llamadas “perturbaciones adversariales”, que pueden superponerse a los datos para engañar a la inteligencia artificial. En un ejemplo muy conocido de 2015, los investigadores de Google pudieron agregar solo un poco de ruido visual a una imagen de un panda, lo que provocó que un modelo de visión artificial se cerciorara de que la imagen representaba un gibón. De hecho, la IA estaba aún más segura de su clasificación errónea de “gibón” que de su clasificación correcta de “panda”.² (El oscuro arte de diseñar de manera eficiente los patrones de ruido que engañan a un modelo se describe en la sección “Métodos conocidos de ataques de evasión”, a continuación).

Un subtipo clave de los ataques de evasión son los ataques de malware, en los que los atacantes evaden los sistemas de detección destinados a detectar virus informáticos. Los atacantes logran esto de diversas maneras, pero generalmente con trucos para hacer que su malware parezca un código inofensivo; a veces, los atacantes utilizan su propia IA para optimizar este mismo proceso. En un ejemplo, los investigadores desarrollaron un bot que podía camuflar automáticamente el malware durante muchas pruebas, engañando a 20 sistemas de detección de malware el 98 % de las veces.³

Ataques de envenenamiento de datos

Los ataques de envenenamiento de datos se producen en una etapa diferente y anterior del ciclo de vida de un modelo de IA, concretamente durante la fase de entrenamiento. Las redes neuronales profundas se basan en grandes cantidades de datos de entrenamiento para aprender patrones útiles. Con un ataque de envenenamiento de datos, un actor puede corromper el conjunto de datos de entrenamiento original, introduciendo datos que harán que el modelo entrenado resultante se comporte de manera disfuncional.

Un ejemplo se basó en el hecho de que muchos modelos de IA utilizan datos adquiridos tras el despliegue para entrenar iterativamente la siguiente versión del modelo. Aprovechando este principio, los trolls en Twitter bombardearon un chatbot de Microsoft de 2016 llamado Tay con material ofensivo, y finalmente dirigieron al chatbot para que publicara contenido de odio.

Otro ejemplo de la Universidad de Chicago tiene como objetivo empoderar a los artistas para castigar a empresas sin escrúpulos que podrían usar imágenes protegidas por derechos de autor de artistas para entrenar a sus modelos sin el consentimiento de los artistas. El proyecto, Nightshade, “está diseñado como una herramienta ofensiva para distorsionar las representaciones de características dentro de los modelos de imágenes de IA generativa”, según sus creadores.⁴ Si un artista aplica Nightshade sobre sus imágenes, y un modelo de IA luego usa esas imágenes, el modelo podría aprender gradualmente etiquetas incorrectas para ciertos objetos, por ejemplo, llegando a visualizar vacas como carteras de cuero.

Ataques a la privacidad

Los ataques a la privacidad explotan las peculiaridades de los sistemas de IA para inferir o extraer indirectamente información confidencial que formaba parte de su conjunto de datos de entrenamiento. En teoría, los modelos de machine learning (ML) no están destinados a “recordar” los datos en los que se entrenan, sino que extraen patrones útiles a través de conjuntos de datos y no retienen los datos en los que se entrenan, como lo haría un disco duro. Sin embargo, la realidad de la “memoria” de la IA es, de hecho, más compleja. En la práctica, los investigadores han observado que en algunos aspectos, los modelos sí parecen “recordar” sus datos de entrenamiento. En particular, los sistemas de ML a menudo expresarán niveles de confianza más altos en sus predicciones cuando esas predicciones se relacionen con puntos de datos que vieron en el entrenamiento. (Si bien los chatbots de consumo como ChatGPT no muestran puntajes de confianza, a menudo se puede acceder a estos valores a través de API de desarrollador o herramientas de investigación).

En un método de ataque a la privacidad conocido como inferencia de membresía, un atacante podría ser capaz de inferir información sensible sobre alguien: por ejemplo, si había sido un paciente en un centro psiquiátrico. Siempre y cuando el atacante tenga algunos datos sobre una persona determinada (tal vez un historial médico parcial), ese atacante podría consultar un modelo que se sabe que se ha entrenado en conjuntos de datos confidenciales (por ejemplo, registros de centros psiquiátricos). Al observar las puntuaciones de confianza devueltas por el modelo, el atacante podría inferir que su objetivo era efectivamente un miembro del grupo utilizado para entrenar el modelo.

Un ataque de inversión de modelo va más allá, ya que básicamente permite a un adversario realizar ingeniería inversa con los datos reales que se utilizaron para entrenar el modelo. El atacante puede hacerlo mediante técnicas de fuerza bruta, utilizando iterativamente las puntuaciones de confianza devueltas por el modelo como guía para convertir datos aleatorios y ruidosos en algo que realmente se asemeje a datos de entrenamiento reales para el modelo. Por ejemplo, en 2015, los investigadores académicos pudieron explotar las puntuaciones de confianza de un modelo de reconocimiento facial para reconstruir imágenes que se aproximaban a los rostros reales utilizados para entrenar el modelo. Para ello, comenzaron con una imagen de ruido puro, modificaron la imagen de forma iterativa y utilizaron las puntuaciones de confianza de los resultados del modelo para guiar la siguiente modificación.⁵

Ataques de extracción de modelos

En un ataque de extracción de modelos (a veces llamado, simplemente, “robo de modelos”), el objetivo del atacante es efectivamente “clonar” un modelo determinado. Los motivos de un ataque de este tipo pueden variar: un atacante puede simplemente querer evitar el uso de pago por consulta del modelo original, o el atacante puede querer usar el clon para refinar clandestinamente ataques dirigidos que podrían funcionar bien en el modelo original.

Los métodos de la mayoría de los ataques de extracción de modelos son bastante sencillos: el atacante proporciona sistemáticamente al modelo instrucciones cuidadosamente seleccionadas e indexa los resultados. Si las entradas se eligen estratégicamente, en algunos casos se puede utilizar un conjunto de datos de solo miles o decenas de miles de pares de entrada-salida para replicar el modelo o al menos algún aspecto del modelo. Por ejemplo, un documento de 2023 sobre “modelo leeching” demostró cómo un ataque de este tipo podría utilizarse para extraer conocimientos específicos de tareas de un LLM de forma económica. Por solo 50 USD en costos de API, el equipo pudo construir un modelo clonado que podía emular una de las capacidades del modelo de lenguaje (comprensión de lectura) con una precisión del 87 %.⁶

Ataques de caja blanca frente a ataques de caja negra

Una taxonomía de ataque adicional distingue no por el tipo de daño, sino por el tipo de modelo al que se dirige. La mayoría de los ejemplos anteriores son los llamados ataques de caja negra , lo que significa que los modelos atacados solo dan acceso a sus resultados. Pero en los llamados ataques de caja blanca, los hackers atacan modelos de código abierto que son (a menudo debido a nobles impulsos de sus creadores) más transparentes sobre su funcionamiento interno. Con la visibilidad del comportamiento de las ponderaciones reales aprendidas que componen el modelo, los hackers a menudo pueden aprovechar este acceso de caja blanca para crear ataques más eficientes y dirigidos.

Métodos conocidos de ataques de evasión

De los tipos de ataques mencionados, podría decirse que los ataques de evasión son los más difíciles, ya que representan una frontera verdaderamente nueva en la ciberseguridad. Los ataques de evasión preocupan (y fascinan) especialmente a los investigadores de ciberseguridad porque explotan las formas fundamentalmente diferentes en que las máquinas y los humanos analizan el mundo. Por esta razón, una amplia línea de investigación se centró en descubrir métodos mediante los cuales los hackers podrían generar ataques de evasión, para así aplicar parches a estas vulnerabilidades antes de que los hackers las detecten. (Afortunadamente, también se descubrieron muchas defensas. Para obtener más información, consulte “Cómo defenderse contra el machine learning adversarial”).

Método de señales de gradiente rápido

En 2015, los investigadores de Google revelaron un método simple para generar ejemplos adversariales (entradas que engañan a cualquier sistema de aprendizaje profundo), al que denominaron “método de señales de gradiente rápido” o “FGSM”.² Tomemos como ejemplo un sistema de detección de imágenes. Tales sistemas dividen el mundo en clústeres: este para gatos, este para perros, y así sucesivamente. El método de señales de gradiente rápido es un mecanismo para encontrar una forma rápida de modificar una imagen para “extraerla” de un clúster a otro, frustrando la integridad de la toma de decisiones del sistema. Fundamentalmente, estos ajustes a menudo simplemente requieren bits de ruido visual que son imperceptibles para los humanos, pero que engañan a la máquina. El FGSM se denomina ataque “basado en gradiente” porque explota un algoritmo de optimización utilizado por los sistemas de machine learning llamado “descenso de gradiente”.

Dados los ataques más fuertes que se descubrieron poco después, un modelo que solo se ha reforzado contra los ataques de FGSM se considera altamente vulnerable.

Descenso de gradiente proyectado

El descenso de gradiente proyectado (PGD) es otro ataque basado en gradiente, más sutil y poderoso que el FGSM. Si bien el FGSM da un salto en una dirección adversarial para crear sus perturbaciones (el “ruido” que rompe los mecanismos de detección del modelo), el PGD utiliza un algoritmo para dar una serie de pequeños pasos. Este proceso más cuidadoso e iterativo le permite encontrar perturbaciones más fuertes e impenetrables. Además, una restricción inteligente en su algoritmo evita que las perturbaciones del PGD se alejen demasiado de una línea de base, lo que garantiza que sean indetectables para los humanos. El precio a cambio para los atacantes es el costo; donde el FGSM puede producir una perturbación rápida, pero débil con un solo cálculo de gradiente, el PGD debe realizar decenas o cientos.

El PGD se utiliza a menudo como punto de referencia clave para la robustez adversarial, ya que se considera el ataque basado en gradientes más potente.⁷ Una aplicación de IA que ha sido entrenada para resistir ataques de PGD puede considerarse significativamente robusta.

Ataques de Carlini y Wagner

Resulta que explotar el “gradiente” de los modelos de machine learning no es la única manera de atacar dichos sistemas. Un artículo de investigación de 2017⁸ de los científicos informáticos Nicholas Carlini y David Wagner de UC Berkeley reveló otro método para encontrar datos de entrada adversariales, uno que evita por completo la información sobre el gradiente del modelo. En cambio, los ataques de Carlini y Wagner enmarcan el problema como uno de pura optimización, buscando encontrar la cantidad mínima de cambio necesario en una entrada mientras que fuerzan una clasificación errónea. Por ejemplo, en el caso de una perturbación de imagen, dicho algoritmo podría revelar la menor cantidad de pixeles que es necesario modificar para engañar a un modelo. Si bien su producción es costosa desde el punto de vista computacional, el resultado suele ser una perturbación demasiado sutil para que un humano la note.

Cómo defenderse contra el machine learning adversarial

Gracias a los esfuerzos de los investigadores que descubrieron estas debilidades, se desarrollaron contramedidas para aumentar la robustez de los modelos de machine learning.

Para los ataques de evasión del tipo que se acaba de describir, los expertos han desarrollado métodos del llamado entrenamiento adversarial. Básicamente, el proceso simplemente implica incluir, junto con datos “limpios”, datos que han sido ajustados en la forma en que los hackers podrían intentar, por lo que el modelo aprende a etiquetar adecuadamente incluso estos ejemplos adversarios. Esta mitigación, aunque eficaz, puede ser costosa en dos sentidos: 1) implica más cómputo y 2) los modelos pueden volverse ligeramente menos precisos en general después de la exposición a datos perturbados. “El entrenamiento de modelos robustos puede no solo consumir más recursos, sino también llevar a una reducción de la precisión estándar”, escriben los investigadores del MIT detrás del artículo de 2018, “Robustness May Be at Odds with Accuracy”.⁹

En general, los principios de una buena ciberseguridad se aplican al ámbito del machine learning. Las defensas operativas incluyen herramientas de detección de anomalías y detección de intrusiones que comprueban patrones inusuales en los datos o en el tráfico que puedan indicar que un hacker está intentando interferir con un sistema de ML, independientemente de la etapa de su ciclo de vida. Además, el equipo rojo, o la exposición deliberada de modelos a ataques controlados de profesionales de ciberseguridad que simulan los de los adversarios, es una forma eficaz de realizar pruebas de estrés a los sistemas.

En un campo tan dinámico como el de la IA, el escenario de riesgos cambia constantemente. Organizaciones como el Instituto Nacional de Estándares y Tecnología (NIST) de EE. UU. son fuentes de los desarrollos más recientes. El informe¹⁰ de 2024 del NIST sobre gestión de riesgos de IA aborda el machine learning adversarial, además de abarcar enfoques más amplios sobre el riesgo de la IA, incluyendo temas como el sesgo, la alucinación y la privacidad. La adopción de un marco de gobernanza de la IA también puede ayudar a proteger los modelos contra los adversarios.

Costo de una filtración de datos 2025

Los costos de la filtración de datos alcanzaron un nuevo máximo. Obtenga insights actualizados sobre las amenazas de ciberseguridad y sus impactos financieros en las organizaciones.

Recursos

IBM X-Force Threat Intelligence Index 2025

Obtenga insights para prepararse y responder a los ciberataques con mayor rapidez y eficacia con IBM X-Force Threat Intelligence Index.

IDC MarketScape: Evaluación de proveedores de servicios de consultoría en ciberseguridad 2025

Vea por qué IBM ha sido nombrado actor principal y obtenga insights para seleccionar el proveedor de servicios de consultoría de ciberseguridad que mejor se adapte a las necesidades de su organización.

La ciberseguridad en la era de la IA generativa

Descubra cómo está cambiando el panorama de seguridad actual y cómo afrontar los desafíos y aprovechar la resiliencia de la IA generativa.

Informe IBM X-Force sobre el escenario de amenazas en la nube 2024

Conozca las amenazas más recientes y fortalezca sus defensas en la nube con el informe IBM® X-Force sobre el escenario de amenazas en la nube.

¿Qué es la seguridad de los datos?

Descubra cómo la seguridad de datos ayuda a proteger la información digital del acceso no autorizado, la corrupción o el robo a lo largo de todo su ciclo de vida.

¿Qué es un ataque cibernético?

Un ciberataque es un esfuerzo intencional para robar, exponer, alterar, deshabilitar o destruir datos, aplicaciones u otros activos a través de un acceso no autorizado.

Soluciones relacionadas

IBM Guardium

Proteja sus datos más críticos: descubra, monitoree y proteja la información confidencial en todos los entornos, mientras automatiza el cumplimiento y reduce el riesgo.

Explore IBM Guardium

Soluciones de seguridad empresarial

Transforme su programa de seguridad con las soluciones del mayor proveedor de seguridad empresarial.

Explore las soluciones de seguridad

Servicios de Ciberseguridad

Transforme su negocio y gestione el riesgo con servicios de consultoría de ciberseguridad, nube y seguridad gestionada.

Explore los servicios de ciberseguridad

Dé el siguiente paso

Automatice la protección de datos, la detección de amenazas y el cumplimiento para proteger su empresa en entornos on premises y en la nube.

Explore IBM Guardium

Descubra soluciones de ciberseguridad

Notas de pie de página

“Robust Physical-World Attacks on Deep Learning Visual Classification,” CVPR 2018, 10 de abril de 2018
“Explaining and Harnessing Adversarial Examples,” ICLR 2015, 20 de marzo de 2015
“Defending malware detection models against evasion based adversarial attacks,” Pattern Recognition Letters, diciembre de 2022
“What Is Nightshade?,” sitio web de Nightshade alojado en uchicago.edu, Mayo de 2024
“Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures,” CCS’15, octubre de 2015
“Model Leeching: An Extraction Attack Targeting LLMS,” arXiv, 19 de septiembre de 2023
“On the Convergence and Robustness of Adversarial Training,” Proceedings of the 36 th International Conference on Machine Learning, 2019
“Towards Evaluating the Robustness of Neural Networks,” arXiv, agosto de 2016
“Robustness May Be at Odds with Accuracy,” arXiv, 9 de septiembre de 2019
“Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile,” NIST, julio de 2024