¿Qué es el machine learning adversarial?

Autor

Staff Writer

IBM Think

Definición de machine learning adversarial

El machine learning adversarial es el arte de engañar a los sistemas de IA. El término se refiere tanto a los agentes de amenazas que persiguen este arte de forma maliciosa, como a los investigadores bien intencionados que buscan exponer vulnerabilidades para, en última instancia, mejorar la solidez del modelo.

El campo presenta nuevos retos en ciberseguridad debido a la complejidad de los modelos de machine learning y a la amplia variedad de sus superficies de ataque, que incluyen, a menudo, el mundo físico.

Un ejemplo real

Para empezar a ilustrar cómo pueden ser diferentes los ataques de machine learning adversariales frente a las amenazas de ciberseguridad heredadas, consideremos un ejemplo del ámbito de los coches autónomos. Los coches autónomos funcionan con complejos sistemas de inteligencia artificial que recogen la información de los sensores y luego establecen clasificaciones que determinan el comportamiento del coche. Por ejemplo, cuando un vehículo autónomo se acerca a una señal de stop, sus algoritmos de machine learning la identificarán, deteniéndolo de forma segura.

El problema es que los sistemas machine learning que han aprendido a clasificar las señales de stop utilizan criterios diferentes a los de la mente humana. Esto, a su vez, crea una vulnerabilidad espeluznante, como demostraron investigadores de varias universidades en 2017¹. Al hacer solo alteraciones sutiles pero estratégicas en las señales de stop, la adición de unas pocas pegatinas pequeñas e inocuas que la mayoría de los humanos simplemente ignorarían, los investigadores pudieron engañar a modelos de IA del tipo que utilizan los coches autónomos para clasificar peligrosamente erróneamente las señales de stop como señales de "Límite de velocidad: 45 MPH". Un agente de patrulla humano que pasara por allí no se daría cuenta del sabotaje, pero para un sistema de IA, unas pocas pegatinas sutiles habían convertido una señal de stop en una señal de "adelante".

Huelga decir que, si unos hackers malintencionados hubieran descubierto primero esta vulnerabilidad, podrían haberse producido fácilmente daños reales, como accidentes mortales de tráfico.

Boletín de Think

¿Su equipo detectaría a tiempo el próximo día cero?

Únase a los líderes de seguridad que confían en el boletín Think para obtener noticias seleccionadas sobre IA, ciberseguridad, datos y automatización. Aprenda rápidamente de tutoriales de expertos y artículos explicativos, directamente en su bandeja de entrada. Consulte la Declaración de privacidad de IBM.

Tipos de ataques adversarials

Los investigadores han creado taxonomías de los diferentes tipos de ataques a los sistemas de IA.

Ataques de evasión

Los ataques de evasión, como el truco de la señal de stop descrito, se refieren a casos en los que hackers alteran datos procesados por un sistema de IA, creando los llamados "ejemplos adversariales" que engañan a clasificadores de IA. Los ataques se llaman así porque los datos o estímulos alterados son capaces de eludir la percepción normal de un modelo de IA. Además del vívido ejemplo del coche autónomo, los investigadores han podido crear formas casi imperceptibles de ruido visual, las llamadas "perturbaciones adversariales", que pueden superponerse a los datos para engañar a la inteligencia artificial. En un conocido ejemplo de 2015, los investigadores de Google pudieron añadir un poco de ruido visual a la imagen de un panda, lo que provocó que un modelo de visión artificial se asegurara de que la imagen representaba un gibón. De hecho, la IA confiaba aún más en su clasificación errónea de "gibón" que en su clasificación correcta de "panda"². (El oscuro arte de diseñar de manera eficiente los patrones de ruido que engañan a un modelo se describe en la sección "Métodos conocidos de ataques de evasión", a continuación).

Un subtipo clave de ataques de evasión son los ataques de malware, donde los atacantes evaden sistemas de detección diseñados para detectar virus informáticos. Los atacantes logran esto de diversas maneras, pero generalmente empleando trucos para hacer que su malware parezca código inofensivo; a veces, los atacantes utilizan su propia IA para optimizar precisamente este proceso. En un ejemplo, los investigadores desarrollaron un bot que podía camuflar automáticamente el malware durante muchos ensayos, engañando a 20 sistemas de detección de malware el 98 % de las veces³.

Ataques de envenenamiento de datos

Los ataques de envenenamiento de datos se producen en una fase diferente y más temprana del ciclo de vida de un modelo de IA, concretamente durante la fase de entrenamiento. Las redes neuronales profundas dependen de grandes cantidades de datos de entrenamiento para aprender patrones útiles. Con un ataque de envenenamiento de datos, un actor puede dañar el conjunto de datos de entrenamiento original e introducir datos que provocarán que el modelo entrenado resultante se comporte de forma disfuncional.

Un ejemplo se basaba en el hecho de que muchos modelos de IA utilizan datos adquiridos tras su implementación para entrenar de forma iterativa la siguiente versión del modelo. Aprovechando este principio, los trolls de Twitter bombardearon un chatbot de Microsoft de 2016 llamado Tay con material ofensivo y, finalmente, llevaron al chatbot a publicar él mismo contenido de odio.

Otro ejemplo de la Universidad de Chicago tiene como objetivo capacitar a los artistas para castigar a las empresas sin escrúpulos que puedan utilizar las imágenes protegidas por derechos de autor de los artistas para entrenar a sus modelos sin el consentimiento de los artistas. El proyecto, Nightshade, "está diseñado como una herramienta ofensiva para distorsionar las representaciones de características dentro de los modelos de imágenes de IA generativa", según sus creadores⁴. Si un artista aplica Nightshade encima de sus imágenes, y un modelo de IA más tarde utiliza esas imágenes, el modelo podría aprender gradualmente etiquetas incorrectas para ciertos objetos, por ejemplo, llegar a visualizar vacas como bolsos de cuero.

Ataques a la privacidad

Los ataques a la privacidad explotan las peculiaridades de los sistemas de IA para inferir o extraer indirectamente información sensible que formaba parte de su conjunto de datos de entrenamiento. En teoría, los modelos de ML no están destinados a "recordar" los datos con los que se entrenan: extraen patrones útiles a través de los conjuntos de datos y no retienen los datos con los que se entrenan, como lo haría un disco duro. Sin embargo, la realidad de la "memoria" de la IA es más compleja. En la práctica, los investigadores han observado que, en algunos aspectos, los modelos parecen "recordar" sus datos de entrenamiento. En particular, los sistemas de ML a menudo expresan niveles de confianza más altos en sus predicciones cuando esas predicciones se relacionan con puntos de datos que vieron en el entrenamiento. (Aunque los chatbots de consumo como ChatGPT no muestran puntuaciones de confianza, a menudo se puede acceder a estos valores a través de API de desarrollador o herramientas de investigación).

En un método de ataque a la privacidad conocido como inferencia de pertenencia, un atacante podría ser capaz de inferir información sensible sobre alguien: por ejemplo, si ha sido paciente de un centro psiquiátrico. Mientras el atacante tenga algunos datos sobre una persona determinada (quizá un historial médico parcial), ese atacante podría consultar un modelo conocido por haberse entrenado con conjuntos de datos sensibles (por ejemplo, registros de centros psiquiátricos). Al observar las puntuaciones de confianza devueltas por el modelo, el atacante podría inferir que su objetivo era efectivamente un miembro del grupo utilizado para entrenar el modelo.

Un ataque de inversión de modelos va más allá y, básicamente, permite al adversario aplicar ingeniería inversa a los datos reales que entrenaron el modelo. El atacante puede hacerlo utilizando técnicas de fuerza bruta, utilizando iterativamente las puntuaciones de confianza devueltas por el modelo como guía para convertir datos aleatorios y ruidosos en algo que realmente se asemeje a datos de entrenamiento reales para el modelo. Por ejemplo, en 2015, investigadores académicos pudieron explotar las puntuaciones de confianza de un modelo de reconocimiento facial para reconstruir imágenes que se aproximaban a las caras reales utilizadas para entrenar el modelo. Lo hicieron empezando con una imagen de ruido puro, ajustando la imagen de forma iterativa y utilizando las puntuaciones de confianza de la salida del modelo como guía para el siguiente ajuste⁵.

Ataques de extracción de modelos

En un ataque de extracción de modelos (a veces llamado, simplemente, "robo de modelos"), el objetivo del atacante es "clonar" eficazmente un modelo determinado. Los motivos de un ataque de este tipo pueden variar: un atacante puede simplemente querer evitar el uso de pago por consulta del modelo original, o puede querer utilizar el clon para refinar subrepticiamente ataques dirigidos que podrían funcionar bien en el modelo original.

Los métodos de la mayoría de los ataques de extracción de modelos son razonablemente simples: el atacante da instrucciones sistemáticamente al modelo con entradas cuidadosamente elegidas e indexa los resultados. Si las entradas se eligen estratégicamente, en algunos casos se puede utilizar un conjunto de datos de solo miles o decenas de miles de pares de entrada-salida para replicar el modelo o al menos algún aspecto del modelo. Por ejemplo, un artículo de 2023 sobre "model leeching" demostró cómo se podría utilizar un ataque de este tipo para extraer de forma económica conocimientos específicos de una tarea de un LLM. Por solo 50 USD en costes de API, el equipo pudo crear un modelo clonado que podía emular una de las capacidades del modelo de lenguaje, la comprensión lectora, con un 87 % de precisión⁶.

Ataques de caja blanca vs. ataques de caja negra

Una taxonomía de ataque adicional no distingue por el tipo de daño, sino por el tipo de modelo al que se dirige. La mayoría de los ejemplos anteriores son los llamados ataques de caja negra , lo que significa que los modelos objeto de ataque solo dan acceso a sus salidas. Pero en los llamados ataques de caja blanca, los hackers atacan modelos de código abierto que son (a menudo debido a nobles impulsos de sus creadores) más transparentes sobre su funcionamiento interno. Con la visibilidad del comportamiento de las ponderaciones reales aprendidas que componen el modelo, los hackers a menudo pueden aprovechar este acceso de caja blanca para crear ataques más eficientes y dirigidos.

Métodos conocidos de ataques de evasión

De los tipos de ataques anteriores, podría decirse que los ataques de evasión son los más desafiantes, ya que representan una auténtica nueva frontera en la ciberseguridad. Los ataques de evasión preocupan (y fascinan) especialmente a los investigadores de ciberseguridad porque explotan las formas fundamentalmente diferentes en que las máquinas y los humanos analizan el mundo. Por esta razón, una amplia línea de investigación se ha centrado en descubrir métodos mediante los cuales los hackers podrían generar ataques de evasión, para así parchear estas vulnerabilidades antes de que los hackers las detecten. (Por suerte, también se han descubierto muchas defensas. Para obtener más información, consulte "Cómo defenderse del machine learning adversarial").

Método de signo de gradiente rápido

En 2015, los investigadores de Google revelaron un método simple para generar ejemplos adversarios, entradas que engañan a cualquier sistema de deep learning, al que denominaron “método de señal de gradiente rápido” o “FGSM”². Tomemos el ejemplo de un sistema de detección de imágenes. Básicamente, estos sistemas dividen el mundo en clústeres: este para los gatos, este para los perros, etc. El método de señal de gradiente rápido es un mecanismo para encontrar una forma rápida de modificar una imagen para "empujarla" de un clúster a otro, frustrando la integridad de la toma de decisiones del sistema. Fundamentalmente, estos ajustes a menudo simplemente requieren fragmentos de ruido visual que son imperceptibles para los humanos, pero que engañan a la máquina. El FGSM se denomina ataque "basado en gradientes" porque explota un algoritmo de optimización utilizado por los sistemas de machine learning llamado"descenso de gradiente".

Dados los ataques más fuertes que se descubrieron poco después, un modelo que solo se ha reforzado contra los ataques FGSM se considera altamente vulnerable.

Descenso en gradiente proyectado

El descenso en gradiente proyectado (PGD) es otro ataque basado en gradientes, más sutil y poderoso que el FGSM. Mientras que FGSM esencialmente da un salto en una dirección adversaria para crear sus perturbaciones (el "ruido" que rompe los mecanismos de detección del modelo), PGD utiliza un algoritmo para dar una serie de pequeños pasos. Este proceso más cuidadoso e iterativo le permite encontrar perturbaciones más fuertes e impermeables. Además, una restricción inteligente en su algoritmo evita que las perturbaciones de PGD se alejen demasiado de una línea de base, lo que garantiza que sean indetectables para los humanos. La contrapartida para los atacantes es el coste: mientras que FGSM puede producir una perturbación rápida pero débil con un solo cálculo de gradiente, PGD debe realizar docenas o cientos.

El PGD se utiliza a menudo como punto de referencia clave para la robustez adversaria, ya que se considera el ataque basado en gradientes más fuerte⁷. Una aplicación de IA entrenada para resistir ataques PGD puede considerarse significativamente robusta.

Ataques de Carlini y Wagner

Resulta que explotar el "gradiente" de los modelos de machine learning no es la única forma de atacar dichos sistemas. Un artículo de investigación de 2017⁸ de los informáticos de la UC Berkeley Nicholas Carlini y David Wagner reveló otro método para encontrar datos de entrada adversarios, uno que evita por completo la información sobre el gradiente del modelo. En cambio, los ataques de Carlini y Wagner plantean el problema como un problema de pura optimización, ya que buscan encontrar la cantidad mínima de cambio necesaria en una entrada y, al mismo tiempo, obligan a una clasificación errónea. Para una perturbación de la imagen, por ejemplo, un algoritmo de este tipo podría revelar el menor número de píxeles que hay que retocar para engañar a un modelo. Aunque su producción es costosa desde el punto de vista computacional, el resultado suele ser una perturbación demasiado sutil para que un humano la note.

Cómo defenderse del machine learning adversarial

Gracias a los esfuerzos de los investigadores que han descubierto estas debilidades, se han desarrollado contramedidas para ayudar a aumentar la solidez de los modelos de machine learning.

Para los ataques de evasión del tipo que se acaba de describir, los expertos han desarrollado métodos del llamado entrenamiento contradictorio. Básicamente, el proceso simplemente implica incluir, junto con los datos "limpios", datos que han sido modificados de la forma en que los hackers podrían intentarlo, de modo que el modelo aprenda a etiquetar adecuadamente incluso estos ejemplos adversarios. Esta mitigación, aunque eficaz, puede ser costosa en dos sentidos: 1) implica más computación y 2) los modelos pueden volverse ligeramente menos precisos en general después de la exposición a datos perturbados. "Entrenar modelos robustos no solo puede consumir más recursos, sino que también conduce a una reducción de la precisión estándar", escriben los investigadores del MIT detrás del artículo de 2018, "Robustness May Be at Odds with Accuracy"⁹.

En general, los principios de una buena ciberseguridad se aplican al ámbito del machine learning. Las defensas operativas incluyen herramientas de detección de anomalías e intrusiones que comprueban si hay patrones inusuales en los datos o en el tráfico que puedan indicar que un hacker está intentando entrometerse en un sistema de ML, sea cual sea la etapa de su ciclo de vida. Además, los equipos rojos, o la exposición deliberada de modelos a ataques controlados de profesionales de la ciberseguridad que simulan los de los adversarios, son una forma eficaz de realizar pruebas de estrés a los sistemas.

En un campo tan rápido como el de la IA, el panorama del riesgo cambia constantemente. Organizaciones como el Instituto Nacional de Estándares y Tecnología (NIST) son fuentes de los últimos avances. El informe del NIST de 2024¹⁰ sobre la gestión de riesgos de la IA aborda el machine learning adversario, al tiempo que abarca enfoques más amplios del riesgo de la IA, incluidos temas como el sesgo, la alucinación y la privacidad. La adopción de un marco de gobierno de la IA también puede contribuir a proteger los modelos contra los adversarios.

Informe “Cost of a Data Breach” de 2025

Los costes de las vulneraciones de datos han alcanzado un nuevo máximo. Obtenga conocimientos actualizados sobre las amenazas a la ciberseguridad y su impacto financiero en las organizaciones.

Recursos

IBM® X-Force Threat Intelligence Index 2025

Obtenga información para prepararse y responder a los ciberataques con mayor rapidez y eficacia con IBM X-Force Threat Intelligence Index.

IDC MarketScape: evaluación de proveedores de servicios de consultoría de ciberseguridad 2025

Descubra por qué IBM ha sido nombrado Major Player y obtenga conocimientos para seleccionar el proveedor de servicios de consultoría de ciberseguridad que mejor se adapte a las necesidades de su organización.

Ciberseguridad en la era de la IA generativa

Descubra cómo está cambiando el panorama actual de la seguridad y cómo afrontar los retos y aprovechar la capacidad de recuperación de la IA generativa.

Informe IBM X-Force Cloud Threat Landscape Report 2024

Conozca las amenazas más recientes y refuerce sus defensas en la nube con el informe IBM X-Force Cloud Threat Landscape Report.

¿Qué es la seguridad de los datos?

Descubra cómo la seguridad de datos ayuda a proteger la información digital del acceso no autorizado, la corrupción o el robo a lo largo de todo su ciclo de vida.

¿Qué es un ciberataque?

Un ciberataque es un esfuerzo intencionado para robar, exponer, alterar, inutilizar o destruir datos, aplicaciones u otros activos mediante un acceso no autorizado.

Soluciones relacionadas

Soluciones de seguridad para la empresa

Transforme su programa de seguridad con las soluciones del mayor proveedor de seguridad empresarial.

Explore las soluciones de ciberseguridad

Servicios de ciberseguridad

Transforme su negocio y gestione el riesgo con servicios de consultoría de ciberseguridad, nube y seguridad gestionada.

Explore los servicios de ciberseguridad

Ciberseguridad de la inteligencia artificial (IA)

Mejore la velocidad, la precisión y la productividad de los equipos de seguridad con soluciones de ciberseguridad basadas en IA.

Explore la ciberseguridad de la IA

Dé el siguiente paso

Tanto si necesita soluciones de seguridad de datos, de gestión de endpoints o de gestión de identidades y accesos (IAM), nuestros expertos están dispuestos a trabajar con usted para lograr una posición de seguridad sólida. Transforme su empresa y gestione los riesgos con un líder de la industria mundial mundial en consultoría de ciberseguridad, cloud y servicios de seguridad gestionados.

Explore las soluciones de ciberseguridad

Descubra los servicios de ciberseguridad

Notas a pie de página

“Robust Physical-World Attacks on Deep Learning Visual Classification”. CVPR 2018. 10 de abril de 2028.
“Explaining and Harnessing Adversarial Examples”. ICLR 2015. 20 de marzo de 2015.
“Defending malware detection models against evasion based adversarial attacks”. Pattern Recognition Letters. Diciembre de 2022.
“What Is Nightshade?”. Sitio web de Nightshade alojado en uchicago.edu. Mayo de 2024.
“Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures”. CCS’15. Octubre de 2015.
“Model Leeching: An Extraction Attack Targeting LLMS”. arXiv. 19 de septiembre de 2023.
“On the Convergence and Robustness of Adversarial Training”. Proceedings of the 36 th International Conference on Machine Learning. 2019.
“Towards Evaluating the Robustness of Neural Networks”. arXiv. Agosto de 2016.
“Robustness May Be at Odds with Accuracy”. arXiv. 9 de septiembre de 2019.
“Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile”. NIST. Julio de 2024.