¿Qué es la seguridad de agentes de IA?

Autores

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

La seguridad de agentes de IA es la práctica de protegerse tanto de los riesgos del uso de agentes de IA como de las amenazas a las aplicaciones agénticas. Implica proteger a los propios agentes y a los sistemas con los que interactúan, ayudando a garantizar que funcionen según lo previsto sin ser explotados con fines dañinos.

Los agentes son sistemas de IA diseñados para funcionar de forma autónoma mediante la planificación, la toma de decisiones y la llamada a herramientas externas. Es crítico protegerse tanto de los ciberataques externos como de las acciones no intencionadas de los agentes. Dado que la IA agéntica es un campo en rápido desarrollo, el panorama de las amenazas evoluciona en tiempo real junto con la tecnología. 

Una característica definitoria de los agentes de IA es su capacidad para realizar llamadas a herramientas, en las que se conectan a una API, base de datos, sitio web u otra herramienta y la utilizan cuando es necesario. La llamada a herramientas suele orquestarse a través de marcos de trabajo de agentes de IA y API.

En teoría, los agentes utilizan herramientas para aumentar sus propias capacidades en la planificación y realización de tareas complejas. Por ejemplo, un agente de servicio de atención al cliente podría interactuar con un cliente y luego conectarse a una base de datos interna para acceder al historial de compras de ese cliente. 

Los sistemas multiagente van un paso más allá al combinar varios agentes para delegar tareas complejas en fragmentos más pequeños. Un agente de planificación central gestiona el flujo de trabajo agéntico mientras los agentes trabajadores completan las partes asignadas de la tarea. 

La toma de decisiones autónoma de la IA y la llamada a herramientas se combinan para presentar una amplia superficie de ataque de dos vertientes. Los hackers pueden manipular el comportamiento del agente y hacer que utilice las herramientas de forma incorrecta, o atacar la propia herramienta a través de vectores más tradicionales, como la inyección SQL. La seguridad de agentes de IA busca salvaguardar los sistemas de IA agéntica contra ambos tipos de amenazas. 

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

El panorama de amenazas de IA agéntica

Los sistemas de IA agéntica ofrecen una mayor gama de vulnerabilidades en comparación con los modelos de IA independientes, como los modelos de lenguaje de gran tamaño, o aplicaciones de software tradicionales. Incluso sin la presencia de un atacante, los propios agentes pueden presentar riesgos de seguridad cuando no se gestionan y mantienen adecuadamente con barreras de seguridad, permisos y controles de acceso claros. 

El panorama de amenazas de los agentes de IA abarca: 

  • Superficie de ataque ampliada

  • Acciones autónomas a gran velocidad 

  • Inferencia impredecible 

  • Falta de transparencia

    Agentes de IA

    Cinco tipos de agentes de IA: funciones autónomas y aplicaciones del mundo real

    Descubra cómo la IA basada en objetivos y servicios se adapta a flujos de trabajo y entornos complejos.

    Superficie de ataque ampliada

    Los agentes suelen incorporarse a sistemas más grandes que incluyen API, bases de datos, sistemas basados en la nube e incluso otros agentes (sistemas multiagente). Cada elemento del sistema agéntico presenta su propio conjunto de vulnerabilidades. Los atacantes tienen a su disposición una serie de herramientas y exploits para apuntar a posibles puntos débiles en el flujo de trabajo agéntico.

    Acciones autónomas a gran velocidad

    La automatización agéntica significa que los agentes actúan sin recibir instrucciones explícitas de un usuario humano. Los agentes pueden actuar con rapidez, pudiendo coordinarse con otros agentes que estén haciendo lo mismo al mismo tiempo. Cada una de estas acciones y resultados de los agentes presenta una oportunidad de ataque y un vector de amplificación en caso de que un atacante consiga comprometer a un agente o a todo un sistema agéntico.

    Inferencia impredecible

    La inferencia es el proceso mediante el cual los LLM y otros modelos de IA generativa, incluidos los agentes, toman decisiones. En resumen, utilizan modelos estadísticos para "inferir" el resultado más probable para cualquier entrada. Dado que la inferencia es probabilística, los resultados del modelo no se pueden predecir por completo, lo que introduce incertidumbre en el comportamiento de los agentes. 

    Como tal, los proveedores de ciberseguridad no pueden anticipar perfectamente lo que hará un agente. Esta imprevisibilidad complica la naturaleza de la mitigación de amenazas de agentes en comparación con las técnicas tradicionales de ciberseguridad.

    Falta de transparencia

    Muchos modelos de IA, como los modelos GPT de OpenAI y Claude de Anthropic, no son de código abierto. No es posible "mirar dentro" del modelo y averiguar cómo toma las decisiones. E incluso los modelos de código abierto no ofrecen total transparencia, dada la naturaleza inherentemente compleja y opaca de cómo los modelos llegan a los resultados. 

    El personal de ciberseguridad que trabaja con sistemas agénticos puede tener más dificultades para realizar análisis de causa raíz y formular planes de respuesta a incidentes.

    Vulnerabilidades de la IA agéntica

    La naturaleza multifacética del panorama de amenazas agénticas introduce una serie de vulnerabilidades que los atacantes pueden explotar. 

    Las vulnerabilidades de seguridad del agente de IA incluyen: 

    • Inyección de instrucciones 

    • Manipulación de herramientas y API 

    • Envenenamiento de datos 

    • Envenenamiento de la memoria 

    • Compromiso de privilegios 

    • Autenticación y suplantación de control de acceso 

    • Ataques de ejecución remota de código (RCE) 

    • Fallos en cascada y sobrecarga de recursos

      Inyección de instrucciones

      La inyección de instrucciones es una de las vulnerabilidades más graves de cualquier modelo de lenguaje de gran tamaño (LLM), no solo de los agentes de IA. Pero con los agentes, el riesgo se magnifica porque los agentes pueden tomar acciones autónomas. En un ataque de inyección de instrucción, el atacante envía entradas adversarias al LLM que le indican que se comporte de maneras no deseadas. Se puede instruir al agente para que ignore las directrices de seguridad y ética, envíe correos electrónicos de phishing, filtre datos o abuse de las herramientas. 

      Un ataque de inyección indirecta de instrucciones oculta la instrucción maliciosa en la fuente de datos del agente en lugar de alimentarla directamente al modelo. Cuando el agente accede a la fuente de datos, como un sitio web externo, se envía la instrucción malicioso al modelo. Los agentes multimodales capaces de desplegar múltiples tipos de datos son especialmente vulnerables a este tipo de ataque: cada forma de datos que el agente puede procesar es un vector de ataque potencial.

      Manipulación de objetivos frente a secuestro de agentes

      La manipulación de objetivos y el secuestro de agentes suelen ser los resultados deseados para los ataques de inyección de instrucciones. Con la manipulación de objetivos, los atacantes modifican la forma en que un agente aborda las tareas y toma decisiones alterando sus objetivos o su proceso de pensamiento. El secuestro de agentes es un ataque en el que un atacante obliga a un agente a realizar acciones no deseadas, como acceder a datos confidenciales

      Manipulación de herramientas y API

      La IA agéntica es conocida por su capacidad para utilizar herramientas y conectarse a API. Pero esta misma capacidad es también una vulnerabilidad. A menudo, mediante la inyección de instrucciones, los atacantes engañan a un agente para que haga un uso indebido de las herramientas a las que está conectado. 

      El uso indebido de herramientas puede provocar fugas de datos en las que el agente exfiltra datos confidenciales del usuario al atacante, o ataques DDoS (denegación de servicio distribuido) donde el agente utiliza sus conexiones externas como armas. En un ataque de este tipo, el agente coordina una avalancha de solicitudes de conexión a la red objetivo, sobrecargándola y forzando un apagado.

      Envenenamiento de datos

      El envenenamiento de datos es la introducción de datos maliciosos en el conjunto de datos de entrenamiento de un agente o en fuentes de datos externas. Los datos determinan cómo aprende, razona y se comporta un agente. La corrupción de sus datos de entrenamiento o entradas puede provocar un comportamiento no deseado, como la fuga de datos. 

      Por ejemplo, un agente de codificación podría recurrir a una biblioteca de código externa como referencia. Slopsquatting, un acrónimo de "AI Slop" y "typo squatting", es cuando alguien registra deliberadamente un nombre de biblioteca de códigos similar al de una biblioteca legítima. La intención es que el modelo extraiga accidentalmente un subconjunto de código de la biblioteca falsa y lo agregue a su código generado. 

      Junto con el uso indebido de herramientas, el envenenamiento de datos es un componente de la explotación de la cadena de suministro: cuando un atacante se infiltra y corrompe el sistema que rodea a un agente de IA.

      Envenenamiento de la memoria

      El envenenamiento de la memoria es la corrupción de la memoria persistente de un agente: los datos que conserva y que le mantienen informado sobre lo que ha estado haciendo recientemente. Los ataques de envenenamiento de la memoria están destinados a dar forma al comportamiento futuro del agente alterando su comprensión de las acciones anteriores.

      Compromiso de privilegios

      Un agente situado en el centro de un flujo de trabajo automatizado tiene permisos del sistema que le permiten acceder a los datos y herramientas que necesita para las tareas que tiene asignadas. Si los agentes no se monitorizan, es posible que conserven o se les concedan permisos excesivos más allá de lo que necesitan. 

      Si estos privilegios no se eliminan cuando el agente ya no los necesita, ya no añaden valor, pero siguen siendo un vector de ataque potencial. Los atacantes pueden explotar los permisos de un agente para enviar mensajes, ejecutar transacciones, otorgarse más permisos, alterar sistemas, leer datos confidenciales y más.

      Autenticación y suplantación de control de acceso

      Si los atacantes logran robar las credenciales de los agentes, pueden hacerse pasar por esos agentes para comprometer los sistemas a los que tiene acceso el agente. La suplantación de la identidad del agente otorga a los atacantes los mismos permisos que tiene el agente: cualquier cosa que el agente pueda hacer, el usuario no autorizado también puede hacerlo ahora. 

      Los protocolos de autenticación débiles se combinan con el machine learning para producir un movimiento lateral rápido: cuando los atacantes se adentran más en una red tras una brecha inicial. El movimiento lateral abre la puerta a la exfiltración de datos, los ataques de phishing, la distribución de malware y mucho más. Los atacantes también pueden ajustar el comportamiento del agente para alterar sus acciones futuras.

      Ataques de ejecución remota de código (RCE)

      La ejecución remota de código (RCE) es un tipo de ciberataque en el que un atacante inyecta código malicioso en un sistema desde una ubicación diferente. Con los agentes, los atacantes pueden hacer que el agente ejecute código malicioso que le da acceso al entorno de ejecución del código. Un ejemplo común del mundo real es el de un atacante que extrae las credenciales de usuario del sistema host de un agente comprometido.

      Fallos en cascada y sobrecarga de recursos

      Los fallos en cascada y la sobrecarga de recursos dan lugar a la sobrecarga del sistema agéntico. En un sistema multiagente, los fallos en cascada se producen cuando el resultado de un agente comprometido afecta negativamente al siguiente agente de la red hasta que todo el sistema se cae. 

      La sobrecarga de recursos es similar a un ataque DDoS contra un agente: los atacantes sobrecargan el agente con solicitudes que superan su rendimiento, lo que puede interrumpir el tiempo de ejecución por completo. Desde la perspectiva del usuario final, la aplicación impulsada por agentes parece estar inactiva.

      Medidas de seguridad del agente de IA

      A pesar del amplio y variado panorama de amenazas, los sistemas de IA agéntica pueden protegerse con contramedidas eficaces y barreras de seguridad de IA. Adoptar una posición de seguridad proactiva y seguir las buenas prácticas actuales para la gestión de vulnerabilidades puede ayudar a los profesionales de ML y ciberseguridad a proteger a los agentes de IA y a adelantarse a los ciberdelincuentes emprendedores. 

      Las buenas prácticas de seguridad de los agentes de IA incluyen: 

      • Arquitectura zero trust 

      • El principio de privilegio mínimo 

      • Autenticación sensible al contexto

      • Cifrado de datos 

      • Microsegmentación 

      • Refuerzo de instrucciones 

      • Validación de instrucciones 

        Arquitectura zero trust

        La arquitectura zero trust (ZTA) es un enfoque de la ciberseguridad que supone que ningún dispositivo de una red es fiable por defecto. En su lugar, cada solicitud de acceso a la red debe autenticarse y autorizarse antes de poder continuar. La monitorización continua y la autenticación multifactor (MFA) ayudan a protegerse de las amenazas. 

        Imagine la red como un sitio web y una solicitud de acceso como usuario de ese sitio. Con ZTA, no hay ninguna opción en la pantalla de inicio de sesión para marcar una casilla y hacer que el sitio "le recuerde la próxima vez". El usuario debe introducir su contraseña (y cumplir otros retos de MFA) cada vez que quiera iniciar sesión. 

        Al elegir "nunca confíe, verifique siempre", ZTA reduce la capacidad de movimiento lateral de un atacante, reduciendo la superficie de ataque y ganando más tiempo para que la seguridad responda.

        El principio del privilegio mínimo

        El principio de privilegios mínimos establece que cada dispositivo o agente de una red debe tener los permisos más bajos posibles necesarios para sus responsabilidades. Es equivalente a someter a todos y a todo a una estricta política de "necesidad de conocer". El control de acceso basado en roles (RBAC) y el control de acceso basado en atributos (ABAC) son dos métodos para mantener los niveles de privilegios y aumentar la seguridad de datos.

        Autenticación sensible al contexto

        La autenticación contextual permite a los agentes recuperar datos solo si el usuario puede acceder a ellos. Los permisos de acceso pueden ajustarse dinámicamente en función de la función del agente, los permisos o incluso la hora del día. 

        Cifrado de datos

        Además de minimizar el acceso con el principio de privilegio mínimo, los datos pueden protegerse aún más contra agentes comprometidos mediante el cifrado. Los datos en tránsito y en reposo deben cifrarse con cifrado AES-256 o similar. Los datos que contienen información confidencial, como la información de identificación personal (PII), también deben anonimizarse para proteger aún más a los empleados y clientes.

        Microsegmentación

        La microsegmentación es la práctica de diseño de dividir redes y entornos en segmentos individuales. Cuando los agentes pueden ejecutar código, deben hacerlo en entornos aislados para evitar el movimiento lateral. Los estrictos controles de tiempo de ejecución fortalecen aún más el entorno para contener al agente dentro del entorno aislado.

        Refuerzo de instrucciones

        El refuerzo de instrucciones es la práctica de seguridad de la IA que consiste en dar a los LLM instrucciones estrictas y limitadas que dejan poco margen a interpretaciones erróneas. Al limitar al agente a un carril estrecho, los diseñadores de sistemas de ML pueden ayudar a limitar la capacidad del atacante para engañar al agente y que este realice comportamientos no deseados. 

        Las técnicas de endurecimiento de prompts incluyen impedir que el agente revele sus instrucciones y hacer que rechace automáticamente cualquier solicitud que quede fuera de su alcance restringido.

        Validación de instrucciones

        La validación de instrucciones comprueba las instrucciones con reglas predefinidas antes de pasarlas al agente. También conocida como saneamiento de instrucciones o validación de entradas, esta práctica ayuda a proteger a los agentes de los ataques de inyección inmediata. Del mismo modo, los resultados deben validarse antes de su uso en caso de que el agente se vea comprometido.

        Entrenamiento adversarial

        El entrenamiento adversarial enseña a los modelos a reconocer posibles ataques mezclando entradas engañosas en los datos de entrenamiento. El entrenamiento adversarial está en continuo desarrollo y aún no se ha convertido en un conjunto estándar de protocolos de entrenamiento.

        Soluciones relacionadas
        Agentes de IA para empresas

        Cree, implemente y gestione potentes asistentes y agentes de IA que automaticen flujos de trabajo y procesos con IA generativa.

          Explore watsonx Orchestrate
          Soluciones de agente de IA de IBM

          Construya el futuro de su empresa con soluciones de IA en las que puede confiar.

          Explore las soluciones de los agentes de IA
          Servicios de IA de IBM Consulting

          Los servicios de IA de IBM Consulting ayudan a reinventar la forma de trabajar de las empresas usando IA para la transformación.

          Explore los servicios de inteligencia artificial
          Dé el siguiente paso

          Tanto si opta por personalizar las aplicaciones y habilidades prediseñadas como si prefiere crear e implementar servicios agentivos personalizados mediante un estudio de IA, la plataforma IBM watsonx le ofrece todo lo que necesita.

          Explore watsonx Orchestrate Explore watsonx.ai