¿Qué es la seguridad del agente de IA?

Autores

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

La seguridad del agente de IA es la práctica de protegerse contra los riesgos del uso del agente de IA y las amenazas a las aplicaciones de agente. Implica proteger a los propios agentes y a los sistemas con los que interactúan, ayudando a garantizar que funcionen según lo previsto sin ser explotados con fines dañinos.

Los agentes son sistemas de IA diseñados para funcionar de forma autónoma mediante la planificación, la toma de decisiones y la llamada a herramientas externas. Es crítico protegerse contra ciberataques externos y acciones no intencionadas realizadas por los agentes. Debido a que la IA agéntica es un campo en rápido desarrollo, el escenario de amenazas está evolucionando en tiempo real junto con la tecnología. 

Una característica definitoria de los agentes de IA es su capacidad para realizar llamadas de herramientas, en las que se conectan a una API, base de datos, sitio web u otra herramienta y la usan cuando es necesario. Las llamadas a herramientas generalmente se orquestan a través de marcos de agentes de IA y API. 

En teoría, los agentes utilizan herramientas para aumentar sus propias capacidades en la planificación y finalización de tareas complejas. Por ejemplo, un agente de atención al cliente podría interactuar con un cliente y luego conectarse a una base de datos interna para acceder al historial de compras de ese cliente. 

Los sistemas multiagente van un paso más allá al combinar varios agentes para delegar tareas complejas en fragmentos más pequeños. Un agente de planificación central gestiona el flujo de trabajo agéntico mientras los agentes trabajadores completan las partes asignadas de la tarea. 

La toma de decisiones autónoma de IA y la llamada a herramientas se combinan para presentar una amplia superficie de ataque de dos frentes. Los hackers pueden manipular el comportamiento del agente y hacer que haga un mal uso de las herramientas, o atacar la propia herramienta a través de vectores más tradicionales, como la inyección SQL. La seguridad de los agentes de IA busca salvaguardar los sistemas de IA agéntica contra ambos tipos de amenazas. 

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

El escenario de amenazas de IA agéntica

Los sistemas de IA agéntica ofrecen una mayor gama de vulnerabilidades en comparación con los modelos de IA independientes, como los modelos de lenguaje grandes (LLM), o las aplicaciones tradicionales. Incluso sin la presencia de un atacante, los propios agentes pueden presentar riesgos de seguridad cuando no se gestionan y mantienen adecuadamente con barreras de seguridad, permisos y controles de acceso claros. 

El panorama de amenazas de agentes de IA abarca: 

  • Superficie de ataque ampliada

  • Acciones autónomas a gran velocidad 

  • Inferencia impredecible 

  • Falta de transparencia

    Agentes de IA

    Cinco tipos de agentes de IA: funciones autónomas y aplicaciones reales

    Descubra cómo la IA orientada a objetivos y basada en utilidades se adapta a los flujos de trabajo y entornos complejos.

    Superficie de ataque ampliada

    Los agentes a menudo se incorporan a sistemas más grandes que incluyen API, bases de datos, sistemas basados en la nube e incluso otros agentes (sistemas multiagente). Cada elemento del sistema agéntico presenta su propia suite de vulnerabilidades. Los atacantes tienen una variedad de herramientas y exploits a su disposición para apuntar a posibles puntos débiles en el flujo de trabajo.

    Acciones autónomas a gran velocidad

    La automatización agéntica significa que los agentes actúan sin recibir instrucciones explícitas de un usuario humano. Los agentes pueden actuar con rapidez, potencialmente en contacto con otros agentes que también están haciendo lo mismo al mismo tiempo. Cada una de estas acciones y resultados del agente presenta una oportunidad de ataque y un vector de amplificación en caso de que un atacante logre comprometer a un agente o a todo un sistema de agentes.

    Inferencia impredecible

    Inferencia es el proceso mediante el cual los LLM y otros modelos de IA generativa, incluidos los agentes, toman decisiones. En resumen, utilizan modelos estadísticos para "inferir" el resultado más probable para cualquier entrada. Debido a que la inferencia es probabilística, los resultados del modelo no se pueden predecir por completo, lo que introduce incertidumbre en el comportamiento de los agentes. 

    Como tal, los proveedores de ciberseguridad no pueden anticipar perfectamente lo que hará un agente. Esta imprevisibilidad complica la naturaleza de la mitigación de amenazas de agentes en comparación con las técnicas tradicionales de ciberseguridad.

    Falta de transparencia

    Muchos modelos de IA, como los modelos GPT de OpenAI y Claude de Anthropic, no son de código abierto. No es posible “mirar dentro” del modelo y descubrir cómo toma sus decisiones. E incluso los modelos de código abierto no ofrecen total transparencia, dada la naturaleza inherentemente compleja y opaca de cómo los modelos llegan a los resultados. 

    El personal de ciberseguridad que trabaja con sistemas agénticos puede tener más dificultades para realizar análisis de causa principal y formular planes de respuesta a incidentes.

    Vulnerabilidades de la IA agéntica

    La naturaleza multifacética del escenario de amenazas agénticas introduce una serie de vulnerabilidades que los atacantes pueden explotar. 

    Las vulnerabilidades de seguridad del agente de IA incluyen: 

    • Inyección de instrucciones 

    • Manipulación de herramientas y API 

    • Envenenamiento de datos 

    • Envenenamiento de la memoria 

    • Compromiso de privilegios 

    • Suplantación de autenticación y control de acceso 

    • Ataques de ejecución remota de código (RCE) 

    • Fallos en cascada y sobrecarga de recursos

      Inyección de instrucciones

      La inyección de instrucciones es una de las vulnerabilidades más graves de cualquier modelo de lenguaje grande (LLM), no solo de los agentes de IA. Pero con los agentes, el riesgo se magnifica porque los agentes pueden realizar acciones autónomas. En un ataque de inyección de instrucciones, el atacante alimenta entradas adversarias al LLM que le indican que se comporte de maneras no deseadas. Se puede indicar al agente que ignore las pautas de seguridad y ética, envíe correos electrónicos de phishing, filtre datos o abuse de las herramientas. 

      Un ataque de inyección indirecta de instrucciones oculta la instrucción maliciosa en la fuente de datos del agente en lugar de alimentarla directamente al modelo. Cuando el agente llama a la fuente de datos, como un sitio web externo, la instrucción maliciosa se entrega al modelo. Los agentes multimodales capaces de desplegar múltiples tipos de datos son especialmente vulnerables a este tipo de ataque: cada forma de datos que el agente puede procesar es un vector de ataque potencial.

      Manipulación de objetivos frente a secuestro de agentes

      La manipulación de objetivos y el secuestro de agentes suelen ser los resultados deseados para los ataques de inyección de instrucción. Con la manipulación de objetivos, los atacantes modifican la forma en que un agente aborda las tareas y toma decisiones alterando sus objetivos o proceso de pensamiento. El secuestro de agentes es un ataque en el que un atacante obliga a un agente a realizar acciones no deseadas, como acceder a datos confidenciales

      Manipulación de herramientas y API

      La IA agéntica es conocida por su capacidad para usar herramientas y conectarse a las API. Pero esta misma capacidad también es una vulnerabilidad. A menudo, mediante la inyección de instrucciones, los atacantes engañan a un agente para que haga un mal uso de las herramientas a las que está conectado. 

      El uso indebido de la herramienta puede resultar en fugas de datos en las que el agente exfiltra datos confidenciales del usuario al atacante, o ataques DDoS (denegación distribuida del servicio) donde el agente utiliza sus conexiones externas como armas. En un ataque de este tipo, el agente coordina una avalancha de solicitudes de conexión a la red objetivo, sobrecargándola y forzando un apagado.

      Envenenamiento de datos

      El envenenamiento de datos es la introducción de datos maliciosos en el conjunto de datos de entrenamiento de un agente o en fuentes de datos externas. Los datos determinan cómo aprende, razona y se comporta un agente. La corrupción de sus datos de entrenamiento o entradas de datos puede dar lugar a un comportamiento no deseado, como la fuga de datos. 

      Por ejemplo, un agente de programación podría recurrir a una biblioteca de códigos externa como referencia. Slopsquatting, un acrónimo de "IA Slop" y "typo squatting", es cuando alguien registra deliberadamente un nombre de biblioteca de códigos que es similar al de una biblioteca legítima. La intención es que el modelo extraiga accidentalmente un subconjunto de código de la biblioteca falsa y lo agregue a su código generado. 

      Junto con el uso indebido de herramientas, el envenenamiento de datos es un componente de la explotación de la cadena de suministro: donde un atacante se infiltra y corrompe el sistema que rodea a un agente de IA.

      Envenenamiento de la memoria

      El envenenamiento de la memoria es la corrupción de la memoria persistente de un agente: los datos que retiene lo mantienen informado sobre lo que ha estado haciendo recientemente. Los ataques de envenenamiento de la memoria están destinados a dar forma al comportamiento futuro del agente alterando su comprensión de las acciones anteriores.

      Compromiso de privilegios

      Un agente situado en el centro de un flujo de trabajo automatizado tiene permisos del sistema para acceder a los datos y herramientas que necesita para sus tareas asignadas. Si no se supervisan los agentes, es posible que conserven o se les concedan permisos excesivos más allá de lo que necesitan. 

      Si estos privilegios no se eliminan cuando el agente ya no los necesita, ya no agregan valor, pero siguen siendo un vector de ataque potencial. Los atacantes pueden explotar los permisos de un agente para enviar mensajes, ejecutar transacciones, otorgarse más permisos, alterar sistemas, leer datos confidenciales y más.

      Suplantación de autenticación y control de acceso

      Si los atacantes logran robar las credenciales de los agentes, pueden hacerse pasar por esos agentes para comprometer los sistemas a los que el agente tiene acceso. La suplantación de identidad del agente otorga a los atacantes los mismos permisos que tiene el agente: cualquier cosa que el agente pueda hacer, el usuario no autorizado también puede hacerlo ahora. 

      Los protocolos de autenticación débiles se combinan con el machine learning para producir un movimiento lateral rápido: cuando los atacantes se mueven más profundamente en una red después de una filtración inicial. El movimiento lateral abre la puerta a la exfiltración de datos, ataques de phishing, distribución de malware y más. Los atacantes también pueden ajustar la forma en que se comporta el agente para alterar sus acciones futuras.

      Ataques de ejecución remota de código (RCE)

      La ejecución remota de código (RCE) es un tipo de ataque cibernético en el que un atacante inyecta código malicioso en un sistema desde una ubicación diferente. Con los agentes, los atacantes pueden hacer que el agente ejecute código malicioso que le da acceso al entorno de ejecución del código. Un ejemplo común del mundo real implica que un atacante extraiga las credenciales de usuario del sistema host de un agente comprometido.

      Fallos en cascada y sobrecarga de recursos

      Las fallas en cascada y la sobrecarga de recursos dan como resultado la sobrecarga del sistema agéntica. En un sistema multiagente, las fallas en cascada ocurren cuando la salida de un agente comprometido afecta negativamente al siguiente agente en la red hasta que todo el sistema está inactivo. 

      La sobrecarga de recursos es similar a un ataque de denegación distribuida del servicio (DDoS) contra un agente: los atacantes sobrecargan el agente con solicitudes que exceden su rendimiento, lo que podría interrumpir el tiempo de ejecución por completo. Desde la perspectiva de un usuario final, la aplicación impulsada por agente parece estar inactiva.

      Medidas de seguridad del agente de IA

      A pesar del amplio y variado ámbito de amenazas, los sistemas de IA agéntica pueden protegerse con contramedidas eficaces y barreras de seguridad de IA. Adoptar una postura de seguridad proactiva y seguir las mejores prácticas para la gestión de vulnerabilidades puede ayudar a los profesionales de ML y ciberseguridad a proteger a los agentes de IA y adelantarse a los delincuentes cibernéticos. 

      Las mejores prácticas de seguridad del agente de IA incluyen: 

      • Arquitectura de confianza cero 

      • El principio del privilegio mínimo 

      • Autenticación contextual

      • Cifrado de datos 

      • Microsegmentación 

      • Endurecimiento rápido 

      • Validación rápida 

        Arquitectura de confianza cero

        La arquitectura de confianza cero (ZTA) es un enfoque de ciberseguridad que asume que ningún dispositivo en una red es confiable de forma predeterminada. En cambio, cada solicitud de acceso a la red debe autenticarse y autorizarse antes de que pueda continuar. El monitoreo continuo y la autenticación multifactor (MFA) ayudan a protegerse contra las amenazas. 

        Imagine la red como un sitio web y una solicitud de acceso como usuario de ese sitio. Con la ZTA, no hay ninguna opción en la pantalla de inicio de sesión para marcar una casilla y hacer que el sitio “me recuerde la próxima vez”. El usuario debe ingresar su contraseña y cumplir con otros desafíos de MFA cada vez que quiera iniciar sesión. 

        Al elegir “nunca confiar, siempre verificar”, la ZTA reduce la capacidad de movimiento lateral de un atacante, lo que reduce la superficie de ataque y compra más tiempo para que la seguridad responda.

        El principio de privilegio mínimo

        El principio de privilegio mínimo establece que cada dispositivo o agente en una red debe tener los permisos más bajos posibles necesarios para sus responsabilidades. Es equivalente a poner a todos y todo en una estricta política de "necesidad de saber". El control de acceso basado en roles (RBAC) y el control de acceso basado en atributos (ABAC) son dos métodos para mantener los niveles de privilegios y aumentar la seguridad de los datos.

        Autenticación sensible al contexto

        La autenticación sensible al contexto permite a los agentes recuperar datos solo si el usuario puede acceder a ellos. Los permisos de acceso pueden ajustarse dinámicamente según la función del agente, los permisos o incluso la hora del día. 

        Cifrado de datos

        Además de minimizar el acceso con el principio de privilegio mínimo, los datos pueden protegerse aún más contra agentes comprometidos mediante el cifrado. Los datos en tránsito y en reposo deben cifrarse con cifrado AES-256 o similar. Los datos que contienen información confidencial, como información de identificación personal (PII), también deben anonimizarse para proteger aún más a los empleados y clientes.

        Microsegmentación

        La microsegmentación es la práctica de diseño de dividir redes y entornos en segmentos individuales. Cuando los agentes pueden ejecutar código, deben hacerlo en entornos de espacio aislado para evitar el movimiento lateral. Los estrictos controles de tiempo de ejecución fortalecen aún más el entorno para contener al agente dentro del sandbox.

        Endurecimiento rápido

        El endurecimiento rápido es la práctica de seguridad de la IA de dar a los LLM instrucciones estrictas y limitadas que dejan poco margen para interpretaciones erróneas. Al restringir a un agente a un carril estrecho, los diseñadores de sistemas de ML pueden ayudar a limitar la capacidad de un atacante para engañar al agente para que realice comportamientos no deseados. 

        Las técnicas de endurecimiento rápido incluyen prohibir que el agente divulgue sus instrucciones y hacer que rechace automáticamente cualquier solicitud que quede fuera de su alcance restringido.

        Validación de instrucciones

        La validación de instrucciones compara las instrucciones con las reglas predefinidas antes de pasarlas al agente. También conocida como desinfección de instrucciones o validación de entrada, esta práctica ayuda a aislar a los agentes de los ataques de inyección de instrucciones. Del mismo modo, los resultados deben validarse antes de su uso en caso de que el agente se vea comprometido.

        Entrenamiento adversarial

        El entrenamiento adversarial enseña a los modelos a reconocer posibles ataques mezclando entradas engañosas en los datos de entrenamiento. El entrenamiento adversarial está en desarrollo continuo y aún no se ha convertido en un conjunto estándar de protocolos de entrenamiento.

        Soluciones relacionadas
        Agentes de IA para empresas

        Cree, implemente y gestione poderosos asistentes y agentes de IA que automaticen flujos de trabajo y procesos con IA generativa.

          Explore watsonx Orchestrate
          Soluciones de agentes de IA de IBM

          Construya el futuro de su empresa con soluciones de IA en las que pueda confiar.

          Explorar las soluciones de agentes de IA
          Servicios de IA de IBM Consulting

          Los servicios de IA de IBM Consulting ayudan a reinventar la forma en que las empresas trabajan con IA para la transformación.

          Explorar los servicios de inteligencia artificial
          Dé el siguiente paso

          Ya sea que elija personalizar aplicaciones y habilidades predefinidas o crear y desplegar servicios agénticos personalizados utilizando un estudio de IA, la plataforma IBM watsonx responde a sus necesidades.

          Explore watsonx Orchestrate Explore watsonx.ai