Los sistemas de IA generativa presentan una serie de retos de seguridad únicos. Además del reto habitual de garantizar el acceso a los modelos de IA generativa, las organizaciones deben encontrar el equilibrio entre el poder creativo de los modelos de lenguaje grandes (LLM) y otras tecnologías generativas, y el riesgo de que los modelos generen resultados incorrectos o indeseables, revelen información confidencial o privada, o ejecuten acciones indeseables, incorrectas, no permitidas o ilegales.
El Proyecto de Seguridad de Aplicaciones Web Abiertas, OWASP, ha publicado la versión 1 de los 10 principales riesgos y vulnerabilidades para los LLM y las aplicaciones de IA generativa. El siguiente diagrama ilustra estas vulnerabilidades en el contexto de una arquitectura de IA agéntica.
La siguiente figura aumenta la arquitectura para mostrar la ubicación de los componentes de seguridad para mitigar o proteger contra las vulnerabilidades en Los 10 principales de OWASP.
Se añade un componente de gestión de identidades y accesos (IAM) para proporcionar identidades y roles de usuario sólidos, lo que mitiga el riesgo de robo de modelos al controlar el acceso a las funciones de la aplicación y las API que podrían dar lugar al robo o la divulgación de modelos.
La identificación del agente y el control de acceso (Control de acceso del agente), que funciona de manera similar al usuario privilegiado, se agrega para hacer coincidir los derechos de acceso del agente con las identidades y roles del usuario; protegerse contra la agencia excesiva y las acciones anormales de los agentes como resultado de alucinaciones o instrucciones mal formadas o ambiguas.
Se añaden componentes de monitoreo de IA generativa (Monitoreo de la IA generativa) en toda la arquitectura para proteger contra la inyección de instrucciones, el manejo inseguro de los resultados, la divulgación de datos confidenciales y la dependencia excesiva. Se despliega una combinación de monitoreo de IA generativa y monitoreo tradicional de fugas de datos para proteger contra ataques basados en instrucción/respuesta, por ejemplo, una instrucción inyectada en los resultados de una consulta SQL, así como la divulgación de información confidencial que puede aparecer en los resultados de llamadas a API, consultas de bases de datos y similares.
Los ataques de saturación de datos de entrenamiento se mitigan con la incorporación de herramientas de gestión de configuración y monitoreo, así como un proceso estructurado de control de versiones y lanzamiento en torno al entrenamiento del modelo, ajuste y datos de configuración.
Por último, se agrega un componente integrado de monitoreo de comportamiento y correlación de eventos para identificar posibles vulnerabilidades y ataques a partir de registros de componentes individuales. Se añade un componente de notificación y alerta para informar a los operadores del sistema de posibles problemas, y se añade un componente de coordinación de respuestas para automatizar o coordinar las respuestas automáticas y manuales a los problemas identificados.