Os sistemas de IA generativa apresentam uma série de desafios de segurança únicos. Além do desafio típico de garantir o acesso a modelos de IA generativa, as organizações devem equilibrar o poder criativo dos grandes modelos de linguagem (LLMs) e de outras tecnologias generativas com o risco de que os modelos gerem resultados incorretos ou indesejáveis, divulguem informações confidenciais ou privadas ou executem ações indesejáveis ou incorretas/não permitidas/ilegais.
O Open Web Application Security Project, OWASP, publicou a versão 1 dos 10 principais riscos e vulnerabilidades para LLMs e aplicações de IA generativa. O diagrama abaixo ilustra essas vulnerabilidades no contexto de uma arquitetura de IA agêntica.
A figura abaixo aumenta a arquitetura para mostrar o posicionamento dos componentes de segurança para proteger/mitigar as vulnerabilidades no OWASP Top 10.
Um componente de gerenciamento de acesso e identidade (IAM) é adicionado para fornecer identidades e funções de usuário fortes; mitigando o risco de roubo de modelos controlando o acesso à funcionalidade de aplicações e APIs que podem levar ao roubo ou divulgação de modelos.
O controle de acesso e identificação do agente (controle de acesso do agente), que funciona de forma semelhante ao usuário privilegiado, é adicionado para corresponder os direitos de acesso do agente às identidades e funções do usuário, protegendo contra ações excessivas e anormais de agentes como resultado de alucinação ou prompts mal formados ou ambíguos.
Componentes de monitoramento de IA generativa (monitoramento da IA generativa) são adicionados em toda a arquitetura para proteger contra injeção de prompts, tratamento inseguro de saídas, divulgação de dados confidenciais e excesso de confiança. Uma combinação de monitoramento de IA generativa e monitoramento tradicional de vazamento de dados é implementada para proteger contra ataques baseados em prompts/respostas, como por exemplo: um prompt injetado nos resultados de uma SQL query, bem como a divulgação de informações confidenciais que podem aparecer nos resultados de chamadas de APIs, consultas de banco de dados e semelhantes.
Os ataques de preenchimento de dados de treinamento são mitigados com a adição de gerenciamento de configuração e ferramentas de monitoramento, bem como um controle de versão estruturado e processo de liberação em relação ao treinamento do modelo, ajuste fino e dados de configuração.
Por fim, é adicionado um componente integrado de monitoramento de comportamentos e correlação de eventos para identificar possíveis vulnerabilidades e ataques de logs de componentes individuais. Um componente de notificação e alerta é adicionado para notificar os operadores do sistema sobre possíveis problemas, e um componente de orquestração de resposta é adicionado para automatizar e/ou coordenar as respostas manuais e do sistema aos problemas identificados.