Um guia para proteger soluções de IA generativa

Visão geral

Os sistemas de IA generativa apresentam uma série de desafios de segurança únicos. Além do desafio típico de garantir o acesso a modelos de IA generativa, as organizações devem equilibrar o poder criativo dos grandes modelos de linguagem (LLMs) e de outras tecnologias generativas com o risco de que os modelos gerem resultados incorretos ou indesejáveis, divulguem informações confidenciais ou privadas ou executem ações indesejáveis ou incorretas/não permitidas/ilegais.

Padrões de arquitetura de IA generativa

O OWASP Top 10 em LLMs e aplicativos de IA generativa

O Open Web Application Security Project, OWASP, publicou a versão 1 dos 10 principais riscos e vulnerabilidades para LLMs e aplicações de IA generativa. O diagrama abaixo ilustra essas vulnerabilidades no contexto de uma arquitetura de IA agêntica.

Um mapeamento das 10 principais ameaças de IA generativa do OWASP para uma arquitetura de IA agêntica.

A injeção de prompts ocorre quando um invasor é capaz de inserir conteúdo malicioso nos prompts do LLM. O conteúdo pode variar de prompts/instruções incorporados dentro de um prompt maior, hiperlinks para conteúdo que será lido pelo LLM (por exemplo, "Leia e analise o texto na seguinte URL.", ou outros meios. A injeção de prompts pode permitir que um invasor manipule o modelo para ignorar instruções e/ou fornecer saídas indesejáveis ou incorretas.
A manipulação insegura de saídas ocorre quando as saídas de um LLM não são suficientemente validadas para potencial ou intenção malicioso. Exemplos desse tipo de vulnerabilidade são: um LLM é solicitado a gerar um código Javascript, que é passado para o navegador do usuário para execução, e a execução direta de scripts de shell ou outros códigos de "sistema" gerados por um LLM.
O envenenamento de dados de treinamento ocorre quando um invasor é capaz de modificar ou manipular os dados de treinamento e/ou a configuração de um modelo para introduzir vulnerabilidades em um modelo. Por exemplo, um invasor pode modificar a descrição de um processo de negócios para permitir transferências ilimitadas de dinheiro para um indivíduo específico; ou um concorrente pode modificar os dados de ajuste fino para que o modelo recomende seus produtos em detrimento dos da empresa.
A denial-of-service do modelo ocorre quando um invasor é capaz de manipular um modelo para consumir uma grande quantidade de recursos, resultando em desempenho ruim ou o modelo ficando indisponível para outros usuários. Exemplos de denial-of-service do modelo incluem o envio repetido de prompts que estão logo abaixo do tamanho da janela de contexto do modelo, consumindo grandes quantidades de memória; e o envio de prompts que fazem com que o modelo se expanda recursivamente e processe a janela de contexto (um loop infinito).
As vulnerabilidades da cadeia de suprimentos são as vulnerabilidades típicas associadas ao uso de software de terceiros que podem ter vulnerabilidades desconhecidas que podem ser exploradas por um invasor, bem como vulnerabilidades criadas por modelos que usam dados não verificados e/ou de crowdsourcing em seu processo de treinamento.
A divulgação de informações confidenciais ocorre quando um modelo divulga informações pessoais ou confidenciais. Isso pode ocorrer como consequência de um ataque de injeção de prompts bem-sucedido, por meio do tratamento inseguro de saídas do sistema empresarial ou por meio de prompts maliciosos que manipulam o modelo para produzir saídas confidenciais, como por exemplo, números de cartões de crédito válidos.
O projeto inseguro de plug-ins ocorre quando as ferramentas chamadas diretamente pelos modelos não são projetadas de forma segura; por exemplo, ferramentas executadas como usuário administrativo ou ferramentas que permitem a injeção de prompts por meio de suas saídas.
A agência excessiva ocorre quando um modelo ou agente autônomo tem a capacidade de realizar ações prejudiciais ou não autorizadas em resposta a saídas inesperadas ou ambíguas de um LLM.
O excesso de confiança ocorre quando a saída de um modelo não é verificada quanto à correção em relação a fontes factuais ou controles procedimentais. O exemplo mais comum de excesso de confiança é quando um modelo alucina, e a saída incorreta é aceita como factual, como por exemplo, um chatbot fornecendo uma resposta incorreta a um cliente sobre a política de devolução de uma loja. Mas o excesso de confiança também pode ocorrer com código ou imagens gerados por modelos.
O roubo de modelos ocorre quando um invasor consegue comprometer, roubar fisicamente ou copiar um modelo, seus pesos e/ou seus parâmetros. Uma vez em posse de um modelo, um invasor pode utilizar a valiosa propriedade intelectual incorporada no modelo ou criar uma duplicata do modelo para seu próprio uso.

Proteção de sistemas de IA generativa

A figura abaixo aumenta a arquitetura para mostrar o posicionamento dos componentes de segurança para proteger/mitigar as vulnerabilidades no OWASP Top 10.

Diagrama de arquitetura de uma solução de IA agêntica mostrando a colocação de controles de segurança para proteção contra ameaças à IA.

Um componente de gerenciamento de acesso e identidade (IAM) é adicionado para fornecer identidades e funções de usuário fortes; mitigando o risco de roubo de modelos controlando o acesso à funcionalidade de aplicações e APIs que podem levar ao roubo ou divulgação de modelos.

O controle de acesso e identificação do agente (controle de acesso do agente), que funciona de forma semelhante ao usuário privilegiado, é adicionado para corresponder os direitos de acesso do agente às identidades e funções do usuário, protegendo contra ações excessivas e anormais de agentes como resultado de alucinação ou prompts mal formados ou ambíguos.

Componentes de monitoramento de IA generativa (monitoramento da IA generativa) são adicionados em toda a arquitetura para proteger contra injeção de prompts, tratamento inseguro de saídas, divulgação de dados confidenciais e excesso de confiança. Uma combinação de monitoramento de IA generativa e monitoramento tradicional de vazamento de dados é implementada para proteger contra ataques baseados em prompts/respostas, como por exemplo: um prompt injetado nos resultados de uma SQL query, bem como a divulgação de informações confidenciais que podem aparecer nos resultados de chamadas de APIs, consultas de banco de dados e semelhantes.

Os ataques de preenchimento de dados de treinamento são mitigados com a adição de gerenciamento de configuração e ferramentas de monitoramento, bem como um controle de versão estruturado e processo de liberação em relação ao treinamento do modelo, ajuste fino e dados de configuração.

Por fim, é adicionado um componente integrado de monitoramento de comportamentos e correlação de eventos para identificar possíveis vulnerabilidades e ataques de logs de componentes individuais. Um componente de notificação e alerta é adicionado para notificar os operadores do sistema sobre possíveis problemas, e um componente de orquestração de resposta é adicionado para automatizar e/ou coordenar as respostas manuais e do sistema aos problemas identificados.

Recursos

Arquitetura de IA generativa da IBM

A arquitetura de IA generativa da IBM é a arquitetura completa de IA generativa da IBM no IBM IT Architect Assistant (IIAA), uma ferramenta de desenvolvimento e gerenciamento de arquitetura. Usando o IIAA, os arquitetos podem elaborar e personalizar a arquitetura para criar suas próprias soluções de IA generativa.

Próximas etapas

Fale com nossos especialistas sobre como você pode acelerar a adoção da IA generativa.

Proteção de soluções de IA generativa

Colaboradores

Chris Kirby, Wissam Dib, Manav Gupta

Atualizado em: 31 de janeiro de 2025