O que é segurança de agentes de IA?

Autores

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

A segurança de agentes de IA é a prática de proteger contra os riscos do uso de agentes de IA e ameaças às aplicações agênticas. Isso envolve a segurança dos próprios agentes e dos sistemas com os quais eles interagem, ajudando a garantir que operem conforme o esperado sem serem explorados para fins prejudiciais.

Agentes são sistemas de IA projetados para funcionar de forma autônoma, planejando, tomando decisões e acionando ferramentas externas. É crítico proteger contra ataques cibernéticos externos e ações não intencionais adotadas pelos agentes. Como a IA agêntica é um campo em rápido desenvolvimento, o cenário de ameaças está evoluindo em tempo real junto com a tecnologia. 

Uma funcionalidade definidora dos agentes de IA é a capacidade de realizar chamadas de ferramentas, na qual eles se conectam a uma API, banco de dados, site ou outra ferramenta e as utilizam quando necessário. A chamada de ferramentas é normalmente orquestrada por meio de frameworks de agentes de IA e APIs. 

Em teoria, os agentes usam ferramentas para aumentar seus próprios recursos no planejamento e conclusão de tarefas complexas. Por exemplo, um agente de atendimento ao cliente pode interagir com um cliente e, em seguida, conectar-se a um banco de dados interno para acessar o histórico de compras desse cliente. 

Os sistemas multiagentes levam as coisas um passo adiante, ao combinar vários agentes para delegar tarefas complexas em partes menores. Um agente de planejamento central gerencia o fluxo de trabalho agêntico, enquanto os agentes trabalhadores concluem as partes atribuídas da tarefa. 

A tomada de decisão de IA autônoma e a chamada de ferramentas se combinam para apresentar uma ampla superfície de ataque em duas frentes. Os hackers podem manipular o comportamento do agente e fazer com que ele use ferramentas incorretas ou ataque a própria ferramenta por meio de vetores mais tradicionais, como injeção de SQL. A segurança de agentes de IA busca proteger os sistemas de IA agêntica contra ambos os tipos de ameaças. 

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

O cenário de ameaças da IA agêntica

Os sistemas de IA agêntica oferecem uma gama maior de vulnerabilidades quando comparados a modelos de IA autônomos, como grandes modelos de linguagem (LLMs) ou aplicações de software tradicionais. Mesmo sem a presença de um invasor, os próprios agentes podem apresentar riscos de segurança quando não são devidamente gerenciados e mantidos com proteções, permissões e controles de acesso claros. 

O cenário de ameaças de agentes de IA abrange: 

  • Superfície de ataque expandida

  • Ações autônomas com rapidez 

  • Inferência imprevisível 

  • Falta de transparência

    Agentes de IA

    Cinco tipos de agentes de IA: funções autônomas e aplicações no mundo real

    Saiba como a IA orientada por objetivos e baseada em utilidade se adapta a fluxos de trabalho e ambientes complexos.

    Superfície de ataque expandida

    Os agentes geralmente são incorporados a sistemas maiores que incluem APIs, bancos de dados, sistemas baseados em nuvem e até mesmo outros agentes (sistemas multiagentes). Cada elemento do sistema agêntico apresenta seu próprio pacote de vulnerabilidades. Os invasores têm uma variedade de ferramentas e explorações à disposição para atingir possíveis pontos fracos no fluxo de trabalho agêntico.

    Ações autônomas com rapidez

    Automação agêntica significa que os agentes agem sem receber instruções explícitas de um usuário humano. Os agentes podem agir rapidamente, podendo interagir com outros agentes que também estão fazendo a mesma coisa ao mesmo tempo. Cada uma dessas ações e saídas do agente apresenta uma oportunidade de ataque e um vetor de amplificação caso um invasor consiga comprometer um agente ou todo um sistema agêntico.

    Inferência imprevisível

    Inferência é o processo pelo qual os LLMs e outros modelos de IA generativa, incluindo os agentes, tomam decisões. Em resumo, eles usam modelagem estatística para “inferir” a saída mais provável de qualquer entrada. Como a inferência é probabilística, os resultados do modelo não podem ser totalmente previstos, o que introduz incerteza no comportamento dos agentes. 

    Dessa forma, os provedores de cibersegurança não podem prever perfeitamente o que um agente fará. Essa imprevisibilidade complica a natureza da mitigação das ameaças dos agentes em comparação com as técnicas tradicionais de cibersegurança.

    Falta de transparência

    Muitos modelos de IA, como os modelos GPT da OpenAI e Claude da Anthropic, não são de código aberto. Não é possível “olhar para dentro” do modelo e descobrir como ele toma suas decisões. E, mesmo os modelos de código aberto, não oferecem total transparência, dada a natureza inerentemente complexa e opaca de como os modelos chegam às saídas. 

    A equipe de cibersegurança que trabalha com sistemas agênticos pode ter mais dificuldade em conduzir a análise de causa raiz e formular planos de resposta a incidentes.

    Vulnerabilidades da IA agêntica

    A natureza multifacetada do cenário de ameaças agênticas introduz uma série de vulnerabilidades que os invasores podem explorar. 

    As vulnerabilidades de segurança dos agentes de IA incluem: 

    • Injeção de prompts 

    • Manipulação de ferramentas e APIs 

    • Envenenamento de dados 

    • Envenenamento de memória 

    • Comprometimento de privilégios 

    • Spoofing de autenticação e controle de acesso 

    • Ataques de execução remota de código (RCE) 

    • Falhas em cascata e sobrecarga de recursos

      Injeção de prompts

      A injeção de prompts é uma das vulnerabilidades mais graves de qualquer grande modelos de linguagem (LLM), não apenas de agentes de IA. Porém, com os agentes, o risco é ampliado porque os agentes podem realizar ações autônomas. Em um ataque de injeção de prompts, o invasor alimenta entradas adversárias no LLM, que o instruem a se comportar de maneira não intencional. O agente pode ser instruído a ignorar as diretrizes de segurança e ética, enviar e-mails de phishing, vazar dados ou abusar de ferramentas. 

      Um ataque indireto de injeção de prompts oculta o prompt malicioso na fonte de dados do agente em vez de alimentá-lo diretamente com o modelo. Quando o agente solicita a fonte de dados, como um site externo, o prompt malicioso é entregue ao modelo. Agentes multimodais capazes de lidar com vários tipos de dados são especialmente vulneráveis a esse tipo de ataque. Cada forma de dado que o agente pode processar é um vetor de ataque em potencial.

      Manipulação de objetivos versus sequestro de agentes

      A manipulação de objetivos e o sequestro de agente geralmente são os resultados desejados para ataques de injeção de prompts. Com a manipulação de objetivos, os invasores ajustam a forma como um agente aborda tarefas e toma decisões, alterando seus objetivos ou processos de pensamento. O sequestro de agente é um ataque em que um invasor coage um agente a realizar ações não intencionais, como acessar dados confidenciais

      Manipulação de ferramentas e APIs

      A IA agêntica é conhecida por sua capacidade de usar ferramentas e se conectar a APIs. Mas esse mesmo recurso também é uma vulnerabilidade. Muitas vezes, por meio de injeção de prompts, os invasores enganam um agente para que faça uso indevido das ferramentas às quais está conectado. 

      O uso indevido de ferramentas pode resultar em vazamentos de dados nos quais o agente exfiltra dados confidenciais do usuário para o invasor, ou ataques de DDoS (distributed denial-of-service), onde o agente usa suas conexões externas como armas. Nesse ataque, o agente coordena uma enxurrada de solicitações de conexão para a rede de destino, sobrecarregando-a e forçando um desligamento.

      Envenenamento de dados

      O envenenamento de dados é a introdução de dados maliciosos no conjunto de dados de treinamento ou em fontes de dados externas de um agente. Os dados determinam como um agente aprende, raciocina e se comporta. A corrupção de seus dados de treinamento ou entradas de dados pode resultar em um comportamento não intencional, como vazamento de dados. 

      Por exemplo, um agente de programação pode chamar uma biblioteca de código externa para referência. O slopsquatting (uma junção de "IA slop" e "typo Squatting") ocorre quando alguém registra deliberadamente o nome de uma biblioteca de código semelhante ao de uma biblioteca legítima. A intenção é que o modelo extraia acidentalmente um subconjunto de código da biblioteca falsa e o adicione ao código gerado. 

      Juntamente com o uso indevido de ferramentas, o envenenamento de dados é um componente da invasão da cadeia de suprimentos: onde um invasor se infiltra e corrompe o sistema ao redor de um agente de IA.

      Envenenamento de memória

      O envenenamento de memória é a corrupção da memória persistente de um agente: os dados que ele retém que o mantêm informado sobre o que ele esteve fazendo recentemente. Os ataques de envenenamento de memória visam moldar o comportamento futuro do agente, alterando seu entendimento sobre ações anteriores.

      Comprometimento de privilégios

      Um agente situado no centro de um fluxo de trabalho automatizado tem permissões de sistema que permitem acessar os dados e ferramentas necessários para as tarefas atribuídas. Se os agentes não forem monitorados, poderão manter ou receber permissões excessivas além do que necessitam. 

      Se esses privilégios não forem removidos quando o agente não precisar mais deles, não estarão mais agregando valor, mas ainda serão um vetor de ataque em potencial. Os invasores podem explorar as permissões de um agente para enviar mensagens, executar transações, conceder a si mesmo mais permissões, alterar sistemas, ler dados confidenciais e muito mais.

      Spoofing de autenticação e controle de acesso

      Se os invasores conseguirem roubar as credenciais do agente, poderão se passar por esse agente para comprometer os sistemas aos quais o agente tem acesso. A falsificação da identidade do agente dá aos invasores as mesmas permissões que o agente: qualquer coisa que o agente possa fazer, o usuário não autorizado também poderá fazer. 

      Protocolos de autenticação fracos se combinam com aprendizado de máquina para produzir movimento lateral: quando os invasores se movem mais profundamente em uma rede após uma violação inicial. O movimento lateral abre a porta para a exfiltração de dados, ataques de phishing, distribuição de malware e muito mais. Os invasores também podem ajustar a maneira como o agente se comporta para alterar suas ações futuras.

      Ataques de execução remota de código (RCE)

      A execução remota de código (RCE) é um tipo de ataque cibernético no qual um invasor injeta um código malicioso em um sistema a partir de um local diferente. Com os agentes, os invasores podem fazer com que o agente execute códigos maliciosos que dão ao invasor acesso ao ambiente de execução do código. Um exemplo comum do mundo real envolve um invasor que extrai credenciais de usuário do sistema host de um agente comprometido.

      Falhas em cascata e sobrecarga de recursos

      As falhas em cascata e a sobrecarga de recursos resultam na sobrecarregamento do sistema agêntico. Em um sistema multiagentes, as falhas em cascata ocorrem quando a saída de um agente comprometido afeta negativamente o próximo agente na rede, até que todo o sistema esteja inativo. 

      A sobrecarga de recursos é semelhante a um ataque de DDoS contra um agente: os invasores sobrecarregam o agente com solicitações que excedem sua taxa de transferência, possivelmente interrompendo completamente o tempo de execução. Do ponto de vista do usuário final, a aplicação alimentada pelo agente parece estar inoperante.

      Medidas de segurança de agentes de IA

      Apesar do amplo e variado cenário de ameaças, os sistemas de IA agêntica podem ser protegidos com contramedidas eficazes e proteções de IA. Adotar uma postura de segurança proativa e seguir as melhores práticas atuais para gerenciamento de vulnerabilidades pode ajudar os profissionais de ML e de cibersegurança a proteger os agentes de IA e a se manter à frente dos cibercriminosos empresariais. 

      As melhores práticas de segurança de agentes de IA incluem: 

      • Arquitetura zero trust 

      • O princípio do menor privilégio 

      • Autenticação com base no contexto

      • Criptografia de dados 

      • Microssegmentação 

      • Proteção de prompts 

      • Validação de prompts 

        Arquitetura zero trust

        A arquitetura Zero trust (ZTA) é uma abordagem à cibersegurança que pressupõe que nenhum dispositivo em uma rede é confiável por padrão. Em vez disso, cada solicitação de acesso à rede deve ser autenticada e autorizada antes de prosseguir. O monitoramento contínuo e a autenticação multifator (MFA) ajudam a proteger contra ameaças. 

        Imagine a rede como um site e uma solicitação de acesso como um usuário desse site. Com o ZTA, não há opção na tela de login para marcar uma caixa e fazer com que o site "lembre de mim na próxima vez". O usuário deve digitar sua senha (e cumprir outros desafios de MFA) toda vez que quiser fazer login. 

        Ao optar por “nunca confiar, sempre verificar”, o ZTA reduz a capacidade de movimento lateral de um invasor, reduzindo a superfície de ataque e ganhando mais tempo para a segurança responder.

        O princípio de privilégios mínimos

        O princípio de privilégios mínimos afirma que cada dispositivo ou agente em uma rede deve ter as menores permissões possíveis necessárias para suas responsabilidades. É equivalente a colocar todos e tudo em uma base estritamente de "necessidade de conhecimento". O controle de acesso baseado em função (RBAC) e o controle de acesso baseado em atributo (ABAC) são dois métodos para manter os níveis de privilégios e aumentar a segurança de dados.

        Autenticação com base no contexto

        A autenticação com base no contexto permite que os agentes recuperem dados somente se o usuário tiver permissão para acessá-los. As permissões de acesso podem ser ajustadas dinamicamente de acordo com a função do agente, as permissões ou até mesmo o horário do dia. 

        Criptografia de dados

        Além de minimizar o acesso com o princípio de privilégios mínimos, os dados podem ser protegidos ainda mais contra agentes comprometidos por meio de criptografia. Os dados em trânsito e em repouso devem ser criptografados com criptografia AES-256 ou semelhante. Os dados que contêm informações confidenciais, como informação de identificação pessoal (PII), também devem ser anonimizados para proteger ainda mais funcionários e clientes.

        Microssegmentação

        A microssegmentação é a prática de projeto de dividir redes e ambientes em segmentos individuais. Quando os agentes puderem executar código, eles devem fazê-lo em ambientes isolados, para evitar movimento lateral. Controles rigorosos de tempo de execução fortalecem ainda mais o ambiente para conter o agente na área de testes.

        Proteção de prompts

        A proteção de prompts é a prática de segurança de IA de dar aos LLMs instruções rigorosas e limitadas, que deixam pouco espaço para interpretações errôneas. Ao restringir um agente a uma faixa estreita, os projetistas de sistemas de ML podem ajudar a limitar a capacidade de um invasor de induzir o agente a realizar comportamentos não intencionais. 

        As técnicas de proteção de prompts incluem a não permissão do agente para divulgar suas instruções e fazer com que ele recuse automaticamente quaisquer solicitações que estejam fora de seu escopo restrito.

        Validação de prompts

        A validação de prompts verifica os prompts em relação às regras predefinidas antes de serem transmitidas ao agente. Também conhecida como limpeza de prompts ou validação de entrada, essa prática ajuda a isolar os agentes dos ataques de injeção de prompts. Da mesma forma, as saídas devem ser validadas antes do uso, caso o agente esteja comprometido.

        Treinamento adversário

        O treinamento adversário ensina os modelos a reconhecer possíveis ataques misturando entradas enganosas aos dados de treinamento. O treinamento adversário está em desenvolvimento contínuo e ainda não se tornou um conjunto padrão de protocolos de treinamento.

        Soluções relacionadas
        Agentes de IA para empresas

        Crie, implemente e gerencie assistentes e agentes de IA potentes que automatizam fluxos de trabalho e processos com a IA generativa.

          Explore o watsonx Orchestrate
          Soluções de agentes de IA da IBM

          Construa o futuro do seu negócio com soluções de IA em que você pode confiar.

          Explore soluções de agentes de IA
          Serviços de IA do IBM® Consulting

          Os serviços de IA da IBM Consulting ajudam a reinventar a forma como as empresas trabalham com IA para gerar transformação.

          Explore os serviços de inteligência artificial
          Dê o próximo passo

          Se você optar por personalizar aplicativos e habilidades criados previamente ou criar e implementar serviços agênticos personalizados usando um estúdio de IA, a plataforma IBM watsonx tem aquilo de que você precisa.

          Explore o watsonx Orchestrate Explore o watsonx.ai