Testando os limites da IA generativa: como a red teaming expõe vulnerabilidades nos modelos de IA

Autora

Charles Owen-Jackson

Freelance Content Marketing Writer

Com inteligência artificial generativa (IA gen) na linha de frente da segurança da informação, as red teams desempenham um papel essencial na identificação de vulnerabilidades que outros podem ignorar.

Com o custo médio de uma violação de dados atingindo um recorde histórico de US$ 4,88 milhões em 2024, as empresas precisam saber exatamente onde estão suas vulnerabilidades. Dado o ritmo notável em que estão adotando a IA generativa, há uma boa chance de que algumas dessas vulnerabilidades estejam nos próprios modelos de IA — ou nos dados usados para treiná-los.

É aí que entra a red teaming específica para IA. É uma forma de testar a resiliência dos sistemas de IA em relação a cenários dinâmicos de ameaças. Isso envolve a simulação de cenários de ataque do mundo real para testar os sistemas de IA antes e depois de serem implementados no ambiente de produção. A red teaming tornou-se de vital importância para garantir que as organizações possam desfrutar dos benefícios da IA generativa sem adicionar riscos.

O serviço X-Force Red Offensive Security da IBM segue um processo iterativo com testes contínuos para lidar com vulnerabilidades em quatro áreas principais:

Segurança dos modelos e testes de proteção
Testes de aplicações de IA generativa
Teste de segurança da plataforma de IA
Teste de segurança de pipeline do MLSecOps

Neste artigo, vamos nos concentrar em três tipos de ataques adversários que têm como alvo modelos de IA e dados de treinamento.

Injeção de prompts

A maioria dos modelos de IA generativa amplamente utilizados tem proteções incorporadas para mitigar o risco de produzirem conteúdo prejudicial. Por exemplo, em circunstâncias normais, você não pode pedir ao ChatGPT ou ao Copilot para escrever código malicioso. No entanto, métodos como ataques de injeção de prompt e jailbreaking podem tornar possível contornar essas proteções.

Um dos objetivos da red teaming de IA é fazer deliberadamente com que a IA se “comporte mal” — assim como os invasores fazem. O jailbreak é um desses métodos que envolve prompts criativos para fazer com que um modelo subverta seus filtros de segurança. No entanto, embora o jailbreak possa teoricamente ajudar um usuário a realizar um crime real, a maioria dos agentes maliciosos usa outros vetores de ataque, simplesmente porque são muito mais eficazes.

Os ataques de injeção de prompts são muito mais graves. Em vez de atingir os próprios modelos, eles visam toda a cadeia de suprimentos por meio de ofuscação de instruções maliciosas em prompts que, de outra forma, pareceriam inofensivos. Por exemplo, um invasor pode usar injeção de prompts para fazer com que um modelo de IA revele informações confidenciais, como uma chave de API, o que pode dar a ele acesso backdoor a qualquer outro sistema conectado a ele.

As red teams também podem simular ataques de evasão, um tipo de ataque adversário no qual um invasor modifica sutilmente as entradas para enganar um modelo para classificar ou interpretar incorretamente uma instrução. Essas modificações geralmente são imperceptíveis para os humanos. No entanto, eles ainda podem manipular um modelo de IA para que tome uma ação indesejada. Por exemplo, isso pode incluir a alteração de um único pixel em uma imagem de entrada para enganar o classificador de um modelo de visão computacional, como o destinado ao uso em um veículo autônomo.

Explore os serviços de segurança ofensiva X-Force Red

Boletim informativo do setor

As mais recentes notícias de tecnologia, corroboradas por insights de especialistas.

Mantenha-se atualizado sobre as tendências mais importantes (e intrigantes) do setor em IA, automação, dados e muito mais com o boletim informativo Think. Consulte a Declaração de privacidade da IBM.

Envenenamento de dados

Os invasores também visam modelos de IA durante o treinamento e o desenvolvimento, portanto, é essencial que as red teams simulem os mesmos ataques para identificar riscos que possam comprometer todo o projeto. Um ataque de envenenamento de dados acontece quando um adversário introduz dados maliciosos no conjunto de treinamento, corrompendo o processo de aprendizado e embedding de vulnerabilidades no próprio modelo. O resultado é que todo o modelo se torna um possível ponto de entrada para novos ataques. Se os dados de treinamento estiverem comprometidos, geralmente é necessário treinar novamente o modelo do zero. Essa é uma operação altamente intensiva em recursos e demorada.

O envolvimento das red teams é vital desde o início do processo de desenvolvimento do modelo de IA, para mitigar o risco de envenenamento de dados. As red teams simulam ataques de envenenamento de dados do mundo real em uma área de testes segura, isolada dos sistemas de produção existentes. Isso fornece insights sobre a vulnerabilidade do modelo ao envenenamento de dados e como agentes da ameaça reais podem se infiltrar ou comprometer o processo de treinamento.

As red teams de IA também podem identificar pontos fracos nos pipelines de coleta de dados de forma proativa. Os grandes modelos de linguagem (LLMs) geralmente extraem dados de um grande número de fontes diferentes. O ChatGPT, por exemplo, foi treinado com um vasto corpus de dados de texto de milhões de sites, livros e outras fontes. Ao desenvolver um LLM proprietário, é crucial que as organizações saibam exatamente de onde estão obtendo seus dados de treinamento e como eles são examinados quanto à qualidade. Embora isso seja mais um trabalho para auditores de segurança e revisores de processos, as red teams podem usar testes de penetração para avaliar a capacidade de um modelo de resistir a falhas em seu pipeline de coleta de dados.

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Veja todos os episódios de Mixture of Experts

Inversão de modelos

Os modelos de IA proprietários geralmente são treinados, pelo menos parcialmente, com os dados da própria organização. Por exemplo, um LLM implementado no atendimento ao cliente pode usar os dados dos clientes da empresa para treinamento, de modo que possa fornecer as saídas mais relevantes. O ideal é que os modelos só sejam treinados com base em dados anônimos que todos possam ver. Mesmo assim, no entanto, violações de privacidade ainda podem ser um risco devido a ataques de inversão de modelo e ataques de inferência de associação.

Mesmo após a implementação, os modelos de IA generativa podem reter vestígios dos dados com os quais foram treinados. Por exemplo, a equipe do laboratório de pesquisa de IA DeepMind do Google conseguiu com sucesso enganar o ChatGPT para vazar dados de treinamento usando um prompt simples. Ataques de inversão de modelo podem, portanto, permitir que atores maliciosos reconstruam dados de treinamento, potencialmente revelando informações confidenciais no processo.

Os ataques de inferência de associação funcionam de maneira semelhante. Nesse caso, um adversário tenta prever se um determinado ponto de dados foi usado para treinar o modelo por meio de inferência com a ajuda de outro modelo. Este é um método mais sofisticado, no qual um atacante treina primeiro um modelo separado, conhecido como modelo de inferência de associação, com base na saída do modelo que está atacando.

Por exemplo, digamos que um modelo tenha sido treinado com históricos de compra de clientes para fornecer recomendações personalizadas de produtos. Um invasor pode então criar um modelo de inferência de associação e comparar suas saídas com as do modelo-alvo para inferir informações potencialmente confidenciais que podem ser usadas em um ataque direcionado.

Em ambos os casos, as red teams podem avaliar os modelos de IA quanto à sua capacidade de vazar inadvertidamente informações confidenciais direta ou indiretamente por meio de inferência. Isso pode ajudar a identificar vulnerabilidades nos próprios fluxos de trabalho de dados de treinamento, como dados que não foram suficientemente anonimizados de acordo com as políticas de privacidade da organização.

Construindo confiança com IA

Criar confiança na IA exige uma estratégia proativa, e a red teaming de IA desempenha um papel fundamental. Empregando métodos como treinamento de adversários e ataques de inversão de modelo simulados, as red teams podem identificar vulnerabilidades que outros analistas de segurança provavelmente não detectarão.

Essas descobertas podem ajudar os desenvolvedores de IA a priorizar e implementar salvaguardas proativas para evitar que agentes de ameaças explorem as mesmas vulnerabilidades. Para as empresas, o resultado é um risco de segurança reduzido e uma maior confiança nos modelos de IA, que estão rapidamente se tornando profundamente enraizados em muitos sistemas críticos para os negócios.

Testando os limites da IA generativa: como a red teaming expõe as vulnerabilidades nos modelos de IA