O que é envenenamento de dados?

Autores

Staff Writer

IBM Think

Staff Editor

IBM Think

O que é envenenamento de dados?

O envenenamento de dados é um tipo de ataque cibernético em que os agentes de ameaças manipulam ou corrompem os dados de treinamento usados para desenvolver modelos de inteligência artificial (IA) e aprendizado de máquina (ML).

Neural networks, grandes modelos de linguagem (LLMs) e modelos de deep learning dependem da qualidade e integridade dos dados de treinamento, o que, em última análise, determina as funções de um modelo. Esses dados de treinamento podem vir de várias fontes, como a internet, bancos de dados governamentais e provedores de dados de terceiros. Ao injetar pontos de dados incorretos ou com viés (dados envenenados) nesses conjuntos de dados de treinamento, atores mal-intencionados podem alterar sutil ou drasticamente o comportamento de um modelo.

Por exemplo, a manipulação de dados por meio de envenenamento pode levar a classificação incorreta dos dados, o que reduz a eficácia e a precisão dos sistemas de IA e ML. Além disso, esses ataques podem introduzir sérios riscos à cibersegurança, especialmente em setores como saúde e veículos autônomos.

Boletim informativo Think

Sua equipe apanharia o próximo dia zero a tempo?

Junte-se aos líderes de segurança que confiam no boletim informativo Think para receber notícias selecionadas sobre IA, cibersegurança, dados e automação. Aprenda rápido com tutoriais e explicações de especialistas, entregues diretamente em sua caixa de entrada. Consulte a Declaração de privacidade da IBM.

Ataques direcionados versus não direcionados

Os ataques de envenenamento de dados podem ser classificados em duas categorias com base na intenção: direcionados e não direcionados.

Ataques direcionados

Os ataques de envenenamento de dados direcionados manipulam as saídas do modelo de IA de uma maneira específica. Por exemplo, os cibercriminosos podem injetar dados envenenados em um chatbot ou aplicação de IA generativa (gen AI), como o ChatGPT, para alterar suas respostas. Da mesma forma, em um cenário de cibersegurança, um invasor pode inserir dados envenenados em um modelo criado para detectar malware, fazendo com que ele ignore determinadas ameaças.

Ataques direcionados manipulam o comportamento do modelo de forma a beneficiar o invasor, podendo criar novas vulnerabilidades no sistema.

Ataques não direcionados

Os ataques não direcionados têm como foco enfraquecer a robustez geral de um modelo. Em vez de atingir produções específicas, o objetivo é enfraquecer a capacidade do modelo de processar os dados corretamente. Por exemplo, em veículos autônomos, o envenenamento de dados não direcionado pode fazer com que o sistema interprete mal os inputs de seus sensores, confundindo um sinal de "pare" com um sinal de "cedência de passagem". Esses tipos de ataque tornam os modelos de IA mais vulneráveis a ataques adversários, nos quais o invasor tenta explorar pequenas falhas, muitas vezes imperceptíveis, no processo de tomada de decisão do modelo.

Tipos de ataques de envenenamento de dados

Os ataques de envenenamento de dados podem assumir diversas formas, como inversão de rótulos, injeção de dados, ataques de backdoor e ataques com rótulos limpos. Cada tipo afeta aspectos diferentes das funções de um modelo de IA.

Inversão de etiquetas

Em ataques de inversão de rótulos, agentes mal-intencionados manipulam os rótulos nos dados de treinamento, trocando os corretos pelos incorretos. Considere o Nightshade, uma ferramenta de envenenamento de IA desenvolvida na Universidade de Chicago. O Nightshade permite que artistas digitais alterem sutilmente os pixels de suas imagens antes de publicá-las on-line. Quando empresas de IA coletam conjuntos de dados on-line para treinar seus modelos de IA generativa, as imagens alteradas atrapalham o processo de treinamento. Essa manipulação pode levar os modelos de IA a classificar incorretamente ou agir de forma imprevisível, às vezes confundindo imagens de vacas com bolsas de couro.¹

Injeção de dados

A injeção de dados insere pontos de dados fabricados no conjunto de treinamento, geralmente para direcionar o comportamento do modelo de IA em uma direção específica. Um exemplo comum é a injeção de SQL, em que invasores inserem “1=1” ou “=” em um campo de input. Quando inseridos em uma consulta SQL, esses dados maliciosos mudam o significado da consulta, retornando todos os registros em vez de apenas um.²Em modelos de aprendizado de máquina, a inserção de dados também pode interferir na forma como o modelo toma decisões. Isso pode fazer com que o modelo classifique de forma incorreta ou apresente vieses, comprometendo a integridade dos dados e a robustez geral do modelo.

Ataques de backdoor

Os ataques por backdoor são perigosos porque introduzem manipulações sutis, como ruídos de fundo inaudíveis em áudios ou marcas-d'água imperceptíveis em imagens. Isso faz com que o sistema de IA funcione normalmente na maioria das situações. No entanto, ao encontrar um input específico, o modelo passa a agir de forma que favorece o atacante. No caso de modelos open source, em que o acesso aos dados de treinamento e aos algoritmos pode ser menos restrito, esses ataques podem ser especialmente nocivos. A ReversingLabs relatou um aumento superior a 1300% nas ameaças que circularam por repositórios open source entre 2020 e 2023.³

Ataque clean-label

Em ataques clean-label, os invasores modificam os dados de maneiras que são difíceis de detectar. A característica principal é que os dados envenenados ainda aparecem rotulados corretamente, dificultando a identificação pelos métodos tradicionais de validação de dados. Esses ataques usam a complexidade dos sistemas modernos de aprendizado de máquina e deep learning, que podem não sinalizar mudanças pequenas e aparentemente inócuas. Os ataques clean-label estão entre os mais furtivos, deixando os modelos de IA vulneráveis a saídas distorcidas e degradando as funções do modelo.

Envenenamento de dados versus injeções de prompt

Embora o envenenamento de dados e as injeções de prompt afetem fases diferentes do ciclo de vida da IA, ambos têm o mesmo objetivo: explorar vulnerabilidades nos inputs do modelo. O envenenamento de dados altera os conjuntos de treinamento, embedding dados corrompidos ou maliciosos que comprometem o aprendizado e a funcionalidade futura do modelo. Por outro lado, as injeções de prompt se passam por comandos válidos, induzindo sistemas de IA generativa a vazar informações sigilosas, gerar informação falsa ou causar danos maiores.

Exemplos de envenenamento de dados

Envenenamento de dados direcionado: hackers envenenam os dados de treinamento de um modelo de segurança cibernética rotulando amostras de malware como seguras, fazendo com que o modelo ignore ameaças específicas.
Envenenamento de dados não direcionado: agentes maliciosos injetam dados com viés no conjunto de dados de um filtro de spam, reduzindo sua precisão e confiabilidade gerais.

Exemplos de injeções de prompt

Injeção direta de prompt: um hacker incorpora um comando em uma interação do chatbot para contornar as proteções e revelar detalhes confidenciais da conta.
Injeção indireta de prompt: um invasor oculta instruções em uma página da Web que fazem com que um assistente de IA promova links de phishing em sua saída.

Hackers podem aplicar essas estratégias separadamente ou em conjunto para ampliar seu impacto. Por exemplo, alguém interno com acesso aos sistemas da organização poderia, em teoria, envenenar um conjunto de treinamento inserindo dados distorcidos ou com viés, contornando os mecanismos de validação. Posteriormente, o agente interno poderia explorar o sistema comprometido realizando uma injeção de prompt, ativando os dados envenenados e desencadeando comportamentos maliciosos. Isso pode envolver o vazamento de informações sensíveis, a criação de um backdoor para ataques adversários futuros ou o enfraquecimento dos recursos de decisão do sistema.

Impacto do envenenamento de dados nos modelos de IA

O envenenamento de dados pode causar diversos impactos nos modelos de IA e ML, afetando tanto sua segurança quanto o desempenho geral do modelo.

Classificação incorreta e desempenho reduzido

Conjuntos de dados de treinamento envenenados podem levar modelos de aprendizado de máquina a classificar incorretamente os inputs, comprometendo a confiabilidade e as funções dos modelos de IA. Em aplicações voltadas ao consumidor, isso pode gerar recomendações imprecisas que prejudicam a confiança do cliente e sua experiência. No gerenciamento da cadeia de suprimentos, dados manipulados podem provocar previsões erradas, atrasos e erros, afetando o desempenho do modelo e os resultados empresariais. Essas classificações incorretas revelam vulnerabilidades nos dados de treinamento e podem comprometer a robustez geral dos sistemas de IA.

Tomada de decisão com viés e distorcida

O envenenamento de dados também pode aumentar vieses existentes em sistemas de IA. Os invasores podem visar subconjuntos específicos de dados, como um determinado grupo demográfico, para introduzir inputs com viés. Isso pode fazer com que o modelo de IA tenha um desempenho injusto ou impreciso. Por exemplo, modelos de reconhecimento facial treinados com dados enviesados ou envenenados podem identificar incorretamente pessoas de determinados grupos, resultando em desfechos discriminatórios. Esses tipos de ataques
podem prejudicar tanto a justiça quanto a precisão de modelos de ML em várias aplicações, desde decisões de contratação até vigilância por parte da polícia.

Vulnerabilidades de segurança e ameaças de backdoor

O envenenamento de dados pode abrir caminho para ataques mais sofisticados, como os de inversão, em que hackers tentam reconstituir os dados de treinamento do modelo. Depois que o invasor envenena com sucesso os dados de treinamento, ele pode usar essas vulnerabilidades para lançar novos ataques adversários ou acionar comandos por backdoor. Em sistemas voltados a tarefas sensíveis, como diagnósticos médicos ou cibersegurança, esses riscos de segurança podem ser especialmente perigosos.

Mitigação dos riscos de envenenamento de dados

Para se proteger contra ataques de envenenamento de dados, as organizações podem adotar estratégias que garantam a integridade dos conjuntos de treinamento, aumentem a robustez dos modelos e permitam o monitoramento contínuo dos modelos de IA.

Validação e higienização de dados

Uma estratégia de defesa fundamental contra o envenenamento de dados é validar e sanear os dados de treinamento antes do uso. Aplicar processos de validação de dados durante a fase de treinamento ajuda a identificar e remover pontos de dados suspeitos ou corrompidos antes que prejudiquem o modelo. Essa etapa é essencial para evitar a introdução de dados maliciosos em sistemas de IA, especialmente ao utilizar fontes de dados ou modelos de código aberto, nos quais é mais difícil garantir a integridade.

Treinamento adversário e maior robustez

O treinamento adversário é um método proativo de defesa contra o envenenamento de dados e outros tipos de ataques. Ao inserir intencionalmente exemplos adversários nos modelos de treinamento, os desenvolvedores ensinam o modelo a identificar e resistir a dados envenenados, aumentando sua robustez contra manipulações. Para aplicações de alto risco, como veículos autônomos ou segurança em IA, o treinamento adversário é uma etapa essencial para tornar os modelos de IA e ML mais confiáveis e robustos.

Monitoramento contínuo e detecção de anomalias

Após a implementação, os sistemas de IA podem ser monitorados continuamente para identificar comportamentos incomuns que indiquem um ataque de envenenamento de dados.Ferramentas de detecção de anomalias, como algoritmos de reconhecimento de padrões, ajudam as equipes de segurança a identificar discrepâncias em inputs e produções e a reagir rapidamente caso o sistema seja comprometido. A auditoria contínua é especialmente importante para aplicações de IA generativa, como o ChatGPT, onde atualizações em tempo real nos dados de treinamento e no comportamento do modelo são cruciais para evitar usos indevidos. Se uma anomalia for detectada, o modelo pode ser interrompido ou reavaliado para evitar danos maiores.

Controles de acesso e medidas de segurança

Implementar controles de acesso rígidos é outra forma eficaz de combater os riscos de envenenamento de dados. Controlar quem pode modificar conjuntos de dados de treinamento e repositórios diminui o risco de manipulações não autorizadas. Além disso, incluir medidas de segurança como criptografia ajuda a proteger as fontes de dados e os sistemas de IA contra ataques externos. Em ambientes críticos, como prestadores de serviços de saúde e cibersegurança, controles de segurança rigorosos garantem que os modelos de aprendizado de máquina permaneçam seguros e confiáveis.

Custo das violações de dados 2025

Os custos das violações de dados atingiram novo patamar. Receba insights atualizados sobre ameaças à cibersegurança e seus impactos financeiros nas organizações.

Notas de rodapé

¹ What is Nightshade, University of Chicago, 2024.

² SQL Injection, W3 Schools.

³ Key Takeaways from the 2024 State of SSCS Report, ReversingLabs, 16 January 2024.

O que é envenenamento de dados?

Autores

O que é envenenamento de dados?

Sua equipe apanharia o próximo dia zero a tempo?

Ataques direcionados versus não direcionados

Ataques direcionados

Ataques não direcionados

Tipos de ataques de envenenamento de dados

Inversão de etiquetas

Injeção de dados

Ataques de backdoor

Ataque clean-label

Envenenamento de dados versus injeções de prompt

Exemplos de envenenamento de dados

Exemplos de injeções de prompt

Impacto do envenenamento de dados nos modelos de IA

Classificação incorreta e desempenho reduzido

Tomada de decisão com viés e distorcida

Vulnerabilidades de segurança e ameaças de backdoor

Mitigação dos riscos de envenenamento de dados

Validação e higienização de dados

Treinamento adversário e maior robustez

Monitoramento contínuo e detecção de anomalias

Controles de acesso e medidas de segurança

Share

Recursos

Notas de rodapé