O que é aprendizado de máquina adversarial?

Autores

Staff Writer

IBM Think

Aprendizado de máquina adversarial, definido

O aprendizado de máquina adversarial é a arte de enganar sistemas de IA. O termo se refere tanto a agentes de ameaça que exploram essas técnicas de forma maliciosa quanto a pesquisadores bem-intencionados que buscam expor vulnerabilidades para, em última instância, aumentar a robustez dos modelos.

Esse campo apresenta novos desafios para a segurança cibernética devido à complexidade dos modelos de aprendizado de máquina e à ampla variedade de suas superfícies de ataque — incluindo, muitas vezes, o mundo físico.

Um exemplo do mundo real

Para começar a ilustrar como diferentes ataques de aprendizado de máquina adversarial podem diferir das ameaças tradicionais de segurança cibernética, considere um exemplo do universo dos veículos autônomos. Veículos autônomos são conduzidos por sistemas complexos de IA que recebem dados de sensores e, a partir deles, realizam classificações que determinam o comportamento do veículo. Por exemplo, quando um veículo autônomo se aproxima de uma placa de PARE, seus algoritmos de aprendizado de máquina a identificam e fazem o veículo parar com segurança.

O problema é que os sistemas de aprendizado de máquina que aprenderam a classificar placas de PARE utilizam critérios diferentes daqueles da mente humana. Isso, por sua vez, cria uma vulnerabilidade inquietante, como demonstraram pesquisadores de várias universidades em 2017.¹ Ao fazer apenas alterações sutis, porém estratégicas, nas placas de PARE (como a adição de alguns pequenos adesivos aparentemente inofensivos, que a maioria dos humanos simplesmente ignoraria) os pesquisadores conseguiram enganar modelos de IA do tipo usado por veículos autônomos, levando-os a classificar erroneamente placas de PARE como placas de “Limite de velocidade: 72 km/h”. Um policial humano que passasse pelo local provavelmente não perceberia a sabotagem, mas, para um sistema de IA, apenas alguns adesivos discretos foram suficientes para transformar uma placa de PARE em uma placa de “siga em frente”.

Desnecessário dizer que, se hackers mal-intencionados tivessem descoberto essa vulnerabilidade primeiro, danos no mundo real — como mortes no trânsito — poderiam facilmente ter ocorrido.

Boletim informativo Think

Sua equipe apanharia o próximo dia zero a tempo?

Junte-se aos líderes de segurança que confiam no boletim informativo Think para receber notícias selecionadas sobre IA, cibersegurança, dados e automação. Aprenda rápido com tutoriais e explicações de especialistas, entregues diretamente em sua caixa de entrada. Consulte a Declaração de privacidade da IBM.

Tipos de ataques adversariais

O aprendizado de máquina adversarial é a arte de enganar sistemas de IA.

Ataques de evasão

Os ataques de evasão — como o truque da placa de PARE descrito — referem-se a situações em que hackers alteram dados processados por um sistema de IA, criando os chamados “exemplos adversariais”, que enganam classificadores de IA. Esses ataques recebem esse nome porque os dados ou estímulos alterados conseguem contornar a percepção normal de um modelo de IA. Além do exemplo expressivo dos veículos autônomos, pesquisadores conseguiram criar formas quase imperceptíveis de ruído visual — chamadas de “perturbações adversariais” — que podem ser sobrepostas aos dados para enganar a inteligência artificial. Em um exemplo bem conhecido de 2015, pesquisadores do Google conseguiram adicionar apenas uma pequena quantidade de ruído visual a uma imagem de um panda, fazendo com que um modelo de visão computacional tivesse certeza de que a imagem representava um gibão. Na verdade, a IA ficou ainda mais confiante em sua classificação incorreta como “gibão” do que havia estado em sua classificação correta como “panda”.² (A arte obscura de projetar de forma eficiente padrões de ruído que enganam um modelo é descrita na seção “Métodos conhecidos de ataques de evasão”, abaixo.)

Um subtipo importante de ataques de evasão são os ataques de malware, nos quais os invasores conseguem contornar sistemas de detecção projetados para identificar vírus de computador. Os atacantes fazem isso de diversas maneiras, mas geralmente empregam artifícios para fazer com que seu malware pareça código inofensivo; em alguns casos, utilizam a própria IA para otimizar esse processo. Em um exemplo, pesquisadores desenvolveram um bot capaz de camuflar automaticamente um malware ao longo de muitos testes, enganando 20 sistemas de detecção de malware em 98% das tentativas.³

Ataques de envenenamento de dados

Os ataques de envenenamento de dados ocorrem em uma etapa diferente e mais precoce do ciclo de vida de um modelo de IA, especificamente durante a fase de treinamento. As redes neurais profundas dependem de grandes volumes de dados de treinamento para aprender padrões úteis. Em um ataque de envenenamento de dados, um agente malicioso pode corromper o conjunto de dados original de treinamento, introduzindo dados que fazem com que o modelo treinado resultante se comporte de maneira disfuncional.

Um exemplo explora o fato de que muitos modelos de IA utilizam dados coletados após a implementação para treinar iterativamente a próxima versão do modelo. Aproveitando-se desse princípio, trolls no Twitter bombardearam, em 2016, um chatbot da Microsoft chamado Tay com conteúdo ofensivo, levando-o gradualmente a publicar mensagens de ódio por conta própria.

Outro exemplo, desenvolvido na Universidade de Chicago, busca capacitar artistas a punir empresas inescrupulosas que possam usar imagens protegidas por direitos autorais para treinar seus modelos sem o consentimento dos artistas. O projeto, chamado Nightshade, foi “projetado como uma ferramenta ofensiva para distorcer representações de atributos dentro de modelos generativos de IA para imagens”, segundo seus criadores.⁴ Se um artista aplicar o Nightshade sobre suas imagens e, posteriormente, um modelo de IA utilizar essas imagens, o modelo pode aprender gradualmente rótulos incorretos para determinados objetos — por exemplo, passando a visualizar vacas como bolsas de couro.

Ataques à privacidade

Os ataques de privacidade exploram particularidades dos sistemas de IA para inferir ou extrair indiretamente informações sensíveis que fizeram parte de seus conjuntos de dados de treinamento. Em teoria, modelos de aprendizado de máquina não deveriam “memorizar” os dados com os quais são treinados — eles extraem padrões úteis a partir de conjuntos de dados e não retêm os dados em si, como faria um disco rígido. Na prática, porém, a “memória” da IA é mais complexa. Pesquisadores observaram que, em certos aspectos, os modelos parecem de fato “lembrar” seus dados de treinamento. Em particular, sistemas de aprendizado de máquina frequentemente demonstram níveis mais altos de confiança em suas previsões quando essas previsões se relacionam a pontos de dados que o modelo viu durante o treinamento. (Embora chatbots voltados ao consumidor, como o ChatGPT, não exibam pontuações de confiança, esses valores geralmente estão acessíveis por meio de APIs para desenvolvedores ou ferramentas de pesquisa.)

Em um método de ataque à privacidade conhecido como inferência de pertencimento, um invasor pode conseguir inferir informações sensíveis sobre uma pessoa — por exemplo, se ela foi paciente de uma instituição psiquiátrica. Desde que o invasor possua alguns dados sobre um determinado indivíduo (talvez um prontuário médico parcial), ele pode consultar um modelo que se saiba ter sido treinado com conjuntos de dados sensíveis (por exemplo, registros de instituições psiquiátricas). Ao observar as pontuações de confiança retornadas pelo modelo, o invasor pode inferir que seu alvo de fato fazia parte do grupo utilizado para treinar o modelo.

Um ataque de inversão de modelo vai além, permitindo essencialmente que um adversário faça engenharia reversa dos dados reais que treinaram o modelo. O invasor pode fazer isso utilizando técnicas de força bruta, usando iterativamente as pontuações de confiança retornadas pelo modelo como orientação sobre como moldar dados aleatórios e ruidosos até que passem a se assemelhar aos dados reais de treinamento do modelo. Por exemplo, em 2015, pesquisadores acadêmicos conseguiram explorar as pontuações de confiança de um modelo de reconhecimento facial para reconstruir imagens que se aproximavam dos rostos reais usados para treinar o modelo. Eles fizeram isso começando com uma imagem composta apenas de ruído e, em seguida, ajustando-a iterativamente, usando as pontuações de confiança da saída do modelo para orientar cada novo ajuste.⁵

Ataques de extração de modelos

Em um ataque de extração de modelo (às vezes chamado simplesmente de “roubo de modelo”), o objetivo do invasor é, na prática, “clonar” um determinado modelo. As motivações para esse tipo de ataque podem variar: o invasor pode simplesmente querer evitar o pagamento por consulta ao modelo original ou pode desejar usar o clone para refinar, de forma furtiva, ataques direcionados que funcionem bem contra o modelo original.

Os métodos da maioria dos ataques de extração de modelo são relativamente simples: o invasor envia sistematicamente entradas cuidadosamente escolhidas ao modelo e registra as saídas. Se as entradas forem selecionadas de maneira estratégica, em alguns casos um conjunto de dados com apenas milhares ou dezenas de milhares de pares de entrada e saída pode ser suficiente para replicar o modelo ou, ao menos, algum aspecto dele. Por exemplo, um artigo de 2023 sobre “sanguessuga de modelo” demonstrou como esse tipo de ataque poderia ser usado para extrair conhecimento específico de uma tarefa a partir de um modelo de linguagem de grande porte, a baixo custo. Com apenas USD 50 em custos de API, a equipe conseguiu construir um modelo clonado capaz de emular uma das capacidades do modelo de linguagem — compreensão de leitura — com 87% de precisão.⁶

Ataques de caixa branca versus ataques de caixa preta

Uma taxonomia adicional de ataques não distingue pelo tipo de dano causado, mas pelo tipo de modelo que está sendo alvo. A maioria dos exemplos acima são chamados de ataques de caixa-preta, o que significa que os modelos atacados fornecem acesso apenas às suas saídas. Já nos chamados ataques de caixa-branca, os hackers atacam modelos de código aberto que — muitas vezes por motivações nobres de seus criadores — são mais transparentes quanto ao seu funcionamento interno. Com visibilidade sobre o comportamento dos pesos aprendidos reais que compõem o modelo, hackers muitas vezes conseguem explorar esse acesso de caixa-branca para criar ataques mais eficientes e direcionados.

Métodos conhecidos de ataques de evasão

Entre os tipos de ataques descritos acima, pode-se argumentar que os ataques de evasão são os mais desafiadores, pois representam uma fronteira genuinamente nova na segurança cibernética. Os ataques de evasão preocupam — e fascinam — especialmente os pesquisadores de segurança cibernética porque exploram as diferenças fundamentais entre a forma como máquinas e humanos interpretam o mundo. Por esse motivo, uma vasta linha de pesquisa tem se concentrado em descobrir métodos pelos quais hackers poderiam gerar ataques de evasão — justamente para que essas vulnerabilidades possam ser corrigidas antes que sejam exploradas. (Felizmente, muitas defesas também já foram descobertas. Para mais informações, consulte “Como se defender contra o aprendizado de máquina adversarial”.)

Método de sinal de gradiente rápido

Em 2015, pesquisadores do Google revelaram um método simples para gerar exemplos adversariais — entradas que enganam qualquer sistema de aprendizado profundo — que eles chamaram de método do sinal do gradiente rápido, ou FGSM.² Considere o exemplo de um sistema de detecção de imagens. Esses sistemas basicamente dividem o mundo em agrupamentos — um para gatos, outro para cães e assim por diante. O método do sinal do gradiente rápido é um mecanismo para encontrar uma forma rápida de ajustar uma imagem e “empurrá-la” de um agrupamento para outro, comprometendo a integridade do processo decisório do sistema. De forma crucial, esses ajustes muitas vezes exigem apenas pequenas quantidades de ruído visual imperceptíveis aos humanos, mas suficientes para enganar a máquina. O FGSM é chamado de ataque baseado em gradiente porque explora um algoritmo de otimização utilizado por sistemas de aprendizado de máquina conhecido como descida do gradiente.

Diante de ataques mais fortes que foram descobertos posteriormente, um modelo que tenha sido reforçado apenas contra ataques FGSM é considerado altamente vulnerável.

Descida inclinada projetada

A descida do gradiente projetada (PGD) é outro ataque baseado em gradiente, mais sutil e poderoso do que o FGSM. Enquanto o FGSM basicamente dá um único salto em uma direção adversarial para criar suas perturbações (o “ruído” que quebra os mecanismos de detecção do modelo), o PGD utiliza um algoritmo que avança em uma série de pequenos passos. Esse processo mais cuidadoso e iterativo permite encontrar perturbações mais fortes e mais resistentes. Além disso, uma restrição engenhosa em seu algoritmo impede que as perturbações do PGD se afastem demais de uma linha de base, garantindo que permaneçam indetectáveis para humanos. A desvantagem para os atacantes é o custo: enquanto o FGSM pode produzir uma perturbação rápida, porém fraca, com apenas um cálculo de gradiente, o PGD precisa realizar dezenas ou até centenas de cálculos.

O PGD é frequentemente utilizado como um referencial central de robustez adversarial, pois é considerado o ataque baseado em gradiente mais forte.⁷ Uma aplicação de IA que tenha sido treinada para resistir a ataques de PGD pode ser considerada significativamente robusta.

Ataques de Carlini e Wagner

Explorar o “gradiente” de modelos de aprendizado de máquina, ao que tudo indica, não é a única forma de atacar esses sistemas. Um artigo de pesquisa de 2017⁸, de Nicholas Carlini e David Wagner, cientistas da computação da Universidade da Califórnia em Berkeley, revelou ainda outro método para encontrar dados de entrada adversariais — um método que dispensa completamente informações sobre o gradiente do modelo. Em vez disso, os ataques de Carlini e Wagner formulam o problema como um desafio de otimização pura, buscando encontrar a menor quantidade possível de alteração em uma entrada que ainda assim force uma classificação incorreta. No caso de uma perturbação em imagens, por exemplo, esse tipo de algoritmo pode identificar o menor número de pixels que precisam ser ajustados para enganar um modelo. Embora sejam computacionalmente caros de produzir, os resultados costumam ser perturbações sutis demais para que um ser humano consiga percebê-las.

Como se defender contra aprendizado de máquina adversarial

Graças aos esforços de pesquisadores que identificaram essas fragilidades, foram desenvolvidas contramedidas para ajudar a aumentar a robustez dos modelos de aprendizado de máquina.

Para ataques de evasão do tipo que acabamos de descrever, os especialistas desenvolveram métodos do chamado treinamento adversarial. Essencialmente, o processo envolve simplesmente incluir, junto com dados "limpos", dados que foram ajustados da maneira que os hackers podem tentar, para que o modelo aprenda a rotular adequadamente até mesmo esses exemplos adversários. Essa mitigação, embora eficaz, pode ser cara em dois sentidos: 1) envolve mais computação e 2) os modelos podem se tornar ligeiramente menos precisos no geral após a exposição a dados perturbados. "A geração de modelos robustos pode não apenas consumir mais recursos, mas também levar a uma redução da precisão padrão", escrevem os pesquisadores do MIT por trás do artigo de 2018, "Robustness May Be at Odds with Accuracy".⁹

Em geral, os princípios de uma boa cibersegurança se aplicam ao domínio do aprendizado de máquina. As defesas operacionais incluem ferramentas de detecção de anomalias e de detecção de intrusão que verificam padrões incomuns em dados ou no tráfego que possam indicar que um hacker está tentando interferir em um sistema de ML, independentemente da etapa de seu ciclo de vida. Além disso, o red teaming, ou a exposição deliberada de modelos a ataques controlados conduzidos por profissionais de cibersegurança que simulam os de adversários, é uma forma eficaz de submeter sistemas a testes de estresse.

Em um campo que evolui tão rapidamente quanto a IA, o cenário de riscos está em constante mudança. Organizações como o National Institute of Standards and Technology são fontes para os desenvolvimentos mais recentes. O relatório de 2024 do NIST¹⁰ sobre gerenciamento de riscos de IA aborda o aprendizado de máquina adversarial, ao mesmo tempo que engloba abordagens para o risco de IA de forma mais ampla, incluindo temas como viés, alucinação e privacidade. A adoção de uma estrutura de governança de IA também pode ajudar ainda mais a proteger modelos contra adversários.

Custo das violações de dados 2025

Os custos das violações de dados atingiram novo patamar. Receba insights atualizados sobre ameaças à cibersegurança e seus impactos financeiros nas organizações.

Recursos

IBM® X-Force Threat Intelligence Index 2025

Consiga insights para se preparar e responder a ciberataques com maior velocidade e eficácia com o IBM X-Force Threat Intelligence Index.

IDC MarketScape: avaliação de fornecedores de serviços de consultoria em cibersegurança 2025

Descubra por que a IBM foi nomeada como Major Player e obtenha insights para selecionar o fornecedor de serviços de consultoria em cibersegurança que melhor se adapta às necessidades da sua organização.

Cibersegurança na era da IA generativa

Saiba como o cenário de segurança atual está mudando e como enfrentar os desafios e aproveitar a resiliência da IA generativa.

Relatório IBM® X-Force sobre o cenário de ameaças na nuvem 2024

Compreenda as ameaças mais recentes e fortaleça suas defesas na nuvem com o relatório IBM X-Force sobre o cenário de ameaças na nuvem.

O que é segurança de dados?

Descubra como a segurança de dados ajuda a proteger informações digitais contra acesso não autorizado, corrupção ou roubo ao longo de todo o seu ciclo de vida.

O que é um ataque cibernético?

Um ataque cibernético é um esforço intencional para roubar, expor, alterar, desabilitar ou destruir dados, aplicações ou outros ativos por meio de acesso não autorizado.

Soluções relacionadas

Soluções de segurança corporativa

Transforme seu programa de segurança com soluções do maior provedor de segurança corporativa.

Explore as soluções de cibersegurança

Serviços de cibersegurança

Transforme sua empresa e gerencie riscos com consultoria em cibersegurança, nuvem e serviços de segurança gerenciados.

Conheça os serviços de segurança cibernética

Cibersegurança de inteligência artificial (IA)

Melhore a velocidade, a precisão e a produtividade das equipes de segurança com soluções de cibersegurança impulsionadas por IA.

Explore a cibersegurança da IA

Dê o próximo passo

Quer você necessite de soluções de segurança de dados, gerenciamento de endpoints ou gerenciamento de acesso e identidade (IAM), nossos especialistas estão prontos para trabalhar com você para alcançar uma postura de segurança forte. Transforme sua empresa e gerencie os riscos com um líder mundial em consultoria de cibersegurança, nuvem e serviços de segurança gerenciados.

Explore as soluções de cibersegurança

Descubra os serviços de cibersegurança

Notas de rodapé

“Robust Physical-World Attacks on Deep Learning Visual Classification,” CVPR 2018, 10 de abril de 2028
“Explaining and Harnessing Adversarial Examples,” ICLR 2015, 20 de março de 2015
“Defending malware detection models against evasion based adversarial attacks,” Pattern Recognition Letters, dezembro de 2022
“What Is Nightshade?,” site do projeto Nightshade hospedado em uchicago.edu, maio de 2024
“Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures,” CCS’15, outubro de 2015
“Model Leeching: An Extraction Attack Targeting LLMS,” arXiv, 19 de setembro de 2023
“On the Convergence and Robustness of Adversarial Training,” Proceedings of the 36 th International Conference on Machine Learning, 2019
“Towards Evaluating the Robustness of Neural Networks,” arXiv, agosto de 2016
“Robustness May Be at Odds with Accuracy,” arXiv, 9 de setembro de 2019
“Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile,” NIST, julho de 2024