Guia de privacidade de dados para IA e aprendizado de máquina

Pessoa protegendo dados digitais em um tablet com um ícone de cadeado e marca de verificação.

Embora a privacidade de dados em geral seja uma preocupação antiga, o termo “privacidade de dados de IA” reconhece que a tecnologia emergente da inteligência artificial traz consigo novos riscos e preocupações com a privacidade.  

Durante o treinamento, os sistemas de IA aprendem a partir de conjuntos de dados vastos. O conjunto de dados Common Crawl, no qual muitos modelos são treinados, contém mais de 9,5 petabytes de dados.1 Muitas pessoas que usam IA diariamente também podem estar fornecendo aos sistemas dados sensíveis, sem plena consciência de que estão comprometendo sua privacidade individual. E, à medida que a implementação da IA avança para uma era de agentes de IA, novos tipos de violações de privacidade tornam-se possíveis na ausência de controles de acesso adequados ou de governança de IA.

Um cenário de risco transformado

Os modelos de IA não apenas processam mais dados; eles também lidam com dados de maneira diferente dos sistemas legados. Se um software tradicional expõe acidentalmente informações sensíveis, um engenheiro pode acessar o código e fazer depuração. Mas os modelos de IA (incluindo modelos de linguagem de grande porte, como o ChatGPT) não são programados no sentido tradicional; eles são desenvolvidos para evoluir por meio de um processo chamado aprendizado de máquina. Nem mesmo seus criadores sabem exatamente como eles funcionam, o que torna a “depuração” algo complexo, quando não impossível.

Resultados acidentais são uma categoria de preocupação, mas as organizações também precisam estar atentas a ataques deliberados e maliciosos. Pesquisadores demonstraram que ferramentas de IA contêm novos tipos de vulnerabilidades que hackers habilidosos podem explorar, em um campo conhecido como aprendizado de máquina adversarial. 

Nos últimos anos, por exemplo, especialistas em cibersegurança demonstraram que, ao explorar uma característica dos modelos de IA (o fato de suas respostas receberem pontuações de confiança mais altas quando lidam com dados nos quais foram treinados), um agente mal-intencionado pode inferir se determinados dados fizeram parte de um conjunto de treinamento. Em certos cenários, esse tipo de inferência configuraria uma grave violação de privacidade. Por exemplo, considere um modelo de IA conhecido por ter sido treinado com registros privados de saúde de pacientes soropositivos para HIV.

Em outro caso bem conhecido, pesquisadores foram além de simplesmente inferir se determinados dados faziam parte de um conjunto de treinamento. Eles criaram um ataque algorítmico capaz de fazer engenharia reversa dos dados reais que foram usados para treinar um modelo. Ao explorar um aspecto dos modelos de IA conhecido como seus “gradientes”, os pesquisadores conseguiram refinar iterativamente uma imagem repleta de ruído até obter uma imagem que se aproximava bastante de um rosto real que havia sido usado para treinar um modelo de reconhecimento facial.2

Os riscos em torno da proteção de dados continuam elevados: o relatório do custo das violações de dados de 2025 da IBM determinou que o custo médio dessas violações foi de USD 4,4 milhões. (Tais violações também acarretam um custo difícil de quantificar, na forma de danos à confiança do público na marca.)

Embora muitas dessas violações de dados não envolvam IA, um número crescente delas envolve. O relatório de índice de IA de 2025 de Stanford constatou que o número de incidentes de privacidade e segurança relacionados à IA aumentou 56,4% em um único ano, com 233 casos relatados em 2024.3

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Um ambiente regulatório em evolução

Formuladores de políticas públicas em todo o mundo afirmaram que as tecnologias de IA não devem, de forma alguma, estar isentas da responsabilidade de cumprir proteções básicas de privacidade. O Regulamento Geral sobre a Proteção de Dados (GDPR) da União Europeia, há muito considerado uma referência para o tratamento de dados pessoais (independentemente da jurisdição), aplica-se ao uso de sistemas de IA pelas organizações. Os princípios do GDPR incluem a minimização de dados (coletar apenas o mínimo de dados necessário para uma finalidade), a transparência (informar os usuários sobre como os dados são usados) e a limitação de armazenamento (reter os dados apenas pelo tempo necessário).

O ano de 2024 foi um marco nesse contexto, quando diversos reguladores passaram a aplicar leis de privacidade em casos envolvendo aplicações de IA.

Por exemplo, em 2024, a Comissão de Proteção de Dados da Irlanda multou a rede social LinkedIn em 310 milhões de euros por uma violação de privacidade relacionada à IA. O LinkedIn monitorava certos comportamentos sutis dos usuários, como o tempo que uma pessoa permanecia em uma postagem. O site então usava IA para inferir características desses usuários (como se estavam buscando ativamente novas oportunidades de emprego ou se apresentavam alto risco de esgotamento). Esse perfilamento era utilizado para direcionar publicidade e atualizar determinados sistemas internos de ranqueamento do LinkedIn.

A comissão irlandesa concluiu, por fim, que, apesar de uma aparência de anonimização, essas inferências derivadas por IA podiam, em última instância, ser associadas a dados de indivíduos identificáveis, violando assim as leis de privacidade de dados. Os tribunais decidiram que o LinkedIn não respeitou o princípio de limitação de finalidade do GDPR nem obteve consentimento informado dos usuários, violando a privacidade do consumidor. A decisão também obrigou o LinkedIn a implementar mecanismos de consentimento em tempo real e a revisar os padrões de suas configurações de personalização de publicidade.4

Também em 2024, uma ação de aplicação da lei contra a empresa de reconhecimento facial Clearview AI ilustrou o princípio de que dados biométricos (como imagens de rostos) levantam preocupações adicionais de privacidade, mesmo quando os dados são tecnicamente públicos (como em uma conta de rede social não protegida).

A Clearview coletou 30 bilhões de imagens de sites como Facebook e Instagram, argumentando que não precisava da permissão dos usuários, pois as fotos estavam disponíveis publicamente on-line. Essa operação massiva de coleta de dados impulsionou o desenvolvimento, pela Clearview, de um banco de dados de reconhecimento facial orientado por IA.

Autoridades de fiscalização da Holanda condenaram duramente a abordagem da Clearview. A Autoridade de Proteção de Dados dos Países Baixos acabou impondo uma multa de 30,5 milhões de euros à empresa, entendendo que os direitos individuais de cidadãos neerlandeses incluídos na coleta de dados da Clearview foram violados.5

Por fim, 2024 marcou a expansão da regulamentação específica de IA na União Europeia com o AI Act, que entrou em vigor em agosto daquele ano. O escopo do ato é mais amplo do que apenas dados relacionados à IA, estendendo-se aos riscos da IA e ao desenvolvimento de IA de forma mais geral. No entanto, muitas de suas disposições tratam de segurança de dados, compartilhamento de dados e governança de dados. Para citar um exemplo relevante: o ato proíbe sistemas de identificação biométrica que utilizam dados e modelos de IA para identificar indivíduos com base em atributos sensíveis, como raça, religião ou orientação sexual.

AI Academy

Confiança, transparência e governança em IA

A confiança na IA é, sem dúvida, o tema mais importante em IA. Também é um assunto compreensivelmente complexo. Vamos abordar questões como alucinação, viés e risco, e compartilhar etapas para adotar a IA de maneira ética, responsável e justa.

Princípios para minimizar o risco de privacidade de dados de IA

Nesse cenário de rápida evolução, em que a necessidade de adotar inovação parece estar em tensão com a necessidade de fazê-lo de forma responsável, quais são as medidas que as organizações podem tomar para equilibrar esses objetivos? Livros inteiros poderiam ser escritos sobre o tema, mas alguns princípios já podem começar a orientar a organização à medida que ela implementa IA de forma responsável.

Governança de todo o ciclo de vida dos dados de IA

Os paradigmas tradicionais de segurança de dados são insuficientes quando os dados são ingeridos, processados e produzidos em múltiplas etapas do ciclo de vida de um modelo de IA. Responsáveis por dados, profissionais de conformidade e outros stakeholders devem zelar pela integridade de seus dados de treinamento, idealmente realizando auditorias para identificar riscos de privacidade. Uma empresa afirma ter encontrado 12.000 chaves de API e senhas no conjunto de dados Common Crawl.6

E, no que diz respeito ao uso de big data gerado pelas atividades de uma organização, padrões como o GDPR e regulamentações de privacidade relacionadas podem servir como guias úteis.

Mantendo-se à frente na corrida armamentista

A IA é um campo altamente dinâmico, com novas pesquisas e descobertas surgindo quase diariamente. É importante que profissionais de cibersegurança se mantenham atualizados sobre os avanços tecnológicos mais recentes, para que possam corrigir vulnerabilidades antes que um agente de ameaça as explore.

As organizações podem usar tecnologias de aprimoramento da privacidade, como aprendizado federado, privacidade diferencial e dados sintéticos. Como sempre, elas podem exigir controles de acesso robustos para impedir o acesso não autorizado, tanto por humanos quanto por agentes de IA.

Tomada de decisão com reconhecimento de privacidade

À medida que mais organizações usam IA generativa e outras tecnologias de IA para automatizar a tomada de decisão, executivos devem adotar uma perspectiva de privacidade nas práticas impulsionadas por IA, nas quais a noção de “dados” pode ter se tornado nebulosa. Esse princípio fica evidente na decisão do LinkedIn mencionada anteriormente: em algumas circunstâncias, extrair inferências com base em padrões de dados, ainda que isso possa apresentar uma aparência de anonimização, pode continuar infringindo o GDPR e regulamentações relacionadas.

À medida que a IA se torna mais poderosa na identificação de padrões, ela pode subverter noções consolidadas sobre o que constitui dados “anonimizados”. Um estudo de 2019 publicado na Nature mostrou que, com o modelo generativo adequado, “99,98% dos americanos poderiam ser corretamente identificados novamente em qualquer conjunto de dados usando 15 atributos demográficos”. A constatação sugere que a própria noção do que constitui dados pessoais está passando por uma transformação.7

Autores

David Zax

Staff Writer

IBM Think

Soluções relacionadas
IBM watsonx.governance

Governe modelos de IA generativa de qualquer lugar e implemente na nuvem ou no local com o IBM® watsonx.governance.

Descubra o watsonx.governance
Soluções de governança de IA

Veja como a governança de IA pode ajudar a aumentar a confiança dos seus funcionários na IA, acelerar a adoção e a inovação e melhorar a confiança dos clientes.

Descubra soluções de governança de IA
Serviços de consultoria de governança de IA

Prepare-se para a Lei de IA da UE e estabeleça uma abordagem de governança de IA responsável com a ajuda da IBM® Consulting.

Conheça os serviços de governança de IA
Dê o próximo passo

Direcione, gerencie e monitore sua IA com um único portfólio para acelerar a IA responsável, transparente e explicável.

Explore o watsonx.governance Agende uma demonstração em tempo real