Essa é uma das verdades difíceis da inovação: com a tecnologia avançando, também aumentam os riscos de sua utilização.
Por exemplo, ferramentas que aprimoram a coleta e a análise de dados também aumentam a probabilidade de dados pessoais e informações confidenciais aparecerem onde não pertencem.
Esse risco específico, o risco de privacidade, é especialmente predominante na era da inteligência artificial (IA), pois informações confidenciais são coletadas e usadas para a criação e ajuste fino de sistemas de IA e aprendizado de máquina. E, à medida que os formuladores de políticas se apressam em lidar com o problema das regulamentações de privacidade sobre o uso da IA, eles criam novos desafios de conformidade para as empresas que usam tecnologias de IA na tomada de decisões.
Apesar das preocupações com privacidade e conformidade, as empresas continuam a implementar modelos de IA para aumentar a produtividade e liberar valor. Vamos dar uma olhada mais de perto nos riscos e proteções à privacidade da IA que afetam a sociedade e o comércio atualmente.
A privacidade da IA é a prática de proteger informações pessoais ou confidenciais coletadas, usadas, compartilhadas ou armazenadas pela IA.
A privacidade da IA está intimamente ligada à privacidade de dados. A privacidade de dados, também conhecida como privacidade de informações, é o princípio de que uma pessoa deve ter controle sobre seus dados pessoais. Esse controle inclui a capacidade de decidir como as organizações coletam, armazenam e usam seus dados. Mas o conceito de privacidade de dados é anterior à IA, e a forma como as pessoas pensam sobre a privacidade de dados evoluiu com o advento da IA.
“Dez anos atrás, a maioria das pessoas pensava em privacidade de dados em termos de compras online. Elas pensavam: 'Não sei se me importo se essas empresas sabem o que eu compro e o que estou procurando, porque às vezes é útil'”, explicou Jennifer King, membro do Stanford University Institute for Human-Centered Artificial Intelligence, em uma entrevista publicada no site do instituto.1
"Mas agora, vimos as empresas mudarem para essa coleta de dados onipresente que treina sistemas de IA", disse King, "o que pode ter um grande impacto em toda a sociedade, especialmente em nossos direitos civis".
Muitas vezes, podemos atribuir as preocupações com a privacidade da IA a questões relacionadas à coleta de dados, cibersegurança, design de modelos e governança. Esses riscos à privacidade da IA incluem:
Uma das razões pelas quais a IA indubitavelmente representa um risco à privacidade de dados maior do que os avanços tecnológicos anteriores é o grande volume de informações em jogo. Terabytes ou petabytes de texto, imagens ou vídeos são incluídos rotineiramente como dados de treinamento e, inevitavelmente, alguns desses dados são confidenciais: informações de saúde, dados pessoais de sites de redes sociais, dados financeiros pessoais, dados biométricos usados para reconhecimento facial e muito mais. Com o aumento da quantidade de dados confidenciais sendo coletados, armazenados e transmitidos, são maiores as chances de que pelo menos uma parte seja exposta ou implementada de maneiras que violem os direitos de privacidade.
Pode haver discussão quando os dados são obtidos para o desenvolvimento da IA sem o consentimento ou conhecimento expresso das pessoas de quem estão sendo coletados. No caso de sites e plataformas, os usuários esperam cada vez mais autonomia sobre seus próprios dados e mais transparência em relação à coleta de dados. Essas expectativas vieram à tona recentemente, quando o site da rede profissional LinkedIn enfrentou reações adversas depois que alguns usuários perceberam que foram automaticamente autorizados a permitir que seus dados treinassem modelos de IA generativa.2
Mesmo quando os dados são coletados com o consentimento dos indivíduos, os riscos à privacidade aumentam se os dados são usados para fins além daqueles inicialmente divulgados. "Estamos vendo dados como um currículo ou uma fotografia que compartilhamos ou publicamos para um propósito sendo reaproveitados para treinar sistemas de IA, muitas vezes sem nosso conhecimento ou consentimento", disse King. Na Califórnia, por exemplo, um ex-paciente cirúrgico teria descoberto que fotos relacionadas ao seu tratamento médico haviam sido usadas em um conjunto de dados de treinamento de IA. A paciente alegou que havia assinado um formulário de consentimento para que seu médico tirasse as fotos, mas não para que fossem incluídas em um conjunto de dados.3
Preocupações de privacidade relacionadas à vigilância generalizada e não verificada, seja por meio de câmeras de segurança em ruas públicas ou cookies de rastreamento em computadores pessoais, surgiram muito antes da proliferação da IA. Mas a IA pode agravar essas preocupações com a privacidade porque os modelos de IA são usados para analisar dados de vigilância. Às vezes, os resultados dessa análise podem ser prejudiciais, especialmente quando demonstram viés. No campo da segurança pública, por exemplo, uma série de detenções indevidas de pessoas de cor têm sido associadas à tomada de decisões impulsionada por IA.4
Os modelos de IA contêm um acervo de dados confidenciais que pode ser irresistível para os invasores. “Esses [dados] acabam com um grande alvo que alguém tentará atingir”, explicou Jeff Crume, IBM Security Distinguish Engineer, em um vídeo recente da tecnologia IBM (link externo a ibm.com). Agentes mal-intencionados podem realizar essa exfiltração de dados (roubo de dados) de aplicações de IA por meio de várias estratégias. Por exemplo, em ataques de injeção de prompts, hackers disfarçam entradas maliciosas como prompts legítimos, manipulando sistemas de IA generativa para expor dados confidenciais. Por exemplo, um hacker usando o prompt certo pode enganar um assistente virtual impulsionado por LLM para encaminhar documentos privados.
O vazamento de dados é a exposição acidental de dados confidenciais, e alguns modelos de IA se mostraram vulneráveis a esse tipo de violação de dados. Em um caso que se tornou manchete, o ChatGPT, o grande modelos de linguagem (LLM) da OpenAI, mostrou a alguns usuários os títulos das histórias de conversas de outros usuários.5 Também existem riscos para modelos de IA pequenos e proprietários. Por exemplo, considere uma empresa de saúde que cria um aplicativo interno de diagnóstico impulsionado por IA com base nos dados de seus clientes. Esse aplicativo pode vazar involuntariamente informações privadas dos clientes para outros clientes que usam um prompt específico. Até mesmo esse compartilhamento não intencional de dados pode resultar em graves violações de privacidade.
Os esforços dos formuladores de políticas para impedir que os avanços tecnológicos comprometam a privacidade individual remontam pelo menos à década de 1970. No entanto, o rápido crescimento da coleta de dados comercializados e a implementação da IA criaram uma nova urgência para promulgar leis de privacidade de dados. Essas leis incluem:
A GDPR define vários princípios que os controladores e processadores devem seguir ao processar dados pessoais. De acordo com o princípio da limitação de finalidade, as empresas devem ter em mente uma finalidade específica e legal para todos os dados coletados. Elas devem transmitir essa finalidade aos usuários e coletar apenas a quantidade mínima de dados necessária para essa finalidade.
As empresas também devem usar os dados de forma justa. Elas devem manter os usuários informados sobre o processamento de dados pessoais e seguir as normas de proteção de dados. De acordo com o princípio da limitação de armazenamento, uma empresa só deve manter os dados pessoais até que sua finalidade seja cumprida. Os dados devem ser excluídos assim que não forem mais necessários.
Considerada o primeiro framework regulatório abrangente do mundo para IA, a Lei de IA da UE proíbe completamente alguns usos da IA e implementa requisitos rigorosos de governança, gerenciamento de riscos e transparência para outros.
Embora a Lei de IA da UE não tenha especificamente práticas separadas e proibidas sobre a privacidade da IA, a lei impõe limitações ao uso de dados. Práticas proibidas de IA incluem:
Os sistemas de IA de alto risco devem atender a requisitos específicos, como a adoção de práticas rigorosas de governança de dados, para garantir que os dados de treinamento, validação e testes atendam a critérios de qualidade específicos.
Leis de privacidade de dados entraram em vigor em várias jurisdições americanas nos últimos anos. Exemplos incluem a California Consumer Privacy Act e a Texas Data Privacy and Security Act. Em março de 2024, Utah promulgou a Artificial Intelligence and Policy Act, que é considerada a primeira grande lei estadual a reger especificamente o uso da IA.
No nível federal, o governo dos EUA ainda não implementou novas leis de privacidade de dados e IA em todo o país. No entanto, em 2022, o White House Office of Science and Technology Policy (OSTP) lançou seu “Blueprint for an AI Bill of Rights”. O framework não vinculativo delineia cinco princípios para orientar o desenvolvimento da IA, incluindo uma seção dedicada à privacidade de dados, que incentiva os profissionais de IA a buscar o consentimento das pessoas para o uso de dados.
A China está entre os primeiros países a promulgar regulamentações para a IA. Em 2023, a China emitiu suas Medidas Provisórias para a Administração de Serviços de Inteligência Artificial Generativa. De acordo com a lei, a prestação e o uso de serviços de IA generativa devem “respeitar os direitos e interesses legítimos de terceiros” e são obrigados a “não colocar em risco a integridade física e mental de outras pessoas e não infringir os direitos de imagem e reputação de outras pessoas , direitos de honra, direitos de privacidade e direitos de informação pessoal".6
As organizações podem criar abordagens de privacidade da IA para ajudar a cumprir as regulamentações e construir a confiança dos stakeholders.7 As recomendações do OSTP incluem:
Deve-se avaliar e lidar com os riscos de privacidade durante todo o ciclo de vida de desenvolvimento de um sistema de IA. Esses riscos podem incluir possíveis danos àqueles que não são usuários do sistema, mas cujas informações pessoais podem ser inferidas por meio de análise de dados avançada.
As organizações devem limitar a coleta de dados de treinamento ao que pode ser coletado legalmente e usado "de forma consistente com as expectativas das pessoas cujos dados são coletados". Além dessa minimização de dados, as empresas também devem estabelecer cronogramas para a retenção de dados, com o objetivo de excluir os dados o mais rápido possível.
As organizações devem fornecer ao público mecanismos de “consentimento, acesso e controle” sobre seus dados. O consentimento deve ser readquirido se o caso de uso que levou à coleta de dados for alterado.
As organizações que usam IA devem seguir as melhores práticas de segurança para evitar o vazamento de dados e metadados. Tais práticas podem incluir o uso de mecanismos de criptografia, anonimização e controle de acesso.
Os dados de determinados domínios devem estar sujeitos a proteção extra e usados somente em “contextos estreitamente definidos”. Esses "domínios confidenciais" incluem saúde, emprego, educação, justiça criminal e finanças pessoais. Os dados gerados por ou sobre crianças também são considerados confidenciais, mesmo que não se encaixem em um dos domínios listados.
As organizações devem responder às solicitações dos indivíduos para saber quais de seus dados estão sendo usados em um sistema de IA. As organizações também devem fornecer proativamente relatórios gerais resumidos ao público sobre como os dados das pessoas são usados, acessados e armazenados. Em relação aos dados de domínios confidenciais, as organizações também devem relatar falhas ou violações de segurança que causaram vazamentos de dados.
Ferramentas e programas de governança de dados podem ajudar as empresas a seguir as recomendações do OSTP e outras melhores práticas de privacidade da IA. As empresas podem implementar ferramentas de software para:
À medida que as leis de IA e privacidade de dados evoluem, as soluções emergentes de tecnologia podem permitir que as empresas acompanhem as mudanças regulatórias e estejam preparadas caso os reguladores solicitem auditorias. Soluções de ponta automatizam a identificação de mudanças regulatórias e a conversão em políticas executáveis.
(Todos os links estão fora de ibm.com.)
1 “Privacy in an AI Era: How Do We Protect Our Personal Information?” Stanford University Institute of Human-Centered Artificial Intelligence. 18 de março de 2024.
2 “LinkedIn Is Quietly Training AI on Your Data—Here's How to Stop It.” PCMag. 18 de setembro de 2024.
3 “Artist finds private medical record photos in popular AI training data set.” Ars Technica. 21 de setembro de 2022.
4 “When Artificial Intelligence Gets It Wrong.” Innocence Project. 19 de setembro de 2023.
5 “OpenAI CEO admits a bug allowed some ChatGPT users to see others’ conversation titles.” CNBC. 17 de abril de 2023.
6 Interim Measures for the Administration of Generative Artificial Intelligence Services, Cyberspace Administration of China. 13 de julho de 2023.
7 “Blueprint for an AI Privacy Bill of Rights.” The White House Office of Science and Technology Policy. Acessado em 19 de setembro de 2024.