Os ataques de privacidade exploram particularidades dos sistemas de IA para inferir ou extrair indiretamente informações sensíveis que fizeram parte de seus conjuntos de dados de treinamento. Em teoria, modelos de aprendizado de máquina não deveriam “memorizar” os dados com os quais são treinados — eles extraem padrões úteis a partir de conjuntos de dados e não retêm os dados em si, como faria um disco rígido. Na prática, porém, a “memória” da IA é mais complexa. Pesquisadores observaram que, em certos aspectos, os modelos parecem de fato “lembrar” seus dados de treinamento. Em particular, sistemas de aprendizado de máquina frequentemente demonstram níveis mais altos de confiança em suas previsões quando essas previsões se relacionam a pontos de dados que o modelo viu durante o treinamento. (Embora chatbots voltados ao consumidor, como o ChatGPT, não exibam pontuações de confiança, esses valores geralmente estão acessíveis por meio de APIs para desenvolvedores ou ferramentas de pesquisa.)
Em um método de ataque à privacidade conhecido como inferência de pertencimento, um invasor pode conseguir inferir informações sensíveis sobre uma pessoa — por exemplo, se ela foi paciente de uma instituição psiquiátrica. Desde que o invasor possua alguns dados sobre um determinado indivíduo (talvez um prontuário médico parcial), ele pode consultar um modelo que se saiba ter sido treinado com conjuntos de dados sensíveis (por exemplo, registros de instituições psiquiátricas). Ao observar as pontuações de confiança retornadas pelo modelo, o invasor pode inferir que seu alvo de fato fazia parte do grupo utilizado para treinar o modelo.
Um ataque de inversão de modelo vai além, permitindo essencialmente que um adversário faça engenharia reversa dos dados reais que treinaram o modelo. O invasor pode fazer isso utilizando técnicas de força bruta, usando iterativamente as pontuações de confiança retornadas pelo modelo como orientação sobre como moldar dados aleatórios e ruidosos até que passem a se assemelhar aos dados reais de treinamento do modelo. Por exemplo, em 2015, pesquisadores acadêmicos conseguiram explorar as pontuações de confiança de um modelo de reconhecimento facial para reconstruir imagens que se aproximavam dos rostos reais usados para treinar o modelo. Eles fizeram isso começando com uma imagem composta apenas de ruído e, em seguida, ajustando-a iterativamente, usando as pontuações de confiança da saída do modelo para orientar cada novo ajuste.5