Ensinar grandes modelos de linguagem a “esquecer” conteúdo indesejado

Close-up do trabalhador usando deep learning de IA e notebook para analisar dados

Enquanto os grandes modelos de linguagem (LLMs) estão se tornando excepcionalmente bons em aprender com grandes quantidades de dados, uma nova técnica que faz o oposto está alvoroçando as empresas de tecnologia: desaprendizado de máquina.

Essa abordagem relativamente nova ensina os LLMs a esquecer ou "desaprender" dados confidenciais, não confiáveis ou protegidos por direitos autorais. É mais rápido do que retreinar modelos do zero e remove retroativamente dados ou comportamentos indesejados específicos.

Não é surpresa, então, que gigantes da tecnologia como IBM, Google e Microsoft estejam se esforçando para desaprender a máquina. O foco crescente em desaprender, no entanto, também destaca alguns soluços com esta técnica: modelos que se esquecem demais e falta de ferramentas em todo o setor para avaliar a eficácia da desaprender.

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Do aprendizado ao desaprendizado

Treinados com terabytes de dados, os LLMs "aprendem" a tomar decisões e previsões sem serem explicitamente programados para isso. Esse ramo da IA, conhecido como aprendizado de máquina, cresceu em popularidade, pois os algoritmos de aprendizado de máquina imitam a maneira como os humanos aprendem, melhorando gradualmente a precisão do conteúdo que geram.

Porém, mais dados também significam mais problemas. Ou, como diz a cientista sênior de pesquisa da IBM Nathalie Baracaldo: "Quaisquer que sejam os dados aprendidos — os bons e os ruins — eles permanecerão".

Modelos cada vez maiores também podem gerar uma linguagem mais tóxica e de ódio e conter dados confidenciais que desafiam os padrões de cibersegurança. Por quê? Esses modelos são treinados com dados não estruturados e não confiáveis da internet. Mesmo com tentativas rigorosas de filtrar dados, alinhando modelos para definir quais perguntas não responder e quais respostas fornecer e usar outras proteções para inspecionar a produção de um modelo – ainda assim, comportamentos indesejados, malware, material tóxico e protegido por direitos autorais surgem.

Retreinar esses modelos para remover os dados indesejáveis leva meses e custa milhões de dólares. Além disso, quando os modelos são de código aberto, quaisquer vulnerabilidades no modelo de base são transportadas para muitos outros modelos e aplicações.

Abordagens de desaprendizado visam aliviar esses problemas. Ao identificar alvos de desaprendizado , como pontos de dados específicos, conteúdo contendo linguagem prejudicial, antiética ou protegida por direitos autorais ou prompts de texto indesejados, os algoritmos de desaprendizado removem com eficiência o efeito do conteúdo direcionado.

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Esquecendo Harry Potter

Uma equipe de pesquisadores da Microsoft usou essa abordagem de desaprendizado para ver se conseguiam fazer o modelo Llama2-7b da Meta esquecer material protegido por direitos autorais de Harry Potter, no qual havia sido treinado pela internet. Antes de desaprender, quando os pesquisadores inseriram um prompt como “Quem é Harry Potter?” a modelo respondeu: “Harry Potter é o principal protagonista da série de romances de fantasia de J.K. Rowling”.

Após ajustar o modelo para “desaprender” material protegido por direitos autorais, o modelo responde com o seguinte ao mesmo prompt: “Harry Potter é um ator, roteirista e diretor britânico...”.

“Em resumo, toda vez que o modelo encontra um contexto relacionado aos dados de destino, ele ‘esquece’ o conteúdo original”, explicaram os pesquisadores Ronen Elden e Mark Russinovich em um post de blog. A equipe compartilhou seu modelo no Hugging Face para que a comunidade de IA pudesse explorar a desaprendizagem e mexer com ela também.

Além de remover material protegido por direitos autorais, remover material sensível para proteger a privacidade dos indivíduos é outro caso de uso de alto risco. Uma equipe, liderada por Radu Marculescu, da Universidade do Texas em Austin, colaborando com especialistas em IA do JP Morgan Chase, está trabalhando em desaprendizado de máquina para modelos generativos de imagem para imagem. Em um artigo recente, eles mostraram que eram capazes de eliminar elementos indesejados de imagens (o “conjunto de esquecimento”) sem degradar o desempenho do conjunto de imagens geral.

Essa técnica pode ser útil em cenários como levantamentos de propriedades imobiliárias por drones, por exemplo, disse o professor Marculescu. “Se houvesse rostos de crianças claramente visíveis, você poderia apagá-los para proteger sua privacidade.”

O Google também está ocupado desaprendendo dentro da mais ampla comunidade de desenvolvedores de código aberto. Em junho de 2023, o Google lançou seu primeiro desafio de desaprendizado de máquina. A competição contava com um preditor de idade que havia sido treinado em imagens de rostos. Após o treinamento, um determinado subconjunto das imagens de treinamento teve que ser esquecido para proteger a privacidade ou os direitos dos indivíduos em questão.

Embora não sejam perfeitos, os primeiros resultados de várias equipes são promissores. Usando o desaprendizado de máquina em um modelo Llama, por exemplo, a equipe de Baracaldo na IBM conseguiu reduzir a pontuação de toxicidade de 15,4% de toxicidade para 4,8% sem afetar a precisão de outras tarefas que o LLM realizava. E, em vez de levar meses para retreinar um modelo, sem falar no custo, desaprender levou apenas 224 segundos.

Lombadas

Então, por que o desaprendizado de máquina não é amplamente usado?

“Os métodos para desaprender ainda estão engatinhando e ainda não escalam bem”, explica Baracaldo.

O primeiro desafio que se aproxima é o “esquecimento catastrófico”, que significa que um modelo esquece mais do que os pesquisadores queriam para que o modelo não execute mais as tarefas-chave para as quais foi projetado.

A equipe da IBM desenvolveu um novo framework para melhorar o funcionamento dos modelos após o treinamento. Usando uma abordagem que eles descrevem como dividir-desaprender-em seguida, mesclar ou SPUNGE eles foram capazes de desaprender comportamentos indesejáveis, como toxicidade e conhecimento perigoso, como riscos de biossegurança ou risco de cibersegurança, ao mesmo tempo em que preservavam os recursos dos modelos.

Desenvolver ferramentas de avaliação abrangentes e confiáveis para medir a eficácia dos esforços de desaprender também continua sendo um problema a ser resolvido, dizem pesquisadores em geral.

O futuro da aprendizagem automática

Embora a desaprender ainda esteja encontrando seus pés, os pesquisadores estão duplicando o foco, já que existe uma ampla gama de aplicação, setores e geografias potenciais onde ele pode ser útil.

Na Europa, por exemplo, o Regulamento Geral de Proteção de Dados da UE protege o "direito de ser esquecido" dos indivíduos. Se um indivíduo optar por remover seus dados, o desaprendizado de máquina pode ajudar a garantir que as empresas cumpram essa legislação e removam dados críticos. Além da segurança e da privacidade, o desaprendizado de máquina também pode ser útil em situações em que os dados precisem ser adicionados ou removidos quando as licenças expiram ou os clientes, por exemplo, saem de uma grande instituição financeira ou consórcio hospitalar.

“O que eu adoro em desaprender”, diz Baracaldo, “é que podemos continuar usando todas as nossas outras linhas de defesa, como filtrar dados. Mas também podemos 'corrigir' ou modificar o modelo sempre que percebermos que algo está errado para remover tudo o que é indesejado."

 

Autor

Aili McConnon

Staff Writer

IBM

Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real