Tempo de leitura
O esquecimento catastrófico ocorre quando as redes neurais esquecem tarefas aprendidas anteriormente após serem treinadas com novos dados ou passarem por um ajuste fino para tarefas específicas. Também conhecido como interferência catastrófica, esse fenômeno faz com que as redes treinadas percam informações relacionadas a tarefas antigas ao serem treinadas com novos dados em um processo de aprendizado sequencial.
Muitas implementações de inteligência artificial exigem que modelos de aprendizado de máquina se adaptem a novos casos de uso ao longo do tempo. O esquecimento catastrófico acontece quando o processo de treinamento para novas tarefas interfere na compreensão do modelo sobre tarefas antigas. À medida que novos conhecimentos substituem o aprendizado anterior, o modelo perde a capacidade de lidar com suas tarefas originais.
Observado pela primeira vez por Michael McCloskey e Neal J. Cohen em 19891, o esquecimento catastrófico acontece como resultado da forma como os algoritmos de aprendizado de máquina se adaptam a novos conjuntos de dados. O processo de treinamento para modelos de deep learning, como grandes modelos de linguagem (LLMs), envolve expor o modelo aos dados e permitir que ele atualize seus pesos adequadamente. Um artigo de ciência da computação de 20232 descobriu que isso afeta grandes modelos mais severamente do que modelos menores.
Os pesos da rede, também conhecidos como parâmetros de um modelo, são o conjunto de regras interno que ele usa para capturar padrões e relacionamentos em conjuntos de dados de treinamento. Durante o treinamento, um algoritmo de aprendizado de máquina atualiza seus pesos de forma iterativa de acordo com uma função de perda: uma equação matemática que mede o erro nas previsões do modelo.
O objetivo do treinamento é minimizar a função de perda por meio de métodos como gradiente descendente. A taxa de aprendizado define o ritmo no qual um modelo atualiza seus pesos durante o treinamento.
A configuração dos pesos de um modelo é sua representação de conhecimento: um reflexo matemático de como o modelo entende seus dados de treinamento. Se um modelo ajusta seus pesos substancialmente o suficiente para que os novos valores não sejam mais relevantes para tarefas anteriores, ele perde a capacidade de executar essas tarefas. No processo de aprendizado de novas tarefas, o modelo esqueceu “catastroficamente” ou completamente como abordar as antigas.
As redes neurais são compostas por nós interconectados que imitam os neurônios do cérebro humano. Ao aprender, o cérebro cria sinapses, ou conexões, entre os neurônios do neocórtex, a região do cérebro responsável pela cognição de nível superior. Enquanto isso, o hipocampo é responsável por converter memórias de curto prazo em memórias de longo prazo e preservar o conhecimento.
Embora o campo da neurociência ainda tenha muito a descobrir sobre o cérebro, sabemos que o cérebro se destaca na otimização interna. Neuroplasticidade, ou plasticidade cerebral, refere-se à capacidade do cérebro de se reestruturar para o aprendizado contínuo. As conexões sinápticas usadas com mais frequência se tornam mais fortes, enquanto aquelas usadas com menos frequência murcham e, eventualmente, desaparecem.
A plasticidade é o que permite que as pessoas recuperem habilidades perdidas, como fala ou movimento, depois de sofrer uma lesão cerebral traumática. Sem a plasticidade neural, os seres humanos não seriam capazes de aprender enquanto crescem. Os cérebros de bebês e crianças pequenas têm maior flexibilidade, e é por isso que eles são capazes de aprender línguas com tanta facilidade em comparação com adultos típicos.
As redes neurais artificiais funcionam de forma semelhante, pois ajustam seus pesos em resposta a novos dados, da mesma forma que o cérebro forja novas conexões sinápticas. As camadas ocultas entre a entrada e a saída de uma rede neural podem mudar com o tempo. Quando as redes neurais priorizam demais novos dados em relação ao conhecimento anterior, elas podem ajustar demais seus pesos: em vez de expandir seu conhecimento, o modelo substitui efetivamente seu conhecimento anterior pelos novos dados.
O esquecimento catastrófico pode ter efeitos substanciais sobre o desempenho de modelos de aprendizado de máquina, como aqueles usados em aplicativos de IA generativa. À medida que os modelos são aplicados a novos casos de uso, eles podem sofrer desvio do modelo à medida que seus pesos mudam e, eventualmente, sofrem esquecimento catastrófico.
O esquecimento catastrófico pode afetar adversamente:
Treinamento de modelos e uso de recursos: modelos que esquecem conhecimento fundamental devem ser retreinados. Os LLMs que alimentam os principais serviços de IA generativa custam milhões de dólares para treinar, incluindo recursos de computação, bem como eletricidade e água para alimentar os data centers de hiperescala que os hospedam.
Implementação de modelos e manutenção de aplicativos de IA: à medida que o desempenho de um modelo diminui, os aplicativos que o chamam também sofrerão problemas de desempenho. Em implementações de edge, nas quais os modelos precisam se adaptar às circunstâncias locais, o risco de esquecimento catastrófico pode aumentar.
Aprendizado autônomo: os sistemas de aprendizado experimental podem sofrer esquecimento catastrófico ao longo do tempo. A perda de conhecimento fundamental pode tornar esses sistemas menos adaptáveis, confiáveis e consistentes. Com a robótica e automóveis autônomos, esses efeitos podem ser especialmente perigosos.
Pesquisadores e outros especialistas propuseram uma série de técnicas para combater o esquecimento catastrófico. Um artigo histórico publicado em 2017 por James Kirkpatrick, Andrei A. Rusi e outros explorou um método baseado na redução da taxa de aprendizado de pesos relevantes para tarefas mais antigas. Em 2025, outro grupo de cientistas da computação explorou o uso da retropropagação para superar o esquecimento catastrófico (NOTA DE RODAPÉ: https://arxiv.org/abs/2501.01045#).
Outras técnicas para superar o esquecimento catastrófico incluem:
Regularização
Soluções arquitetônicas
Métodos de conjunto
Técnicas de ensaio
Redes neurais aumentadas pela memória (MANNs)
Regularização é um conjunto de técnicas que tornam os modelos mais generalizáveis, correndo o risco de aumentar vieses — eles se adaptam mais facilmente a novos dados. A consolidação elástica de peso (EWC) é uma técnica que adiciona uma penalidade à função de perda para ajustes nos pesos do modelo que são importantes para tarefas antigas.
A inteligência sináptica funciona de forma semelhante, evitando que o modelo altere os principais parâmetros. Ambas as técnicas tornam o modelo menos propenso a perder conhecimento prévio.
A arquitetura do modelo descreve a estrutura de uma rede neural, incluindo o número de camadas que ela possui e a forma como os nós estão conectados. Cada camada é dedicada a uma função diferente no fluxo de trabalho de IA, como previsão ou extração de funcionalidades.
As redes neurais progressivas (PNNs) adicionam redes para novas tarefas, mantendo as conexões em redes usadas para funções anteriores. O modelo combina as saídas de todas as redes, utilizando seu conhecimento mais antigo, mesmo ao trabalhar em novas tarefas.
Outras redes usam a média de peso dinâmica (DWA) durante o aprendizado multitarefa para ajustar dinamicamente os pesos do modelo durante o treinamento. A DWA permite que os modelos se adaptem de forma flexível a diferentes tarefas.
Os métodos de conjunto combinam as saídas de vários modelos para obter resultados mais confiáveis. As florestas de aprendizagem ao longo da vida são modelos florestais aleatórios que adicionam novas florestas ou decision trees a novas tarefas, da mesma forma que as PNNs adicionam novas redes à medida que sua carga de trabalho se expande.
Enquanto isso, arquiteturas modulares compartimentadas podem impedir que novos dados contaminem o resto da rede. Os módulos específicos de tarefas são ativados conforme a necessidade, preservando o conhecimento adquirido quando não estão em uso.
As técnicas de ensaio expõem o modelo a dados antigos durante o treinamento para novas tarefas, ajudando a garantir que o modelo não esqueça de forma catastrófica o que aprendeu anteriormente. Repetição de experiências é uma técnica de aprendizado por reforço em que um modelo armazena experiências passadas em um conjunto de dados separado e, em seguida, amostra aleatoriamente essa memória durante o treinamento.
As redes neurais aprimoradas pela memória são uma arquitetura promissora que combina redes neurais com armazenamento de memória externa. Ao processar sequências de entrada, como prompts de usuários, as MANNs podem ler e gravar na memória. Muitas usam mecanismos de atenção para isolar os componentes de memória mais relevantes para cada tarefa.
A memória episódica gradiente (GEM) é um exemplo de MANN que permite que modelos de IA armazenem e relembrem experiências passadas para informar novas tarefas e preservar o conhecimento adquirido anteriormente.
1. "Catastrophic Interference in Connectionist Networks: The Sequential Learning Problem," McCloskey and Cohen, Psychology of Learning and Motivation, 1989
2. "An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning", Luo et al, 5 de janeiro de 2025
Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.
Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.