什么是灾难性遗忘?

2025 年 4 月 1 日

阅读时间

作者

Ivan Belcic

Staff writer

Cole Stryker

Editorial Lead, AI Models

什么是灾难性遗忘?

神经网络在使用新数据训练后或针对特定任务进行微调后忘记以前学过的任务时,就会发生灾难性遗忘。这种现象也被称为灾难性干扰,它导致训练有素的网络在连续学习过程中使用新数据训练时,丢失与旧任务相关的信息。

许多人工智能技术的部署需要机器学习模型不断适应新的用例。当新任务的训练过程干扰了模型对旧任务的理解时,就会出现灾难性遗忘现象。随着新知识取代过往习得的知识,模型就会丧失处理其原始任务的能力。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

为什么会发生灾难性遗忘?

灾难性遗忘由 Michael McCloskey 和 Neal J. Cohen 于 1989 年首次观察到1,它是机器学习算法适应新数据集的结果。深度学习模型(例如,大型语言模型 (LLM))的训练过程包括将模型暴露给数据,并允许模型相应地更新其权重。2023 年的一篇计算机科学论文2 发现,它对大型模型的影响比较小的模型更严重。

网络权重,也称为模型参数,是模型的内部规则集,用于捕捉训练数据集中的模式和关系。在训练期间,机器学习算法根据损失函数迭代更新其权重:损失函数是衡量模型预测误差的数学方程。

训练的目标是通过梯度下降等方法使损失函数最小。学习率设定了模型在训练过程中更新权重的速度。

模型权重的配置是其知识表示形式,即模型如何理解其训练数据的数学反映。如果模型对其权重进行了足够大的调整,以致于新值不再与以前的任务相关,则它将失去执行这些任务的能力。在学习新任务的过程中,模型“灾难性地”或完全忘记了如何处理旧任务。

神经网络为何会出现遗忘现象?

神经网络由互连的节点组成,它们模仿人脑中的神经元。学习时,大脑会在新皮层的神经元之间产生突触或连接;新皮层是大脑中负责更高层次认知的区域。同时,海马体负责将短期记忆转化为长期记忆并保存知识。

虽然神经科学领域还有很多关于大脑的发现,但我们确实知道大脑擅长内部优化。神经可塑性或大脑可塑性是指大脑为持续学习而重组自身的能力。使用频率较高的突触连接变得更强,而使用频率较低的突触连接会枯萎并最终消失。

可塑性是使人们在遭受创伤性脑损伤后能够恢复失去的能力,例如语言或运动。如果没有神经可塑性,人类就无法在成长过程中学习。婴儿和幼儿的大脑具有更大的可塑性,这就是为什么他们比普通成年人更容易学习语言。

人工神经网络的工作原理与此类似,它们会根据新数据调整权重,就像大脑建立新的神经网络连接一样。神经网络的输入和输出之间的隐藏层可以随时间而变化。当神经网络优先考虑新数据而非先前知识时,它们可能会过度调整自己的权重:模型不是扩展了其知识,而是用新数据有效地取代了其先前的知识。

灾难性遗忘的影响

灾难性遗忘会对机器学习模型(例如用于生成式 AI 应用的模型)的性能产生重大影响。当模型应用于新的用例时,它们会随着权重的变化而产生模型漂移,并最终发生灾难性的遗忘。

灾难性遗忘会产生不利影响:

  • 模型训练和资源使用:忘记基础知识的模型必须重新训练。为领先的生成式 AI 服务提供支持的 LLM 的培训成本高达数百万美元,其中包括计算资源,以及确保其所在的超大规模数据中心运转所需的电力和水。

  • 模型部署和 AI 应用程序维护:随着模型性能下降,调用模型的应用程序也将会遇到性能问题。在模型必须适应当地情况的边缘部署中,灾难性遗忘的风险可能会增加。

  • 自主学习:随着时间的推移,体验式学习系统可能会出现灾难性遗忘现象。基础知识的遗失可能会降低这些系统的适应性、可靠性和一致性。对于机器人和自动驾驶汽车,这些影响尤为危险。

Mixture of Experts | 4 月 25 日,第 52 集

解码 AI:每周新闻摘要

加入我们由工程师、研究人员、产品负责人等组成的世界级专家团队,他们将突破 AI 的喧嚣,为您呈现最新的 AI 新闻和洞察分析。

克服灾难性遗忘

研究人员和其他专家就应对灾难性遗忘现象提出了一系列技术。James Kirkpatrick 、Andrei A. Rusi 等人于 2017 年发表了一篇具有里程碑意义的论文,探讨了基于降低旧任务相关权重学习速率的方法。2025 年,另一个计算机科学家团队探索使用反向传播算法来克服灾难性遗忘(脚注 https://arxiv.org/abs/2501.01045#)。

其他克服灾难性遗忘的方法包括:

  • 正则化

  • 架构解决方案

  • 集成方法

  • 复述技术

  • 基于记忆的神经网络 (MANN)

正则化

正则化是一类技术,它使模型更具通用性,但同时也会增加出现偏差的风险,模型会更容易适应新数据。弹性权重合并 (EWC) 就是这样一种技术,它在损失函数中加入了惩罚,用于调整对旧任务非常重要的模型权重。

突触智能的作用与此类似,它抑制模型改变主要参数。这两种技术都使模型不太可能丢失先前的知识。

架构解决方案

模型架构描述了神经网络的结构,包括其层数和节点的连接方式。每一层都对应着 AI 工作流中的不同功能,如预测功能提取

渐进式神经网络 (PNN) 会添加用于新任务的网络,同时保留用于早期角色的网络中的连接。该模型结合了所有网络的输出,即使在处理新任务时也能利用其旧知识。

其他网络在多任务学习过程中使用动态权重平均法 (DWA),在训练过程中动态调整模型权重。DWA 允许模型灵活适应不同的任务。

集成方法

集成方法将多个模型的输出结合起来以获得更可靠的结果。终身学习森林是属于随机森林模型,会为新任务添加新森林或决策树,类似于 PNN 随着工作负载的增加而添加新网络。

同时,分隔式模块化架构可以防止新数据污染网络的其余部分。特定于任务的模块可按需激活,在不使用时保留所获得的知识。

复述技术

复述技术在训练新任务期间将模型暴露于旧数据,有助于确保模型不会灾难性地忘记之前学到的内容。体验回放是一种强化学习技术,其中模型将过去的体验存储在单独的数据集中,然后在训练期间从该记忆中随机采样。

记忆增强神经网络 (MANN)

记忆增强神经网络是一种颇具前景的架构,它能将神经网络与外部记忆存储相结合。在处理用户提示等输入序列时,MANN 可以读取和写入记忆。许多方法采用注意力机制,为每个任务隔离出最相关的记忆组件。

梯度情景记忆 (GEM) 是一个 MANN 示例,它可支持 AI 模型存储和回忆过去的经验,从而为新任务提供信息,并保留先前获得的知识。

脚注

1. “连接性网络中的灾难性干扰:序列学习问题”, McCloskey 和 Cohen,《Psychology of Learning and Motivation》,1989 年

2. “持续微调过程中大型语言模型中灾难性遗忘的实证研究”,Luo 等人,2025 年 1 月 5 日

相关解决方案
IBM watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解 AI 解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK,生成功能强大的 AI 解决方案。

深入了解 watsonx.ai 预约实时演示