阅读时间
灾难性遗忘由 Michael McCloskey 和 Neal J. Cohen 于 1989 年首次观察到1,它是机器学习算法适应新数据集的结果。深度学习模型(例如,大型语言模型 (LLM))的训练过程包括将模型暴露给数据,并允许模型相应地更新其权重。2023 年的一篇计算机科学论文2 发现,它对大型模型的影响比较小的模型更严重。
网络权重,也称为模型参数,是模型的内部规则集,用于捕捉训练数据集中的模式和关系。在训练期间,机器学习算法根据损失函数迭代更新其权重:损失函数是衡量模型预测误差的数学方程。
训练的目标是通过梯度下降等方法使损失函数最小。学习率设定了模型在训练过程中更新权重的速度。
模型权重的配置是其知识表示形式,即模型如何理解其训练数据的数学反映。如果模型对其权重进行了足够大的调整,以致于新值不再与以前的任务相关,则它将失去执行这些任务的能力。在学习新任务的过程中,模型“灾难性地”或完全忘记了如何处理旧任务。
神经网络由互连的节点组成,它们模仿人脑中的神经元。学习时,大脑会在新皮层的神经元之间产生突触或连接;新皮层是大脑中负责更高层次认知的区域。同时,海马体负责将短期记忆转化为长期记忆并保存知识。
虽然神经科学领域还有很多关于大脑的发现,但我们确实知道大脑擅长内部优化。神经可塑性或大脑可塑性是指大脑为持续学习而重组自身的能力。使用频率较高的突触连接变得更强,而使用频率较低的突触连接会枯萎并最终消失。
可塑性是使人们在遭受创伤性脑损伤后能够恢复失去的能力,例如语言或运动。如果没有神经可塑性,人类就无法在成长过程中学习。婴儿和幼儿的大脑具有更大的可塑性,这就是为什么他们比普通成年人更容易学习语言。
人工神经网络的工作原理与此类似,它们会根据新数据调整权重,就像大脑建立新的神经网络连接一样。神经网络的输入和输出之间的隐藏层可以随时间而变化。当神经网络优先考虑新数据而非先前知识时,它们可能会过度调整自己的权重:模型不是扩展了其知识,而是用新数据有效地取代了其先前的知识。
灾难性遗忘会对机器学习模型(例如用于生成式 AI 应用的模型)的性能产生重大影响。当模型应用于新的用例时,它们会随着权重的变化而产生模型漂移,并最终发生灾难性的遗忘。
灾难性遗忘会产生不利影响:
模型训练和资源使用:忘记基础知识的模型必须重新训练。为领先的生成式 AI 服务提供支持的 LLM 的培训成本高达数百万美元,其中包括计算资源,以及确保其所在的超大规模数据中心运转所需的电力和水。
模型部署和 AI 应用程序维护:随着模型性能下降,调用模型的应用程序也将会遇到性能问题。在模型必须适应当地情况的边缘部署中,灾难性遗忘的风险可能会增加。
自主学习:随着时间的推移,体验式学习系统可能会出现灾难性遗忘现象。基础知识的遗失可能会降低这些系统的适应性、可靠性和一致性。对于机器人和自动驾驶汽车,这些影响尤为危险。
研究人员和其他专家就应对灾难性遗忘现象提出了一系列技术。James Kirkpatrick 、Andrei A. Rusi 等人于 2017 年发表了一篇具有里程碑意义的论文,探讨了基于降低旧任务相关权重学习速率的方法。2025 年,另一个计算机科学家团队探索使用反向传播算法来克服灾难性遗忘(脚注: https://arxiv.org/abs/2501.01045#)。
其他克服灾难性遗忘的方法包括:
正则化
架构解决方案
集成方法
复述技术
基于记忆的神经网络 (MANN)
正则化是一类技术,它使模型更具通用性,但同时也会增加出现偏差的风险,模型会更容易适应新数据。弹性权重合并 (EWC) 就是这样一种技术,它在损失函数中加入了惩罚,用于调整对旧任务非常重要的模型权重。
突触智能的作用与此类似,它抑制模型改变主要参数。这两种技术都使模型不太可能丢失先前的知识。
集成方法将多个模型的输出结合起来以获得更可靠的结果。终身学习森林是属于随机森林模型,会为新任务添加新森林或决策树,类似于 PNN 随着工作负载的增加而添加新网络。
同时,分隔式模块化架构可以防止新数据污染网络的其余部分。特定于任务的模块可按需激活,在不使用时保留所获得的知识。
复述技术在训练新任务期间将模型暴露于旧数据,有助于确保模型不会灾难性地忘记之前学到的内容。体验回放是一种强化学习技术,其中模型将过去的体验存储在单独的数据集中,然后在训练期间从该记忆中随机采样。
记忆增强神经网络是一种颇具前景的架构,它能将神经网络与外部记忆存储相结合。在处理用户提示等输入序列时,MANN 可以读取和写入记忆。许多方法采用注意力机制,为每个任务隔离出最相关的记忆组件。
梯度情景记忆 (GEM) 是一个 MANN 示例,它可支持 AI 模型存储和回忆过去的经验,从而为新任务提供信息,并保留先前获得的知识。
1. “连接性网络中的灾难性干扰:序列学习问题”, McCloskey 和 Cohen,《Psychology of Learning and Motivation》,1989 年
2. “持续微调过程中大型语言模型中灾难性遗忘的实证研究”,Luo 等人,2025 年 1 月 5 日
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。