教导大语言模型“遗忘”非必要内容

发布日期 2024年9月9日

更新日期 2025年11月19日

特写镜头：工作人员使用 AI 深度学习和笔记本电脑分析数据

By Aili McConnon

正当大型语言模型 (LLM) 在从海量数据中学习方面展现卓越能力之时，一种逆向操作的新技术正引发科技公司热议：机器学习遗忘。

这种相对新颖的方法能教会 LLM 遗忘或“卸载”敏感、不可信或受版权保护的数据。它比从头重新训练模型更高效，并能追溯性地移除特定的非必要数据或行为模式。

难怪 IBM、谷歌和微软等科技巨头正加速推进机器学习遗忘的商业化落地。然而，对该技术日益增长的高度关注也凸显了其面临的挑战：模型可能遗忘过多内容，且行业缺乏评估遗忘效果的统一工具。

行业时事通讯

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

从学习到遗忘

通过万亿字节数据的训练，LLM 无需明确编程即可“学会”决策与预测。这个被称为机器学习的人工智能分支日益普及，机器学习算法通过模拟人类学习方式持续提升生成内容的准确性。

但更多数据也意味着更多问题。正如 IBM 高级研究科学家 Nathalie Baracaldo 所言：“无论好坏，所有被学习的数据都会留下深刻印记。”

因此，规模越庞大的模型越可能生成更具危害性、更恶毒的语言，并包含不符合网络安全标准的敏感数据。原因何在？这些模型利用互联网上非结构化且不可信的数据进行训练。即便经过严格的数据筛选、设定模型应答规范、使用防护机制检查输出内容，仍难以完全杜绝非预期行为、恶意软件、有害及侵权材料的渗透。

重新训练这些模型以移除不良数据需耗时数月，耗费数百万美元。此外，当模型开源后，基础模型中的任何漏洞都会扩散至众多衍生模型和应用。

遗忘技术旨在缓解这些问题。通过识别遗忘目标——例如包含有害、不道德或受版权保护的语言内容，以及非预期文本提示等特定数据点——遗忘算法能有效消除目标内容的影响。

Mixture of Experts | 12 月 12 日，第 85 集

解码 AI：每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见，带来最新的 AI 资讯与深度解析。

观看 Mixture of Experts 所有剧集

遗忘哈利·波特

微软研究团队尝试运用这种遗忘技术，测试能否让 Meta 公司的 Llama2-7b 模型忘记其从互联网训练中获得的哈利·波特版权材料。在实施遗忘前，当研究人员输入“哈利·波特是谁？”的提示时，模型回答：“哈利·波特是 J.K. 罗琳系列奇幻小说中的主角。”

在对模型进行微调来“遗忘”版权材料后，面对相同提示，模型回应变为：“哈利·波特是英国演员、作家兼导演……。”

“本质上，每当模型遇到与目标数据相关的语境时，就会‘遗忘’原始内容，”研究人员 Ronen Elden 与 Mark Russinovich 在博客中解释道。该团队将模型发布至 Hugging Face，以便 AI 社区共同探索遗忘技术并进行改良实验。

除移除版权材料外，删除敏感信息来保护个人隐私是另一重要用例。德克萨斯大学奥斯汀分校的 Radu Marculescu 团队与摩根大通的 AI 专家合作，正致力于图像生成模型的机器学习遗忘研究。在近期发表的论文中，他们展示了在保持整体图像集性能不受影响的前提下，成功消除图像中非必要元素（即“遗忘集”）的技术能力。

Marculescu 教授表示，这项技术在无人机勘测房地产等场景中可能发挥重要作用。“例如，如果画面中清晰可见儿童的面孔，可以通过技术手段将其涂掉以保护隐私。”

谷歌也正致力于在更广泛的开源开发者社区中推进遗忘技术的研究。2023 年 6 月，谷歌发起了首届机器学习遗忘挑战赛。该竞赛以经过人脸图像训练的年齡预测模型为测试对象。要求参赛者在训练后遗忘特定子集的训练图像，以保护相关个体的隐私权或肖像权。

尽管尚不完美，各团队的初期研究成果已展现出良好前景。以 IBM Baracaldo 团队为例，通过对 Llama 模型实施机器学习遗忘，成功将模型毒性评分从 15.4% 降至 4.8%，且未影响 LLM 执行其他任务的准确度。相较于耗时数月、耗资巨大的模型重训练，该项遗忘操作仅需 224 秒即可完成。

技术瓶颈

为何机器学习遗忘尚未广泛应用？

“遗忘方法仍处于发展初期，尚未实现规模化应用，”Baracaldo 解释道。

当前首要挑战是“灾难性遗忘”现象——即模型遗忘内容远超研究者预期，导致无法执行预设核心任务。

IBM 团队已开发出改进模型训练后功能的新框架。通过采用“分割-遗忘-合并” (SPUNGE) 技术，该团队成功消除了模型中的毒性行为以及生物安全、网络安全风险等危险知识，同时完整保留了模型的通用功能。

开发全面可靠的评估工具以衡量遗忘效果的有效性，仍是研究人员普遍认为有待解决的问题。

机器学习遗忘的未来

尽管遗忘技术尚处探索阶段，但由于其在众多潜在应用领域、行业和地区都展现出实用价值，研究人员正加倍投入研究。

以欧洲为例，欧盟《通用数据保护条例》保障了个人的“被遗忘权”。若个人选择删除其数据，机器学习遗忘可帮助确保企业遵守法规，彻底移除关键数据。除安全与隐私领域外，该技术在数据许可到期、客户离开大型金融机构或医疗集团等需要增删数据的场景中同样具有应用潜力。

“遗忘技术最吸引我的地方在于，”Baracaldo 表示，“我们既能继续采用数据过滤等现有防护手段。又能在发现问题时及时‘修补’或修正模型，彻底清除所有非必要内容。”

作者

Staff Writer

IBM

解锁生成式 AI + 机器学习的强大功能

了解如何自信地将生成式 AI 和机器学习融入您的业务中。

资源

提升您的机器学习专业知识

学习基本概念并通过亲手实验、课程、指导项目、试用等方式培养您的机器学习技能。

解锁生成式 AI + 机器学习的强大功能

了解如何自信地将生成式 AI 和机器学习融入您的业务中。

让 AI 充分发挥作用：利用生成式 AI 提高投资回报率

想要从 AI 投资中获得更好的回报吗？了解如何通过帮助您最优秀的人才构建和提供创新的新解决方案，在关键领域扩展生成式人工智能来推动变革。

如何选择合适的 AI 基础模型

了解如何为您的用例选择最合适的 AI 基础模型。

深入了解 IBM Granite

IBM Granite 是我们开放式、性能优异、值得信赖的 AI 模型系列，专门为企业量身定制，并经过优化，可以帮助您扩展 AI 应用程序。深入了解语言、代码、时间序列和护栏选项。

树立信任，从容自信在 AI 新时代蓬勃发展

深入了解强大 AI 战略的 3 个关键要素：创造竞争优势、在整个企业中扩展 AI 以及推进值得信赖的 AI。

AI 实际应用报告

我们对 2,000 家组织进行了调查，旨在了解他们的 AI 计划，以发现哪些方法有效、哪些方法无效，以及如何才能取得领先。

相关解决方案

IBM watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai，可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据，即可在很短的时间内构建 AI 应用程序。

了解 watsonx.ai

人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合，让人工智能在您的业务中发挥作用。

深入了解 AI 解决方案

AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营，最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务

采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK，生成功能强大的 AI 解决方案。

深入了解 watsonx.ai

预约实时演示