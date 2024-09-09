微软研究团队尝试运用这种遗忘技术，测试能否让 Meta 公司的 Llama2-7b 模型忘记其从互联网训练中获得的哈利·波特版权材料。在实施遗忘前，当研究人员输入“哈利·波特是谁？”的提示时，模型回答：“哈利·波特是 J.K. 罗琳系列奇幻小说中的主角。”

在对模型进行微调来“遗忘”版权材料后，面对相同提示，模型回应变为：“哈利·波特是英国演员、作家兼导演……。”

“本质上，每当模型遇到与目标数据相关的语境时，就会‘遗忘’原始内容，”研究人员 Ronen Elden 与 Mark Russinovich 在博客中解释道。该团队将模型发布至 Hugging Face，以便 AI 社区共同探索遗忘技术并进行改良实验。

除移除版权材料外，删除敏感信息来保护个人隐私是另一重要用例。德克萨斯大学奥斯汀分校的 Radu Marculescu 团队与摩根大通的 AI 专家合作，正致力于图像生成模型的机器学习遗忘研究。在近期发表的论文中，他们展示了在保持整体图像集性能不受影响的前提下，成功消除图像中非必要元素（即“遗忘集”）的技术能力。

Marculescu 教授表示，这项技术在无人机勘测房地产等场景中可能发挥重要作用。“例如，如果画面中清晰可见儿童的面孔，可以通过技术手段将其涂掉以保护隐私。”

谷歌也正致力于在更广泛的开源开发者社区中推进遗忘技术的研究。2023 年 6 月，谷歌发起了首届机器学习遗忘挑战赛。该竞赛以经过人脸图像训练的年齡预测模型为测试对象。要求参赛者在训练后遗忘特定子集的训练图像，以保护相关个体的隐私权或肖像权。

尽管尚不完美，各团队的初期研究成果已展现出良好前景。以 IBM Baracaldo 团队为例，通过对 Llama 模型实施机器学习遗忘，成功将模型毒性评分从 15.4% 降至 4.8%，且未影响 LLM 执行其他任务的准确度。相较于耗时数月、耗资巨大的模型重训练，该项遗忘操作仅需 224 秒即可完成。