模型崩溃是指在 AI 生成的内容上训练的生成式 AI 模型的性能下降。
AI 开发和计算机科学中的一句俗语是,人工智能 (AI) 模型的好坏取决于它训练所使用的数据。近年来,研究人员发现,仅根据其前驱的输出进行训练的生成模型会产生越来越不准确的结果。这些模型受到“不可逆转的缺陷”的困扰,最终变得毫无用处。1发生这种情况是因为一个模型在拟合期间输出中存在的任何错误稍后都会包含在其后续模型的训练中。然后,新模型也会产生自己的错误。模型崩溃会因错误与连续世代的更替相结合而产生。2
之所以会出现这些错误,是因为生成式 AI 模型产生的数据集比原始数据分布的变化要小。Ilia Shumailov、Zakhar Shumaylov、Yiren Zhao 和一个由英国和加拿大大学研究人员组成的团队撰写了一份关于模型崩溃的报告,并被广泛引用。通过对 AI 模型的实验,研究小组发现,在 AI 生成的数据(也称为合成数据)上训练出来的模型,最初会丢失数据真实分布的尾部或极端信息—他们称之为"早期模型崩溃"。在后来的模型迭代中,数据分布逐渐趋同,几乎与原始数据毫无二致—研究人员称之为 "后期模型崩溃。"3
在现实世界中,大型生成式 AI 模型(如大型语言模型 (LLM))的训练过程可能会导致模型崩溃。LLM 大多是根据从互联网上搜索到的人为数据进行训练的。然而,随着 AI 生成的内容在网络上越来越多,这些内容就越有可能被用来训练未来的模型,而不是人类生成的数据,从而有可能导致模型崩溃。
模型崩溃现象对 AI 的发展造成了严重的影响,因此研究人员提出了几种解决方案。这些解决方案包括跟踪数据出处、保留对原始数据源的访问权限,以及将积累的 AI 生成数据与真实数据相结合来训练 AI 模型。
近年来,生成式 AI 模型因产生不准确和无意义的输出(也称为 AI 幻觉)而成为头条新闻。例如,Google Bard 的聊天机器人对詹姆斯-韦伯太空望远镜提出了错误的说法,而 AI 生成的人类图像拥有多余手指的趋势也无处不在。
虽然不准确和无意义的输出会带来不便,有时还会让人觉得有趣,但模型崩溃的后果也可能是深远的:
模型崩溃的不准确输出可能会给在决策中使用 AI 的企业造成代价高昂的后果。从客服聊天机器人到人工智能驱动医疗诊断工具的一切都可能受到影响。想象一下,一个 AI 诊断模型无法正确诊断患者患有罕见疾病,因为低概率疾病最终被遗忘,并从前几代模型的训练数据集中被删除。
在模型崩溃的情况下,模型可能会丢弃与真实的人类互动和偏好相关的离散数据点。因此,寻求不太流行或独特内容的用户可能会对模型输出感到失望。4举例来说,适合网上购物者的 AI 推荐系统:如果消费者喜欢青绿色的鞋子,而系统却不断推荐黑白相间的鞋子,因为它们最畅销,那么消费者可能会倾向于到其他地方寻求帮助。
如果广泛使用的 AI 系统在模型崩溃的情况下不断产生更狭窄的输出,"长尾"思想最终可能会淡出公众的意识,从而限制人类知识的范围,加剧社会中的常见偏见。5 例如,当今的科学家可以利用人工智能驱动的研究工具进行研究,为他们的研究提供信息。然而,受模型崩溃影响的工具可能只提供被广泛引用的研究报告供审查,从而可能使用户无法获得可能带来重要发现的关键信息。
不同类型的生成式 AI 模型容易受到模型崩溃的不同影响。
在 LLM 中,模型崩溃可能表现为越来越多的不相关、无意义和重复的文本输出。在一项实验中,研究人员对 Meta 公司发布的开源大型语言模型 OPT-125M 进行了微调。各代模型都是根据前代模型生成的数据进行训练的。在最初输入有关建筑的英语后,一代模型最终输出了有关不同颜色尾巴的杰克兔的信息。6
高斯混合模型可以将数据组织成群,但研究人员发现,将数据分离成两个群组的 GMM 在迭代几十次后,性能明显下降。随着时间的推移,该模型对基础数据分布的感知发生了变化,到第 2000 次迭代生成时,其输出显示的差异很小。9
模型崩溃是机器学习中观察到的多种模型降级现象之一。其他包括灾难性遗忘、模式崩溃、模型漂移和表演性预测。每一种都与模型崩溃有相似之处,但也有所不同。
灾难性遗忘和模型崩溃都涉及 AI 系统丢失的信息。然而,灾难性遗忘不同于模型崩溃。当单一模型学习新信息而"遗忘"以前的信息时,就会发生灾难性遗忘,导致该模型在应用于需要使用旧信息的任务时性能下降。模型崩溃与此不同,因为它会导致连续几代模型的性能下降,而不是数据丢失和一个模型内的性能下降。10
虽然名称与模型崩溃相似,但模式崩溃是 GAN 模型特有的现象。这种模型由两个不同的部分组成,即生成器和判别器,有助于生成在统计上与真实数据相似的合成数据。生成器负责创建数据,而判别器则对该过程进行持续检查,识别看起来不真实的数据。当生成器的输出缺乏变化幅度并且鉴别器无法检测到此缺陷时,就会发生模式崩溃,从而导致性能下降。
研究人员将生成式 AI 模型中的模型崩溃与监督式学习模型中的表演性预测进行了比较,因为两者都需要用以前的机器学习模型输入对训练集进行污染。当一个有监督学习模型的输出以符合模型预测的方式影响现实世界的结果时,就会出现表演性预测。这反过来又会影响未来的模型输出,产生"自我充实的预言"。当这一过程使歧视根深蒂固时,表演性预测也被称为公平反馈回路。11例如,人工智能驱动的房屋贷款决策模型是根据美国歧视性红线时代的数据训练出来的,它可能会鼓励贷款人在不经意间复制今天的这种歧视。
有几种策略可以帮助 AI 开发人员和组织防止模型崩溃。它们包括:
高质量的原始数据来源可以提供一些 AI 生成的数据中可能缺少的重要差异。确保 AI 模型仍在这些人类生成的数据基础上进行训练,可以保持 AI 系统在处理低概率事件时的良好性能,例如消费者偏爱不寻常的产品,或科学家从很少被引用的研究信息中获益。在这种情况下,产生的输出结果可能并不常见或流行,但实际上仍然是最准确的。
在信息生态系统中,很难区分模型生成的数据和人类生成的数据,但 LLM 开发人员和 AI 研究人员之间的协调可能有助于确保获取有关数据溯源的信息。麻省理工学院和其他大学的 AI 研究人员共同发起了"数据溯源倡议",对 4000 多个数据集进行了审核。12
一项研究表明,AI 开发人员可以通过使用真实数据和多代合成数据来训练 AI 模型,从而避免性能下降。这种积累与完全用 AI 生成的数据取代原始数据的做法形成鲜明对比。13
当 AI 开发人员深入了解数据积累时,他们也可能受益于专门为机器学习训练目的而生成的合成数据质量的提高。数据生成算法的进步有助于提高合成数据的可靠性和实用性。例如,在医疗保健领域,合成数据甚至可以用于为训练模型提供更广泛的场景,从而实现更好的诊断功能。
人工智能治理 工具可以通过加强对 AI 系统的监督和控制,帮助 AI 开发人员和公司降低 AI 性能下降的风险。这些工具可以包括偏见、漂移、性能和异常的自动检测系统,从而在模型崩溃影响企业底线之前就能发现它。
链接位于 ibm.com 外部。
1、3、6、7 “递归的诅咒:在生成数据上进行训练会使模型遗忘。”arXiv.org。2024 年 4 月 14 日。
2 “互联网还没有完全怪异,AI 可以解决这个问题。IEEE Spectrum。2023 年 6 月 23 日。
4, 5“AI and the Problem of Knowledge Collapse”,arXiv.org。2024 年 4 月 22 日。
8 “打破 MAD:生成式 AI 可能会打破互联网。”莱斯大学新闻与媒体关系部。2024 年 7 月 30 日。
9、10“Supplementary Information: AI models collapse when trained on recursively generated data”,Nature Portfolio。2024 年 9 月 22 日访问。
11“Fairness Feedback Loops: Training on Synthetic Data Amplifies Bias”,ACM Conference on Fairness, Accountability, and Transparency。2024 年 9 月 30 日访问。
12 “关于。”数据出处倡议。2024 年 9 月 23 日访问。
13 “模型崩溃不可避免吗?通过积累真实数据和合成数据打破递归诅咒。”arXiv.org。2024 年 4 月 29 日。
借助 IBM watsonx.governance 随时随地治理生成式 AI 模型,并在云端或本地进行部署。
了解人工智能治理如何能帮助增强员工对 AI 的信心、加速采用和创新并提高客户信任。
借助 IBM Consulting,为《欧盟 AI 法案》做好准备并制定负责任的人工智能治理方法。