模型漂移是指由于数据变化或者输入变量与输出变量之间的关系发生变化而导致机器学习模型性能下降。模型漂移(也称为模型衰减)可能对模型性能产生负面影响,从而导致错误的决策和糟糕的预测。
为了检测和减少漂移,组织可以监控和管理他们的数据和人工智能 (AI) 平台上的性能。如果随着时间的推移不对模型进行适当监控,那么即使经过充分训练的无偏 AI 模型在部署时也可能“偏离”它的原始参数并产生不需要的结果。漂移检测是强大 AI 治理的核心组成部分。
使用历史数据构建的模型很快就会停滞不前。通常,新的数据点总是在不断涌现 - 新的变化、新的模式、新的趋势 - 而这些都是旧有的历史数据无法捕捉的。如果 AI 模型的训练与传入数据不一致,它就无法准确解读数据,或使用实时数据做出可靠且准确的预测。
如果不能迅速发现和缓解,漂移就可能会进一步扩大,从而增加运营危害。偏移检测使组织能够持续从其模型接收准确的输出。
世界日新月异,数据也在随之不断变化,因此必须坚持不懈地审查和更新用来理解世界的模型。下面是需要解决的 3 种模型漂移,每种漂移都是由不同的原因造成的。
当输入变量与目标变量之间存在分歧时,就会发生概念漂移,这时,算法开始提供错误的答案,因为定义不再有效。自变量的漂移可能在各种不同的时期内产生影响:
概念漂移会定期反复发生和消失,例如由于天气变化而出现的季节性购买行为。在秋末冬初的寒冷天气里,雪铲和吹雪机的销量通常会增加。此外,还必须根据预期的降雪量进行地理调整。
出人意料的进展可能催生新的购买模式。例如,ChatGPT 的横空出世导致 AI 硬件和软件产品的需求量增大,AI 相关公司的股票价值也水涨船高。在这些新闻报道发布之前,经过训练的预测模型无法预测后续结果。
另一个示例是新冠疫情爆发,这也造成了行为的突然转变:游戏和健身器材销量猛增,但餐馆和酒店客流大大减少。
有些漂移是逐渐发生或按预期的速度发生。例如,多年来,垃圾邮件发送者和黑客们使用了多种工具和伎俩。随着防护软件和垃圾邮件过滤器不断改进,不法分子也相应升级了他们的攻击手段。任何旨在保护数字交互保护都需要与时俱进;静态模型很快就会变得毫无用处。
当输入数据的基础数据分布发生变化时,就会发生数据漂移(也称为协变量偏移)。在零售业,一种产品的销售可能由于另一种新产品的推出或者竞争产品的退市而受到影响。或者,如果一个网站首先被年轻人采用,但随后又受到老年人青睐,那么基于年轻用户使用模式的原始模型在老年用户群中的表现可能会打折扣。
上游数据变化发生在数据管道中发生变化时。例如,上游数据可能改用另一种货币,比如美元换成欧元,或者以英里而不是公里为测量单位,或者以华氏度而不是摄氏度为温度测量单位。这样的变化会导致不考虑数据标记方式变化的模型遭到淘汰。
企业和数据科学家可以使用各种数据漂移检测方法来了解机器学习模型漂移的情况,并在模型过时之前纠正方向。
许多最流行的方法都是基于时间分布的方法,它们测量两个概率分布之间的潜在偏差。如果结果明显不同,则输入数据的统计属性可能发生了变化,导致数据漂移。
数据漂移检测是数据可观察性一个核心方面,而数据可观察性是指持续监控流经组织的数据的质量和可靠性。Python 编码语言在数据科学领域尤其流行,可用于创建开源漂移探测器。
Kolmogorov-Smirnov (K-S) 检验测量两个数据集是否源自同一分布。在数据科学领域,K-S 检验是非参数检验,这意味着它不需要分布满足任何预先设定的假设或标准。
数据科学家使用 Kolmogorov-Smirnov 检验主要有两个原因:
确定数据样本是否来自特定人群。
比较两个数据样本,看它们是否来自同一人群。
如果 K-S 检验的结果显示两个数据集似乎来自不同的群体,那么很可能发生了数据漂移,这使得 K-S 检验成为可靠的漂移检测器。
Wasserstein 距离以数学家 Leonid Vaserstein 的名字命名,它使用一个简单的比喻,将数据漂移的严重程度可视化。它设想了两个小土堆,数据漂移是指从另一个土堆上取土来堆成一个土堆所需的工作量。因此,Wasserstein 距离在计算机和数据科学中也称为推土距离 (EMD)。
作为一种漂移检测方法,Wasserstein 距离将训练数据与输入机器学习模型的新输入数据进行比较。它在识别特征之间的复杂关系方面表现出色,并能对异常值进行导航,从而获得一致的结果。
群体稳定性指数 (PSI) 比较两个数据集分类特征的分布,以确定该分布随时间推移的变化程度。
分布背离越大,PSI 值越高,表明存在模型漂移。PSI 可以评估独立特征和依赖特征;这些特征会根据其他变量而改变。
如果一个或多个分类特征的分布返回高 PSI,则机器模型可能需要重新校准甚至重新构建。
通过遵循以下最佳实践,企业可以更好地管理数据漂移检测和修复:
由于生产数据与模型的训练数据不同,AI 模型的准确性可能在部署之后的几天内下降。这可能导致错误的预测和面临重大风险。
为了防范模型偏移和偏差,组织应当使用 AI 程序和监控工具,自动检测模型的精度何时下降(或漂移)到预设阈值以下。
这个用来检测模型漂移的程序还应跟踪哪些事务导致了漂移,以使这些事务能被重新标记并用来重新训练模型,以恢复此程序在运行时的预测能力。
统计漂移检测使用统计指标来比较和分析数据样本。这种方法通常更容易实施,因为大多数指标已经在企业内投入使用。基于模型的漂移检测可以衡量一个点或一组点与参考基线的相似性。
组织应在 AI 模型(尤其是生成 AI 模型)的整个生命周期内定期对其进行测试。这样的测试最好包括:
据 Forrester 的总体经济影响研究显示,“通过在统一的数据和 AI 环境中构建、运行和管理模型,[组织]可以确保 AI 模型在任何位置均保持公平、可解释且合规。这种端到端的 AI 方法十分独特,可支持组织进行检测,并帮助纠正模型漂移和偏见,在 AI 模型投入使用时管理模型风险。”
最佳做法是从一个中央仪表板管理所有模型。一种综合性方法可以帮助组织持续跟踪指标,并提醒各个团队留意开发、验证和部署过程中的准确性和数据一致性发生的变化。集中、全面了解情况可以帮助企业打通数据孤岛,并提高整个数据沿袭中的透明度。
通过 AI 模型实时比较生产数据、训练数据和模型预测,以检测漂移情况和漂移幅度。这样就能迅速发现漂移,并立即开始重新训练。和机器学习操作 (MLOps) 一样,这一检测也是迭代式的。
使用一个新的训练数据集,其中添加了最新的相关样本。目标是让您的大型语言模型 (LLM) 快速、正确地恢复生产。如果重新训练模型不能解决问题,可能需要使用一个新模型。大型语言模型运维 (LLMOps) 技术可以帮助组织监控和重新训练他们的 LLM。
组织可以通过最新的真实数据更新自己的机器学习 (ML) 模型,以练习“在线学习”,而不是利用批量数据训练模型。
模型可能会出现漂移,因为用来训练模型的数据与要使用的实际生产数据存在差异。在医疗用例中,如果使用高分辨率扫描进行训练,但在现场只能执行低分辨率扫描,结果将会不正确。
我们对 2,000 家组织进行了调查,旨在了解他们的 AI 计划,以发现哪些方法有效、哪些方法无效,以及如何才能取得领先。
IBM Granite 是我们开放式、性能优异、值得信赖的 AI 模型系列,专门为企业量身定制,并经过优化,可以帮助您扩展 AI 应用程序。深入了解语言、代码、时间序列和护栏选项。
立即购买单用户或多用户订阅,即可访问我们完整的包含 100 多个在线课程的目录,以低廉的价格扩展您的技能。
本课程由 IBM 资深思想领袖带领,旨在帮助企业领导者获得所需的知识,以便划分可以推动增长的 AI 投资的优先级。
想要从 AI 投资中获得更好的回报吗?了解如何通过帮助您最优秀的人才构建和提供创新的新解决方案,在关键领域扩展生成式人工智能来推动变革。
了解如何自信地将生成式 AI 和机器学习融入您的业务中。
深入了解强大 AI 战略的 3 个关键要素:创造竞争优势、在整个企业中扩展 AI 以及推进值得信赖的 AI。