统计学家 George Box 写道:“所有的模型都是错误的,但有些模型是有用的。”1 无论是定性模型、人工智能模型、动态数学模型还是统计模型,总是无法满足现实的复杂性。
影响各类模型的不确定性有多种类型。不确定性来源包括系统中的随机过程或随机特征(称为偶然不确定性)、不完备知识(称为认知不确定性)或计算限制。
模型不确定性不仅可以帮助我们估计模型随时间推移的准确性,还可以帮助显示可能结果的范围。它还有助于了解如何减少衡量和模型中的不确定性。
不确定性和准确性是两个不同的概念,但两者又密切相关。预测准确度衡量预测值与已知值的接近程度。不确定性则反映预测值和目标值可能存在的变动幅度。
仅将苹果图像分类为红色或绿色的计算机视觉系统,其固有不确定性比对世界上已知每种水果的照片进行分类的系统要小得多。不确定性量化 (UQ) 是一种准确衡量这两个问题之间不确定性程度的方法。
当模型包含不确定性时,其输出可能会因不同的概率而变化。我们将这些输出视为随机变量,并使用概率分布来衡量不确定性。分布越广,结果的不确定性就越大。虽然方差对于高斯分布很有效,但许多现实世界的系统会创建需要不同衡量方法的非标准分布。
不确定性量化方法有助于告诉您对任何特定预测的信心。这可以是统计技术(例如分布测试)做出的预测,也可以是机器学习算法做出的预测或推断。UQ 还可以帮助我们了解模型可能产生的结果范围。
例如,如果天气模型预测降雨概率为 70%,那么 UQ 可以帮助确定这 70% 是否基于可靠的训练数据,或者是否存在很大的不确定性,其实际概率可能在 50% 到 90% 之间。
UQ 方法很重要,因为它可以显示错误和未知因素如何影响最终结果。这可以防止模型变得过度自信,并有助于集中精力提高机器学习模型的准确性。
计算 UQ 有助于确定哪些不确定性影响最大,并有助于优化模型训练。UQ 还能帮助决策者了解预测的可靠性。UQ 可以帮助您将“这种模式可能是错误的”这样的陈述转化为具体的、可衡量的信息,说明它可能错到什么程度、在哪些方面可能是错误的。在医学、不容错工程或其他可靠性至关重要的领域工作时,这一点非常宝贵。
不确定性主要有两种类型:数据驱动型不确定性和模型驱动型不确定性。无论哪种情况,在预测之前和之后了解预测的可靠性都会有所帮助。
您可以将其视为一个模型,用于预测门铰链在发生故障之前可以打开和关闭多少次,误差幅度大约为 1000 次操作。它还可以显示这次关闭门铰链损坏的可能性有多大。
基于采样的方法是用于不确定性量化的最常用技术之一,因为它们可以处理任何类型的模型复杂性,并提供直观全面的不确定性特征。通过生成许多可能的场景,采样可以构建一个统计图,说明在应用于真实世界数据时可能出现哪些结果以及我们的预测有多不确定。这些方法不是通过分析计算不确定性,而是利用对许多样本输出的统计分析来确定不确定性分布的特征。
蒙特卡罗模拟是最常用的方法之一。它通过随机变化的输入运行数千次模型模拟,以了解可能的输出范围。这在参数模型中尤为常见,通过比较不同模型的置信区间和模型输出,了解所有可能值的范围。
蒙特卡罗模拟的一种变体称为拉丁超立方采样。这是一种更高效的版本,需要的运行次数更少,但仍能很好地覆盖输入空间。
蒙特卡罗暂退是另一种在预测期间保持暂退处于活动状态的技术,该方法运行多次前向传递以获得输出分布。2 暂退主要用作正则化技术,这是一种用于微调机器学习模型的方法。该方法旨在优化调整后的损失函数,同时避免过度拟合或欠拟合的问题。
蒙特卡罗暂退在测试时应用暂退,并使用不同的暂退掩码运行多次前向传递。这样,模型就会产生预测结果分布,而不是单点估算。该分布可让我们深入了解模型预测结果的不确定性。这是一种计算效率很高的技术,可以让神经网络输出分布,而无需对神经网络进行多次训练。
如果多次运行实际模型成本过于高昂,统计学家会使用高斯过程回归 (GPR) 等技术创建简化的“代理”模型。5 GPR 是一种用于对预测结果的确定性进行建模的贝叶斯方法,使其成为优化、时间序列预测和其他应用的重要工具。GPR 基于“高斯过程”的概念,具有联合高斯分布的随机变量的集合。
您可以将高斯过程看作是函数的分布。GPR 将先验分布置于函数之上,然后使用观测到的数据创建后验分布。使用 GPR 计算不确定性,不需要额外的训练或模型运行,因为输出本身就通过分布表示了模型对估算的确定性或不确定性。Scikit-learn 等库为不确定性分析提供了 GPR 的实施。
采样方法的选择取决于哪些功能对您的模型和场景最重要。现实世界中的大多数应用都结合了多种方法。
贝叶斯统计是一种统计推理方法,它利用贝叶斯定理将先验信念与观察到的数据相结合,并更新假设的概率。贝叶斯统计法通过分配概率分布而非单一固定值来明确处理不确定性。贝叶斯方法不是给出模型参数的单一“最佳”估算,而是提供可能估算的可能性分布。
贝叶斯推理会随着新数据的出现而更新预测,这自然会在整个估算协变量的过程中包含不确定性。马尔可夫链蒙特卡罗 (MCMC) 方法有助于在数学解法复杂的情况下实施贝叶斯方法。MCMC 方法从无法直接采样的复杂高维概率分布中采样,特别是贝叶斯推理中的后验分布。
贝叶斯神经网络 (BNN) 与传统神经网络不同,后者将网络权重视为概率分布而不是定点估算。这种概率方法可以实现有原则和严格的不确定性量化。这些不是权重的单点估算,而是保持所有网络参数的概率分布。预测通常包括
有几种流行的开源库用于实施 BNN,例如 PyMC 和 Tensorflow-Probability。
基于集合的不确定性量化背后的核心思想是,如果多个独立训练的模型在预测上出现分歧,这种分歧就表明正确答案的不确定性。4相反,集合中的所有模型都一致时,则表明对预测的置信度更高。这种直觉通过集合预测的方差或扩散转化为具体的不确定性衡量。
如果 f₁、f₂……fₙ 表示 N 个集合成员对输入 x 的估算量,则不确定性可量化为
其中,f̄(x) 是集合平均值。训练多个不同模型(不同的架构、训练数据子集或初始化)并将其预测结果相结合。这种方法的主要缺点是计算成本:需要训练和运行多个模型。
共形预测是一种不确定性量化的技术。它提供了一个与分布无关、与模型疑似无关的框架,用于创建预测区间(用于回归场景)或预测集(用于分类应用)。3 这样,只需对模型或数据做最少的假设,就能提供有效的覆盖保证。这使得共形预测在使用黑匣预训练模型时特别有用。
共形预测有多种功能,使其具有广泛的适用性。例如,它仅要求数据点的可交换性,而不要求它们独立和同分布。共形预测还可以应用于任何预测模型,并允许您设定模型允许的预测不确定性。
例如,在回归任务中,您可能希望实现 95% 的覆盖率,这意味着模型应该输出一个范围,其中真实值 95% 的时间都落在输出区间内。这种方法与模型无关,并且适用于分类、回归、神经网络和各种时间序列模型。
要使用共形预测,您需要将数据分为三组:训练集、基线测试集和校准集。校准集用于计算不合格分数,通常表示为 si。该分数衡量预测的不寻常程度。给定一个新的输入,根据这些分数形成一个预测区间以保证覆盖率。
在分类任务中,共形预测不一致性分数是衡量新实例与训练集中现有实例的偏差程度的指标。这决定了新实例是否属于某个特定类。对于多类分类,这通常是特定标签的 1 类预测类概率。
因此,如果新实例属于某个类的预测概率越高,则不符合性得分就越低,反之亦然。一种常见的方法是计算校准集中每个实例的 si 分数,并将分数从低(确定)到高(不确定)排序。
要实现 95% 的共形覆盖率,需要计算阈值 q ,其中 95% 的 si 分数较低。对于新的测试示例,如果 si 小于阈值 q,则将其纳入预测集。
如果需要保证模型具有 95% 的共形覆盖率,您需要获得所有类的平均 si 分数。然后,您将找到包含 95% 数据的 si 分数阈值。这样,您就可以确保分类器能够正确识别所有类中 95% 的新实例。
这与分类器的准确性略有不同,因为共形预测可能识别多个类。在多类分类器中,共形预测还可以显示所有类的覆盖率。您可以为单个类而不是整个训练集指定覆盖率。
不确定性量化在机器学习、人工智能开发和计算机科学等许多领域都很重要。以下仅列举一些最常见的应用情况。
管理和量化时间序列预测中的不确定性对于金融、经济、天气预测和供应链管理的决策过程至关重要。概率模型能够输出分布而非单点估算,因此备受青睐。这些模型与确定性模型形成对比,确定性模型只输出单个值而非可能值的分布。有许多用于时间序列预测的概率模型,例如 ARIMA 模型或贝叶斯神经网络。
拟合 ARIMA 模型首先要捕捉自回归 (AR) 和移动平均 (MAS) 部分,并通过差分确保平稳性。在生成点预测后,模型会评估残差,残差代表观测值和预测值之间的差异。ARIMA 使用正态分布残差的标准差来构建点预测周围的预测区间。
本质上,预测区间越宽,与预测相关的不确定性就越大。这种技术方法不仅能提高预测的准确性,还能从统计学角度衡量未来观测结果可能出现的范围。
深度学习为不确定性量化带来了多重挑战,因为深度学习模型通常在网络各层之间具有高维度和非线性关系。在训练和部署这些模型的过程中,计算通常也会受到很大的限制,这使得量化任何推理中存在的不确定性量变得困难。
一些常用的技术是专门为深度神经网络开发的。例如,基于采样的方法(如深度集合),其中多个独立训练的网络都具有不同的初始化或数据子集。集合预测之间的差异可以表明架构本身预测的不确定性。这是一种简单但计算成本较高的技术,因为它需要训练多个完整模型。
另一种常用的技术是蒙特卡罗暂退,它能在推理过程中保持暂退层处于活动状态。6这种方法对近似贝叶斯推理执行多次前向传递。每个暂退掩码都会创建一个不同的子网,并且预测方差会估算不确定性。由于无需更改模型架构,因此很容易在现有模型上实施。您无需在推理期间关闭暂退,而是将其保持启用状态并运行多个前向传递。类似的方法是批量规范化不确定性,即在推理时从学习到的批量统计数据中随机采样以创建预测分布。
主动学习是一种可扩展的机器学习范式,其中算法可以选择从哪些数据点进行学习,而不是在固定数据集上进行训练。如果允许学习算法选择从中学习的数据,则可以在更少的标记示例下获得更好的性能。传统的监督学习假定,在模型开发过程开始就有一个大型的标记数据集。在现实世界的许多应用场景中,非标记数据非常丰富,而标记数据则非常耗时耗钱,或者需要专业知识才能获取。使用较小的标记集训练模型后,您将使用该模型来评估大量未标记的示例。主动学习根据某种学习策略选择最具“信息量”的未标记示例。
主动学习策略可以使用不确定性量化估算来确定哪些未标记示例最有价值,值得接下来进行标记。其基本前提是,模型应要求对最不确定的数据点进行标记,因为这些示例可能提供最大的信息增益。
不确定性量化的指标通常用于比较使用相同架构的不同模型,而不是用于比较不同的架构或作为绝对值。某些类型的衡量(如预期校准误差)确实可以衡量特定模型的校准。
但是,如果您不衡量模型对测试数据的校准,则可以使用多个互补指标,而不是依赖单一指标,因为不同的指标可以捕捉不确定性的不同方面。
一般来说,不确定性的指标分为两大类:正确评分规则和校准指标。
正确评分规则最适合具有自然不确定性估算的概率模型,因为它们估算了与真实概率分布的偏差。数值越高,说明预测概率与真实概率相差越远。这提供了一种评估概率预测或预报的指标,该指标通常是一系列可能的输出结果,而不是单一值。
典型的损失函数(如均方误差)为预测值和观测值分配拟合优度分数。但是,评分规则为预测的概率分布和观测值分配分数。
负对数似然 (NLL) 是一种优化分类任务神经网络的常用方法。不过,这一损失函数也可用作不确定性指标。由于 NLL 直接衡量模型预测的概率分布与观测结果的匹配程度,因此它从本质上捕捉了概率预测的准确性和置信度质量。
对于二元问题的分类模型,如果预测结果为 [0.9, 0.1],而真实类分布为 60–40,则该模型的平均 NLL 较高。这是因为当置信预测错误时,NLL 会重罚过度置信的第二个模型。
布里尔分数是另一种通常用于分类任务的正确评分规则。它有时比 NLL 更受欢迎,因为它严格限制在 0-1 的范围内,因此在数值上更稳定。这是一个全面的不确定性指标,因为它既能评估预测概率与观测频率的匹配程度,也能评估预测的置信度。
连续排名概率分数 (CRPS) 是气象学、水文学和气候科学等领域广泛使用的指标。CRPS 衡量预测的累积分布函数 (CDF) 与代表真实结果的阶跃函数之间的差异。CRPS 量化了预测分布围绕观测值的离散程度。
校准指标最适合预训练模型(如基础模型或大型语言模型 (LLM))或使用 softmax 输出的分类任务。它们有助于衡量“真实置信度”和“预测置信度”之间的差异。正确评分规则是对分布进行比较,而校准则是对确定性本身进行比较。如果计算出的校准指标为 0.6,则应意味着神经网络对某个特定预测的确定性为 60%。7
当模型的预测置信度分数准确反映正确性的真实可能性时,该模型就被视为已经过校准。更正式地说,校准意味着在模型表达置信度 p 的所有预测中,大约有 p 部分应该是正确的。校准指标是在整个数据集上计算的,以便对不同的概率进行分组。相比之下,正确评分规则是对单个概率进行比较。
预期校准误差 (ECE) 是使用最广泛的指标之一。它根据置信度水平将预测划分为分箱,并衡量每个分箱内的置信度和准确性之间的平均差异。典型的方法是使用 10-15 个等距分箱,用于计算该分箱中预测概率的平均值,以及该分箱中实际正确的预测部分。
当一个完美校准的模型有 90% 的置信度时,它应该在 90% 的时间内是正确的。ECE 通过返回从 0(完美校准)到 1(最差校准)的值来衡量这一点。由于指标的绝对值,该指标对过度置信和置信不足一视同仁。它对于比较各个模型最有帮助,而不是单独将某个指标应用于某个特定模型。
最大校准误差 (MCE) 通过取所有分箱的置信度和准确度之间的最大差值而不是平均值,来衡量最坏情况下的校准误差。这为了解校准最差的区域提供了帮助。
自适应校准误差 (ACE) 通过使用自适应分箱战略来解决固定分箱的局限性,确保每个箱包含大致相同数量的样本,从而提供更稳健的估算,尤其是在数据有限的情况下。
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。
1. G. E. P. Box(1976 年)。《Science and statistics》。《Journal of the American Statistical Association》第 71(356) 期,791–799 页。https://doi.org/10.1080/01621459.1976.10480949
2. Y. Gal、Z. Ghahramani 和剑桥大学。(2016 年)。《Dropout as a Bayesian approximation: representing model uncertainty in deep learning》。第 33 届国际机器学习大会论文集。
3. A. N. Angelopoulos 和 S. Bates(2021 年 7 月 15 日)。《A gentle introduction to conformal prediction and Distribution-Free uncertainty quantification》。arXiv.org。https://arxiv.org/abs/2107.07511
4. B. Lakshminarayanan、A. Pritzel 和 C. Blendell(2016 年 12 月 5 日)。《Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles》。arXiv.org。https://arxiv.org/abs/1612.01474
5. C. K. I. Williams、Neural Computing Research Group, C. E. Rasmussen、Department of Computer Science 和 University of Toronto。(1996 年)。《Gaussian processes for regression》。https://proceedings.neurips.cc/paper_files/paper/1995/file/7cce53cf90577442771720a370c3c723-Paper.pdf
6. C. Wang(2023 年 8 月 2 日)。《Calibration in Deep Learning: A Survey of the State-of-the-Art》。arXiv.org。https://arxiv.org/abs/2308.01222
7. C. Guo、G. Pleiss、Y. Sun 和 K. Q. Weinberger(2017 年)。《On calibration of modern neural networks》。国际机器学习大会,1321–1330。https://proceedings.mlr.press/v70/guo17a/guo17a.pdf
8. J. Nixon、M. W. Dusenberry、L. Zhang、G. Jerfel 和 D. Tran(2019 年)。《Measuring calibration in deep learning》。Computer Vision and Pattern Recognition,38–41。https://openaccess.thecvf.com/content_CVPRW_2019/papers/Uncertainty and Robustness in Deep Visual Learning/Nixon_Measuring_Calibration_in_Deep_Learning_CVPRW_2019_paper.pdf