不确定性主要有两种类型：数据驱动型不确定性和模型驱动型不确定性。无论哪种情况，在预测之前和之后了解预测的可靠性都会有所帮助。

您可以将其视为一个模型，用于预测门铰链在发生故障之前可以打开和关闭多少次，误差幅度大约为 1000 次操作。它还可以显示这次关闭门铰链损坏的可能性有多大。

基于采样的方法

基于采样的方法是用于不确定性量化的最常用技术之一，因为它们可以处理任何类型的模型复杂性，并提供直观全面的不确定性特征。通过生成许多可能的场景，采样可以构建一个统计图，说明在应用于真实世界数据时可能出现哪些结果以及我们的预测有多不确定。这些方法不是通过分析计算不确定性，而是利用对许多样本输出的统计分析来确定不确定性分布的特征。

蒙特卡罗模拟是最常用的方法之一。它通过随机变化的输入运行数千次模型模拟，以了解可能的输出范围。这在参数模型中尤为常见，通过比较不同模型的置信区间和模型输出，了解所有可能值的范围。

蒙特卡罗模拟的一种变体称为拉丁超立方采样。这是一种更高效的版本，需要的运行次数更少，但仍能很好地覆盖输入空间。

蒙特卡罗暂退是另一种在预测期间保持暂退处于活动状态的技术，该方法运行多次前向传递以获得输出分布。2 暂退主要用作正则化技术，这是一种用于微调机器学习模型的方法。该方法旨在优化调整后的损失函数，同时避免过度拟合或欠拟合的问题。

蒙特卡罗暂退在测试时应用暂退，并使用不同的暂退掩码运行多次前向传递。这样，模型就会产生预测结果分布，而不是单点估算。该分布可让我们深入了解模型预测结果的不确定性。这是一种计算效率很高的技术，可以让神经网络输出分布，而无需对神经网络进行多次训练。

如果多次运行实际模型成本过于高昂，统计学家会使用高斯过程回归 (GPR) 等技术创建简化的“代理”模型。5 GPR 是一种用于对预测结果的确定性进行建模的贝叶斯方法，使其成为优化、时间序列预测和其他应用的重要工具。GPR 基于“高斯过程”的概念，具有联合高斯分布的随机变量的集合。

您可以将高斯过程看作是函数的分布。GPR 将先验分布置于函数之上，然后使用观测到的数据创建后验分布。使用 GPR 计算不确定性，不需要额外的训练或模型运行，因为输出本身就通过分布表示了模型对估算的确定性或不确定性。Scikit-learn 等库为不确定性分析提供了 GPR 的实施。

采样方法的选择取决于哪些功能对您的模型和场景最重要。现实世界中的大多数应用都结合了多种方法。

贝叶斯方法

贝叶斯统计是一种统计推理方法，它利用贝叶斯定理将先验信念与观察到的数据相结合，并更新假设的概率。贝叶斯统计法通过分配概率分布而非单一固定值来明确处理不确定性。贝叶斯方法不是给出模型参数的单一“最佳”估算，而是提供可能估算的可能性分布。

贝叶斯推理会随着新数据的出现而更新预测，这自然会在整个估算协变量的过程中包含不确定性。马尔可夫链蒙特卡罗 (MCMC) 方法有助于在数学解法复杂的情况下实施贝叶斯方法。MCMC 方法从无法直接采样的复杂高维概率分布中采样，特别是贝叶斯推理中的后验分布。

贝叶斯神经网络 (BNN) 与传统神经网络不同，后者将网络权重视为概率分布而不是定点估算。这种概率方法可以实现有原则和严格的不确定性量化。这些不是权重的单点估算，而是保持所有网络参数的概率分布。预测通常包括

预测分布的平均值和方差估算

来自预测分布的样本

从分布中得出的可信区间

有几种流行的开源库用于实施 BNN，例如 PyMC 和 Tensorflow-Probability。

集成方法

基于集合的不确定性量化背后的核心思想是，如果多个独立训练的模型在预测上出现分歧，这种分歧就表明正确答案的不确定性。4相反，集合中的所有模型都一致时，则表明对预测的置信度更高。这种直觉通过集合预测的方差或扩散转化为具体的不确定性衡量。

如果 f₁、f₂……fₙ 表示 N 个集合成员对输入 x 的估算量，则不确定性可量化为

V a r [ f ( x ) ] = 1 N ∑ i = 1 N ( f i ( x ) - f ¯ ( x ) ) 2

其中，f̄(x) 是集合平均值。训练多个不同模型（不同的架构、训练数据子集或初始化）并将其预测结果相结合。这种方法的主要缺点是计算成本：需要训练和运行多个模型。

共形预测

共形预测是一种不确定性量化的技术。它提供了一个与分布无关、与模型疑似无关的框架，用于创建预测区间（用于回归场景）或预测集（用于分类应用）。3 这样，只需对模型或数据做最少的假设，就能提供有效的覆盖保证。这使得共形预测在使用黑匣预训练模型时特别有用。

共形预测有多种功能，使其具有广泛的适用性。例如，它仅要求数据点的可交换性，而不要求它们独立和同分布。共形预测还可以应用于任何预测模型，并允许您设定模型允许的预测不确定性。

例如，在回归任务中，您可能希望实现 95% 的覆盖率，这意味着模型应该输出一个范围，其中真实值 95% 的时间都落在输出区间内。这种方法与模型无关，并且适用于分类、回归、神经网络和各种时间序列模型。

要使用共形预测，您需要将数据分为三组：训练集、基线测试集和校准集。校准集用于计算不合格分数，通常表示为 s i 。该分数衡量预测的不寻常程度。给定一个新的输入，根据这些分数形成一个预测区间以保证覆盖率。

在分类任务中，共形预测不一致性分数是衡量新实例与训练集中现有实例的偏差程度的指标。这决定了新实例是否属于某个特定类。对于多类分类，这通常是特定标签的 1 类预测类概率。

s i = 1 - f ( x i ) [ y i ]

因此，如果新实例属于某个类的预测概率越高，则不符合性得分就越低，反之亦然。一种常见的方法是计算校准集中每个实例的 s i 分数，并将分数从低（确定）到高（不确定）排序。

要实现 95% 的共形覆盖率，需要计算阈值 q ，其中 95% 的 s i 分数较低。对于新的测试示例，如果 s i 小于阈值 q，则将其纳入预测集。

如果需要保证模型具有 95% 的共形覆盖率，您需要获得所有类的平均 s i 分数。然后，您将找到包含 95% 数据的 s i 分数阈值。这样，您就可以确保分类器能够正确识别所有类中 95% 的新实例。

这与分类器的准确性略有不同，因为共形预测可能识别多个类。在多类分类器中，共形预测还可以显示所有类的覆盖率。您可以为单个类而不是整个训练集指定覆盖率。