质量评估配置

您可以根据模型的运行效果,配置质量评估,以衡量模型提供正确结果的能力。

质量评估通过确定模型质量何时下降,来衡量模型预测结果的准确性,以便对模型进行适当的重新训练。 要评估模型,请提供 反馈数据,这是已知结果的标注数据。 质量评估使用度量值来评估模型如何预测与标记数据集中的实际结果匹配的结果。

以下部分描述了如何配置质量评估:

为机器学习模型配置质量评估

开始之前: 提供反馈数据

反馈数据就像提供了一份包含实际观察结果的答卷。 监视器可以像不知道答案一样运行模型,然后将预测结果与实际结果进行比较,并根据质量指标提供准确性评分。

要提供用于评估模型的反馈数据,请单击 " 端点 " 页面并执行下列其中一项操作:

  • 单击 上载反馈数据 ,然后上载带有标签数据的文件。
  • 单击 端点 选项卡,并指定连接到反馈数据源的端点。

有关详细信息,请参阅 管理反馈数据

设置质量阈值

在反馈数据可用于评估后,配置监视器设置。 与已知结果相比,可以设置模型的可接受性能阈值。

要设置阈值,请从 " 质量 "选项卡单击 " 编辑 “编辑”图标 "图标,输入 " 质量阈值 "框的值,然后编辑样本量的值。

质量警报阈值

选择表示可接受的准确度级别的值。 例如,在自动设置随附的样本 德国信用风险模型 中, "ROC 下的面积" 指标的警报设置为 95%。 如果模型的测量质量低于该值,那么将触发警报。 ROC 下面积的典型值为 80%。

最小和最大样本大小

通过设置最小样本大小,可以在评估数据集中可用记录数未达到最小数量之前,防止对质量进行度量。 这样可确保样本大小不会太小而导致结果出现偏差。 每次运行质量检查时,都会通过最小样本大小来确定要执行质量度量计算的记录数。

最大样本大小有助于更好地管理评估数据集所需的时间和资源。 如果超过此大小,将仅评估最新记录。 例如,在 德国信用风险模型 样本中,最小样本大小设置为 50 ,并且未指定最大大小,因为它是小样本。

配置生成式人工智能模型的质量评估

当您 评估提示模板时,可以查看文本分类任务类型的质量评估结果摘要。

摘要显示使用缺省设置计算的度量的分数和违例。

要使用您自己的设置配置质量评估,您可以设置最小样本大小并为每个度量设置阈值。 最小样本大小指示要评估的模型事务记录的最小数量,当度量值得分违反阈值时,阈值值会创建警报。 度量标准得分必须高于阈值才能避免违例。 度量值越高表示得分越好。

受支持的质量指标

启用质量评估后,您可以生成指标,帮助您确定模型预测结果的准确性。 设置为度量阈值的值确定如何解释度量评分。 对于配置为使用较低阈值的度量值,分数越高表示结果越好。 对于配置了上限阈值的度量值,分数越低表示结果越好。

质量评估会生成以下度量值:

ROC 下面积

  • 支持的模型机器学习
  • 描述: 重新调用和假正率曲线下的区域,用于针对回退率计算敏感度
  • 缺省阈值:下限 = 80%
  • 问题类型:二元分类
  • 图表值:时间范围内的最后值
  • 可用的度量详细信息:混淆矩阵

PR 下面积

  • 支持的模型机器学习
  • 描述:查准率和查全率曲线下的面积
  • 缺省阈值:下限 = 80%
  • 问题类型:二元分类
  • 图表值:时间范围内的最后值
  • 可用的度量详细信息:混淆矩阵
  • 执行数学:

查准率-查全率下的面积是指 Precision + Recall 的总和。

       n
AveP = ∑ P(k)∆r(k)
      k=1

精度 (P) 定义为真肯定数 (Tp) 与真肯定数加误肯定数 (Fp) 之和的关系。

               number of true positives
Precision =   ______________________________________________________

              (number of true positives + number of false positives)

查全率 (R) 定义为真肯定的数量 (Tp) 与真肯定的数量和误否定的数量 (Fn) 之比。

            number of true positives
Recall =   ______________________________________________________

           (number of true positives + number of false negatives)

准确性

  • 支持的模型:机器学习和生成式人工智能
  • 描述:正确预测的比例
  • 缺省阈值:下限 = 80%
  • 问题类型:二元分类和多类分类
  • 图表值:时间范围内的最后值
  • 可用的度量详细信息:混淆矩阵
  • 理解准确度
    准确度的含义会因算法的类型而异:
    • 多类分类:准确率衡量正确预测任何类的次数,并通过数据点数进行规范化。 有关更多详细信息,请参阅 Apache Spark 文档中的 Multi-class classification

    • 二元分类:对于二元分类算法,按 ROC 曲线下的面积来度量准确率。 请参阅 Apache Spark 文档中的 二元分类,以获取更多详细信息。

    • 回归: 使用 "确定的系数" 或 R2来测量回归算法。 有关更多详细信息,请参阅 Apache Spark 文档中的 Regression model evaluation

真阳性率

  • 支持的模型机器学习
  • 描述:正类预测中的正确预测比例。
  • 缺省阈值:下限 = 80%
  • 问题类型:二元分类
  • 图表值:时间范围内的最后值
  • 可用的度量详细信息:混淆矩阵
  • 执行数学:

真正率是通过以下公式计算的:

                  number of true positives
TPR =  _________________________________________________________

        (number of true positives + number of false negatives)

误肯定率

  • 支持的模型机器学习
  • 描述:正类预测中的不正确预测的比例。
  • 缺省阈值:下限 = 80%
  • 问题类型:二元分类
  • 图表值:时间范围内的最后值
  • 可用的度量详细信息:混淆矩阵
  • 执行数学:

假阳性率是假阳性总数除以假阳性和真阴性之和的商。

                        number of false positives
False positive rate =  ______________________________________________________

                       (number of false positives + number of true negatives)

布里尔分数

  • 支持的模型机器学习
  • 描述: 测量预测概率与目标值之间的均方差。 较高的分数表示模型的预测概率与目标值不匹配。
  • 缺省阈值:
    • 上限 = 80%
  • 问题类型:二元分类
  • 执行数学:

贿赂器得分指标使用以下公式计算:

BrierScore = 1/N * sum( (p - y)^2 )
Where  y = actual outcome, and p = predicted probability

基尼系数

  • 支持的模型机器学习
  • 描述: 基尼系数度量模型如何区分两个类。 它计算为 ROC 曲线与图形图对角线之间的面积的两倍。 如果 gini 系数值为 0 ,那么模型不显示任何判别能力,值 1 表示完全判别。
  • 缺省阈值:
    • 下限 = 80%
  • 问题类型:二元分类
  • 图表值:时间范围内的最后值
  • 可用的度量详细信息:混淆矩阵
  • 执行数学:

使用以下公式计算吉尼系数度量:


Gini = 2 * Area under ROC - 1

标签偏差

  • 支持的模型:生成式人工智能和机器学习
  • 描述: 测量标签分布的不对称性。 如果偏度为 0,则数据集完全平衡;如果小于 -1 或大于 1,则分布高度偏斜;介于两者之间的为中度偏斜。
  • 缺省阈值:
    • 下限 = -0.5
    • 上限 = 0.5
  • 问题类型:二元分类和多类分类
  • 图表值:时间范围内的最后值

马修斯相关系数

  • 支持的模型:生成式人工智能和机器学习
  • 描述: 通过计算 true 和 false 肯定和否定来度量二进制和多类分类的质量。 即使类大小不同,也可以使用均衡度量。 相关系数值介于 -1 和 +1 之间。 系数 +1 代表完美预测,0 代表平均随机预测,-1 代表反向预测。
  • 缺省阈值:下限 = 80%
  • 问题类型:二元分类和多类分类
  • 图表值:时间范围内的最后值
  • 可用的度量详细信息: 融合矩阵

平均绝对百分比误差

  • 支持的模型:机器学习
  • 默认阈值:上限 = 0.2
  • 问题类型:回归
  • 描述:测量预测值和实际值之间的平均百分比误差差异
  • 执行数学:

平均绝对百分比误差按以下公式计算:

显示平均绝对百分比误差公式

A 是实际值,P 是预测值。

对称平均绝对百分比误差

  • 支持的模型机器学习
  • 默认阈值:上限 = 0.2
  • 问题类型:回归
  • 说明:测量预测值和实际值之间差异百分比误差的对称平均值
  • 执行数学:

对称平均绝对误差按以下公式计算:

显示对称平均绝对百分比误差公式

A 是实际值,P 是预测值。

皮尔逊相关系数

  • 支持的模型机器学习
  • 默认阈值:下限 = 80
  • 问题类型:回归
  • 描述:皮尔逊相关系数(pearson)度量模型预测值与目标值之间的线性关系。 皮尔逊度量计算的相关系数值介于 -1 和 +1 之间。 相关性值为 -1 或 +1 表示存在精确的线性关系,值为 0 表示没有相关性。 正相关表示变量同时增加,负相关表示一个变量增加,另一个变量减少。 高正值表示模型预测值与目标值相似。

Spearman 相关系数

  • 支持的模型机器学习
  • 默认阈值:下限 = 80
  • 问题类型:回归
  • 图表值:时间范围内的最后值
  • 描述:矛秩相关系数(spearman)度量模型预测值与目标值之间关系的单调性。 spearman 指标计算的相关系数值介于 -1 和 +1 之间。 -1 或 +1 的相关值表示存在精确的单调关系,0 表示不相关。 正相关表示变量同时增加,负相关表示一个变量增加,另一个变量减少。

撤回

  • 支持的模型机器学习
  • 描述:正确预测在正类中所占的比例。
  • 缺省阈值:下限 = 80%
  • 问题类型:二元分类
  • 图表值:时间范围内的最后值
  • 可用的度量详细信息:混淆矩阵
  • 执行数学:

查全率 (R) 定义为真肯定的数量 (Tp) 与真肯定的数量和误否定的数量 (Fn) 之比。

                       number of true positives
Recall =   ______________________________________________________

           (number of true positives + number of false negatives)

精度

  • 支持的模型机器学习
  • 描述:正类预测中的正确预测比例。
  • 缺省阈值:下限 = 80%
  • 问题类型:二元分类
  • 图表值:时间范围内的最后值
  • 可用的度量详细信息:混淆矩阵
  • 执行数学:

精度 (P) 定义为真肯定数 (Tp) 与真肯定数加误肯定数 (Fp) 之和的关系。

                           number of true positives
Precision =  __________________________________________________________

             (number of true positives + the number of false positives)

F1-Measure

  • 支持的模型机器学习
  • 描述:准确率和查全率的调和均值
  • 缺省阈值:下限 = 80%
  • 问题类型:二元分类
  • 图表值:时间范围内的最后值
  • 可用的度量详细信息:混淆矩阵
  • 执行数学:

F1-measure 是精度和召回率的加权调和平均值。

          (precision * recall)
F1 = 2 *  ____________________

          (precision + recall)

对数损失

  • 支持的模型机器学习
  • 描述:对数目标类概率(置信度)的平均值。 它也称为“预期对数似然”。
  • 缺省阈值:下限 = 80%
  • 问题类型:二元分类和多类分类
  • 图表值:时间范围内的最后值
  • 可用指标详细信息:无
  • 执行数学:

对于二元模型,使用以下公式计算对数损失:

-(y log(p) + (1-y)log(1-p))

其中 p = true 标签,y = 预测概率

对于多类模型,使用以下公式计算对数损失:

  M
-SUM Yo,c log(Po,c)
 c=1 

其中 M > 2,p = true 标签,y = 预测概率

解释方差比例

  • 支持的模型机器学习
  • 描述:解释方差比例是解释方差与目标方差之间的比率。 解释方差是目标方差与预测误差方差之间的差值。
  • 缺省阈值:下限 = 80%
  • 问题类型:回归
  • 图表值:时间范围内的最后值
  • 可用指标详细信息:无
  • 执行数学:

通过对数字求平均值,然后对每个数字减去平均值并对结果求平方来计算比例解释方差。 然后,弄出正方形。

                                  sum of squares between groups 
Proportion explained variance =  ________________________________

                                      sum of squares total

平均值-绝对误差

  • 支持的模型机器学习
  • 描述:模型预测与目标值之间的绝对差的平均值
  • 缺省阈值:上限 = 80%
  • 问题类型:回归
  • 图表值:时间范围内的最后值
  • 可用指标详细信息:无
  • 执行数学:

平均绝对误差是通过将所有绝对误差相加并除以误差数计算出来的。

                         SUM  | Yi - Xi | 
Mean absolute errors =  ____________________

                          number of errors

均方误差

  • 支持的模型机器学习
  • 描述:模型预测与目标值之间的平方差的平均值
  • 缺省阈值:上限 = 80%
  • 问题类型:回归
  • 图表值:时间范围内的最后值
  • 可用指标详细信息:无
  • 执行数学:

以下公式表示其最简单形式的均方误差。

                         SUM  (Yi - ^Yi) * (Yi - ^Yi)
Mean squared errors  =  ____________________________

                             number of errors

R 平方

  • 支持的模型机器学习
  • 描述:目标方差与预测误差的方差之间的差异与目标方差之间的比率。
  • 缺省阈值:下限 = 80%
  • 问题类型:回归
  • 图表值:时间范围内的最后值
  • 可用指标详细信息:无
  • 执行数学:

R 平方度量在以下公式中定义。

                  explained variation
R-squared =       _____________________

                    total variation

均方误差的根

  • 支持的模型机器学习
  • 描述:模型预测与目标值之间平方差均值的平方根
  • 缺省阈值:上限 = 80%
  • 问题类型:回归
  • 图表值:时间范围内的最后值
  • 可用指标详细信息:无
  • 执行数学:

均方误差的根等于 (预测减去观察值) 平方的均数的平方根。

          ___________________________________________________________
RMSE  =  √(forecasts - observed values)*(forecasts - observed values)

加权真阳性率

  • 支持的模型:机器学习和生成式人工智能
  • 描述:其权重等于类概率的类 TPR 的加权平均值。
  • 缺省阈值:下限 = 80%
  • 问题类型:多类分类
  • 图表值:时间范围内的最后值
  • 可用的度量详细信息:混淆矩阵
  • 执行数学:

真正率是通过以下公式计算的:

                  number of true positives
TPR =  _________________________________________________________

        number of true positives + number of false negatives

加权假阳性率

  • 支持的模型:机器学习和生成式人工智能
  • 描述:正类预测中的不正确预测的比例。
  • 缺省阈值:下限 = 80%
  • 问题类型:多类分类
  • 图表值:时间范围内的最后值
  • 可用的度量详细信息:混淆矩阵
  • 执行数学:

加权假正率即通过加权数据应用 FPR。

                   number of false positives
FPR =  ______________________________________________________

       (number of false positives + number of true negatives)

加权查全率

  • 支持的模型:机器学习和生成式人工智能
  • 描述:其权重等于类概率的查全率的加权平均值。
  • 缺省阈值:下限 = 80%
  • 问题类型:多类分类
  • 图表值:时间范围内的最后值
  • 可用的度量详细信息:混淆矩阵
  • 执行数学:

加权查全率 (wR) 定义为真正数 (Tp) 除以真正数 (Tp) 与假负数 (Fn) 之和(与加权数据配合使用)。

                          number of true positives
Recall =   ______________________________________________________

           number of true positives + number of false negatives

加权精度

  • 支持的模型:机器学习和生成式人工智能
  • 描述:其权重等于类概率的查准率的加权平均值。
  • 缺省阈值:下限 = 80%
  • 问题类型:多类分类
  • 图表值:时间范围内的最后值
  • 可用的度量详细信息:混淆矩阵
  • 执行数学:

精度 (P) 定义为真肯定数 (Tp) 与真肯定数加误肯定数 (Fp) 之和的关系。

                            number of true positives
Precision =  ________________________________________________________

             number of true positives + the number of false positives

加权 F1-measure

  • 支持的模型:机器学习和生成式人工智能
  • 描述:其权重等于类概率的 F1-measure 的加权平均值。
  • 缺省阈值:下限 = 80%
  • 问题类型:多类分类
  • 图表值:时间范围内的最后值
  • 可用的度量详细信息:混淆矩阵
  • 执行数学:

加权 F1-Measure 是使用加权数据的结果。

           precision * recall
F1 = 2 *  ____________________

           precision + recall

利用历史数据配置质量评估

您还可以配置质量评估,利用以前时间窗口的历史评分反馈数据生成指标。 要使用历史评分反馈数据配置评估,可以使用PythonSDK指定参数,在具有开始和结束日期的单一时间窗口中计算指标:

parameters = {
    "start_date": "2024-08-05T11:00:18.0000Z",
    "end_date": "2024-08-05T14:00:18.0000Z"
}
run_details = wos_client.monitor_instances.run(monitor_instance_id=quality_monitor_instance_id, parameters = run_parameters, background_mode=False).result

了解更多

审查机器学习模型的质量结果