“分析”节点的“分析”选项卡

通过使用“分析”选项卡,您可以指定分析详细信息。

符合矩阵(适用于符号目标或分类目标)。显示分类目标(标志、名义或有序)的各个生成(预测)字段与其目标字段之间的匹配模式。将显示一个表格,其中包含实际值所定义的行和预测值所定义的列,以及每个单元格中符合该模式的记录数。这用于确定预测中的系统错误。如果生成了多个与同一输出字段相关的字段,但这些字段由不同模型生成,那么将为这些字段相同和不相同的情况进行计数并显示总计值。对于它们相同的情况,将显示另一组正确/错误统计量。

性能评估。使用分类输出显示模型的性能评估统计量。此统计量(针对输出字段的每个类别报告)是以位为单位对模型(用于预测属于该类别的记录)的平均信息内容的测量。考虑到分类问题的难度,因此,罕见类别的准确性预测会比常见类别的准确性预测获得更高的性能评估。对于某个类别,如果模型效果比随机猜测差,那么该类别的性能评估指数将为 0。

评估度量(仅二元分类器 AUC 和 Gini)。对于二元分类器,此选项将报告 AUC(曲线下面积)和 Gini 系数评估度量。将对每个二元模型共同计算这两个评估度量。将在表中的分析输出浏览器中报告这些度量的值。

AUC 评估度量按照 ROC(受试者工作特征)曲线下方的面积进行计算,它是分类器预期性能的标量表示。AUC 始终介于 0 到 1 之间,数字越大表示分类器越好。坐标 (0,0) 与 (1,1) 之间的对角线 ROC 曲线表示随机分类器,并且其 AUC 为 0.5。因此,实际分类器的 AUC 不会小于 0.5。

有时,Gini 系数评估度量用作 AUC 的替代评估度量,并且这两个度量密切相关。Gini 系数计算为 ROC 曲线与对角线之间的面积的两倍,或者按照 Gini = 2AUC - 1 进行计算。Gini 系数始终介于 0 到 1 之间,数字越大表示分类器越好。对于 ROC 曲线在对角线下方的不可能事件,Gini 系数为负。

置信度数字(如果可用)。对于生成置信度字段的模型,此选项将报告关于置信度值及其与预测的关系的统计。此选项有两项设置:

  • 阈值。报告准确性达到指定百分比的置信度级别。
  • 提高准确性。报告准确性提高指定系数的置信度级别。例如,如果总准确性为 90%,而此选项设置为 2.0,那么所报告的值将是准确性为 95% 时所需的置信度。

查找预测字段/预测变量字段所使用的方法。确定预测字段与原始目标字段匹配的方式。

  • 模型输出字段元数据。基于模型字段信息使预测字段与目标相匹配,即便在重命名预测字段的情况下也可以进行匹配。通过使用“类型”节点,还可以从“值”对话框访问任何预测字段的模型字段信息。请参阅主题使用值对话框,了解更多信息。
  • 字段名称格式。根据命名约定匹配字段。例如,C5.0 模型块为目标 response 生成的预测值必须位于字段 $C-response 中。

按分区分隔。如果使用分区字段将记录分割为训练样本、检验样本和验证样本,那么选择此选项可单独为每个分区显示结果。有关更多信息,请参阅分区节点主题。

注:按分区分隔时,将从分析中排除分区字段中具有空值的记录。由于分区节点不生成空值,因此,如果使用分区节点,那么这不会导致出现问题。

用户定义的分析。您可以指定要在评估模型时使用的分析计算。使用 CLEM 表达式可指定应为每条记录计算的内容以及如何将记录级别的评分合并到总评分中。使用函数 @TARGET@PREDICTED 可分别引用目标(实际输出)值和预测值。

  • If。指定需要根据某一条件使用不同计算时的条件表达式。
  • Then。指定条件为 true 时的计算。
  • Else。指定条件为 false 时的计算。
  • 使用。选择用于根据单个评分计算总评分的统计。

按字段分解分析。显示可用于分解分析的分类字段。除整体分析外,将为每个分解字段的每个类别报告单独的分析。