评估模型

我们已通过浏览模型了解了评分方式。但是,如果要评估模型的准确度,那么需要对一些记录进行评分,并将模型预测的响应与实际结果进行比较。我们将对用于估算模型的同一记录进行评分,从而对观察到的响应与预测响应进行比较。

图 1. 将模型块附加到输出节点以进行模型评估
将模型块附加到输出节点以进行模型评估
  1. 要查看分数或预测值,请将表节点添加到模型块,然后双击“表”节点,并单击运行

    表在名为 $R-Credit rating 的字段中显示预测分数,该字段由模型创建。我们可以将这些值与包含实际响应的原始信用评价字段进行比较。

    按照惯例,在评分过程中生成的字段的名称基于目标字段,但是要加上标准前缀。前缀 $G$GE 由广义线性模型生成,$R 是用于本例中的 CHAID 模型所生成的预测的前缀,$RC 用于置信度值,$X 通常是使用整体生成的,而 $XR$XS$XF 在目标字段分别为“连续”、“分类”、“集合”或“标志”字段的情况下用作前缀。不同的模型类型使用不同的前缀集。置信度值是模型自身对每个预测值的准确度的估计,范围为 0.0 到 1.0。

    图 2. 显示已生成的评分和置信度值的表
    显示已生成的评分和置信度值的表

    与预期的一样,预测值与大多数(并非全部)记录的实际响应相匹配。出现此情况的原因是每个 CHAID 终端节点都具有混合响应。预期值与 最常见 的响应相匹配,但对于该节点中的其他响应,该预期值是错误的。(记住,16% 的少部分低收入客户没有拖欠。)

    为了避免出现这种情况,可以继续将树拆分为越来越小的分支,直到每个节点都只包含优良不良响应为止。但是,这样的模型可能会非常复杂,并且不易推广到其他数据集。

    要查看具体有多少预测值正确,我们可通读表格,并计算预测字段 $R-Credit rating 的值匹配信用评价的值的记录数量。幸运的是,有更简单的方法 - 我们可以使用自动执行此操作的“分析”节点。

  2. 将模型块连接到“分析”节点。
  3. 双击“分析”节点,然后单击运行
图 3. 附加“分析”节点
附加“分析”节点

分析表明,对于 2464 条记录中的 1899 条记录(超过 77%),模型预测的值与实际响应相匹配。

图 4. 观察到的响应与预测响应的比较分析结果
观察到的响应与预测响应的比较分析结果

此结果受到评分的记录和用于评估模型的记录相同的事实的限制。在真实情况中,可使用分区节点将数据拆分为培训和评估的单独示例。

通过使用一个样本分区生成模型并使用另一个样本对模型进行检验,您会得到该模型推广到其他数据集的情况。

通过“分析”节点,我们可以根据已知道实际结果的记录来检验模型。下一阶段介绍如何使用模型对我们不知道结果的记录进行评分。例如,这可能包括当前不是银行客户的人员,但他们是促销邮寄的潜在目标。

Next