验证

通过验证可以评估树结构广义化为更大总体的程度。可以使用两种验证方法:交叉验证和分割样本验证。

交叉验证(C)

交叉验证将样本分割为许多子样本(或样本群)。然后,生成树模型,并依次排除每个子样本中的数据。第一个树基于第一个样本群的个案之外的所有个案,第二个树基于第二个样本群的个案之外的所有个案,依此类推。对于每个树,估计其误分类风险的方法是将树应用于生成它时所排除的子样本。

要点: 选择修剪时,交叉验证不可用于 CRT 和 Quest 方法。
  • 最多可以指定 25 个样本群。该值越大,每个树模型中排除的个案数就越小。
  • 交叉验证生成单个最终树模型。最终树经过交叉验证的风险估计计算为所有树的风险的平均值。

拆分样本验证

对于拆分样本验证,模型是使用训练样本生成的,并在延续样本上进行测试。

  • 您可以指定训练样本大小(表示为样本总大小的百分比),或将样本拆分为训练样本和测试样本的变量。
  • 如果使用变量定义训练样本和测试样本,则将变量值为 1 的个案指定给训练样本,并将所有其他个案指定给测试样本。该变量不能是因变量、权重变量、影响变量或强制的自变量。
  • 您可以同时显示训练样本和测试样本的结果,或者仅显示测试样本的结果。
  • 对于小的数据文件(个案数很少的数据文件),应该谨慎使用拆分样本验证。训练样本很小可能会导致很差的模型,因为在某些类别中,可能没有足够的个案使树充分生长。

验证决策树

此功能需要 SPSS® Statistics Professional Edition 或“决策树”选项

  1. 从菜单中选择:

    分析 > 分类 > 树...

  2. 在“决策树”主对话框中,单击验证
  3. 选择交叉验证拆分样本验证
注: 这两种验证方法均随机地将个案指定给样本组。如果希望能够在后续分析中再现完全相同的结果,则应该在第一次运行分析之前设置随机数种子(“转换”菜单,“随机数字生成器”),然后将种子重置为该值以用于后续分析。请参阅随机数字生成器主题以获取更多信息。