定义定制分割

您可以选择预测变量并为每个分割指定条件。

  1. 在交互式树构建器中,右键单击节点并选择 “自定义拆分 ”。
  2. “按以下条件分割 ”列表中选择所需的预测变量。
  3. 您可以接受每个分割的缺省条件,也可以根据情况指定分割的条件。
    • 对于连续(数值范围)预测变量,您可以使用可用字段来指定属于每个新节点的值的范围。
    • 对于分类预测变量,可以使用可用字段来指定映射到每个新节点的特定值(或者对于有序预测变量,指定值范围)。
  4. 单击应用以使用所选预测变量重新生长分支。
图 1。 定制拆分
定制拆分

在不考虑中止规则的情况下,通常可使用任何预测变量分割树。 唯一的例外情况是:当节点为纯节点(即100%的样本都属于同一目标类别,因此无需进行划分),或所选预测变量为常量(没有可用于划分的对象)。

详细视图中,交互式树显示可用于当前分割的可用预测变量(或有时称为“竞争变量”)的统计信息。
  • 对于 CHAID,将为每个分类预测变量列出卡方统计量;如果预测变量是数值范围,那么将显示 F 统计量。 卡方统计量可用来测量目标字段与分割字段的不相关程度。 较高的卡方统计量通常与较低的概率有关,意味着两个字段彼此独立的几率较小,这表示分割比较理想。 自由度也包括在内,因为其中考虑了一个事实,即三向分割比双向分割更容易产生较大的统计量和较小的概率。
  • 对于 C&R 树和 QUEST,显示了每个预测变量的改进值。 如果使用此预测变量,那么改进值越大,父节点和子节点间的纯度差异越大。 (纯节点指其中所有的观测值都落在一个目标类别中的节点;树中的杂质越少,此模型拟合数据的效果就越好。) 换句话说,较高的改进值通常表示对此类型的树进行了有用的分割。 所使用的杂质测量在树构建节点中指定。