创建决策树

“决策树”过程创建基于树的分类模型。它将个案分为若干组,或根据自变量(预测变量)的值预测因变量(目标变量)的值。此过程为探索性和证实性分类分析提供验证工具。

此过程可以用于:

分段。 确定可能成为特定组成员的人员。

分层。 将个案指定为几个类别之一,如高风险组、中等风险组和低风险组。

预测。 创建规则并使用它们预测将来的事件,如某人将拖欠贷款或者车辆或住宅潜在转售价值的可能性。

数据降维和变量过滤。 从大的变量集中选择有用的预测变量子集,以用于构建正式的参数模型。

交互确定。 确定仅与特定子组有关的关系,并在正式的参数模型中指定这些关系。

类别合并和连续变量分箱化。 以最小的损失信息对组预测类别和连续变量进行重新编码。

示例。 一家银行希望根据贷款申请人是否表现出合理的信用风险来对申请人进行分类。根据各种因素(包括过去客户的已知信用等级),您可以构建模型以预测客户将来是否可能拖欠贷款。

基于树的分析提供了一些引人注意的功能:

  • 通过分析功能,您可以确定具有高风险或低风险的同类组。
  • 还可轻松构建用于预测个别个案的规则。

数据注意事项

数据。 因变量和自变量可以是:

  • 名义 (Nominal). 当变量值表示不具有内在等级的类别时,该变量可以作为名义变量;例如,雇员任职的公司部门。名义变量的示例包括地区、邮政编码和宗教信仰。
  • 有序 (Ordinal). 当变量值表示带有某种内在等级的类别时,该变量可以作为有序变量;例如,从十分不满意到十分满意的服务满意度水平。有序变量的示例包括表示满意度或可信度的态度分数和优先选择评分。
  • 刻度 (Scale). 当变量值表示带有有意义的度规的已排序类别时,该变量可以作为刻度(连续)变量对待,以便在值之间进行合适的距离比较。刻度变量的示例包括以年为单位的年龄和以千美元为单位的收入。

频率权重如果加权有效,则将分数权重四舍五入为最接近的整数;所以,为权重值小于 0.5 的个案指定权重 0,因而会从分析中排除它们。

假设。 此过程假定已经为所有分析变量指定适当的测量级别,一些功能假定分析中包括的因变量的所有值都定义了值标签。

  • 测量级别。 测量级别影响树计算;因此,应该为所有变量指定适当的测量级别。缺省情况下,假定数值变量是刻度变量,而字符串变量假定为名义变量,这可能没有准确地反映真实的测量级别。变量列表中每个变量旁的图标标识变量类型。
表 1. 测量级别图标
图标 测量级别(T)
“刻度变量”图标
刻度
“名义变量”图标
名义(N)
“有序变量”图标
有序(O)

可以暂时更改变量的测量级别,方法是在源变量列表中右键单击该变量,然后从弹出菜单中选择测量级别。

  • 值标签。 此过程的对话框界面假设分类(名义、有序)因变量的所有非缺失值均已定义值标签或未定义值标签。除非分类因变量至少有两个非缺失值具有值标签,否则某些功能将不可用。如果至少两个非缺失值已经定义了值标签,则将从分析中排除带有其他没有值标签的值的所有个案。

您可以使用定义变量属性帮助完成定义测量级别和值标签的过程。

获取决策树

此功能需要“决策树”选项。

  1. 从菜单中选择:

    分析 > 分类 > 树...

  2. 选择一个因变量。
  3. 选择一个或多个自变量。
  4. 选择生长法。

根据需要,您可以:

  • 更改源列表中所有变量的测量级别。
  • 强制自变量列表中的第一个变量作为第一个拆分变量进入模型。
  • 选择定义个案对树生长过程的影响程度的影响变量。影响值较低的个案影响较小;而影响值较高的个案影响较大。影响变量值必须为正。
  • 验证树。
  • 自定义树生长条件。
  • 将终端节点编号、预测值和预测概率保存为变量。
  • 以 XML (PMML) 格式保存模型。

具有未知测量级别的字段

当数据集中的一个或多个变量(字段)的测量级别未知时,将显示测量级别警告。由于测量级别会影响该过程的计算结果,因此所有变量必须都定义有测量级别。

扫描数据。 读取活动数据集中的数据,并分配缺省测量级别给任何具有当前未知测量级别的字段。如果数据集较大,该过程可能需要一些时间。

手动分配。 打开列出了所有具有未知测量级别的字段的对话框。您可以使用该对话框将测量级别分配给这些字段。您也可以在数据编辑器的变量视图中分配测量级别。

由于测量级别对该过程很重要,因此您无法访问运行该过程的对话框,除非所有字段均定义了测量级别。

更改测量级别

  1. 右键单击源列表中的变量。
  2. 从弹出菜单中选择测量级别。

这将暂时更改测量级别以用于“决策树”过程。

要永久更改变量的测量级别,请参见变量测量级别

生长法

可用的生长法如下:

CHAID. 卡方自动交互检测。在每一步,CHAID 选择与因变量有最强交互作用的自变量(预测变量)。如果每个预测变量的类别与因变量并非显著不同,那么合并这些类别。

穷举 CHAID (Exhaustive CHAID). 改进的 CHAID 方法,可检查每个预测变量的所有可能分裂。

CRT. 分类和回归树。CRT 将数据拆分为若干尽可能与因变量同质的段。所有个案中因变量值都相同的终端节点是同质的“纯”节点。

QUEST. 快速、无偏、有效的统计树。一种快速方法,它可避免其他方法对具有许多类别的预测变量的偏倚。只有在因变量是名义变量时才能指定 QUEST。

每种方法都有其各自的优点和限制,其中包括:

表 2. 生长法的功能
功能 CHAID* CRT QUEST
基于卡方** X    
替代自变量(预测变量)   X X
树修剪   X X
多阶节点拆分 X    
二元节点拆分   X X
影响变量 X X  
先验概率   X X
误分类成本 X X X
快速计算 X   X

*包括穷举 CHAID。

**QUEST 也将卡方测量用于名义自变量。