决策树节点

决策树模型可用于开发分类系统,此分类系统可以基于一组决策规则来预测或分类未来的观测值。 如果您的数据划分为您感兴趣的类(例如,高风险与低风险贷款、订户与非订户、选民与非选民,或细菌类型),那么可以使用数据构建规则,以用于尽可能准确地对旧案例或新案例分类。 例如,可以基于年龄和其他因素构建对信用风险或购买意向进行分类的树。

此方法(有时称为 规则归纳 )有多个优点。 首先,浏览树的同时可以明显地看出模型背后的推论过程。 这与其他“黑箱”建模技术不同的地方,在其他“黑箱”建模技术中,您很难了解其内部逻辑。

其次,此过程只会将真正影响决策的属性自动包含在其规则中。 将忽略对于树的准确性无用的属性。 此方法可获得非常有用的数据信息,并且可用于在训练其他学习方法(如神经网络)之前将数据缩减到相关字段。

决策树模块可转换成 if-then 规则的集合( 规则集 ),在多数情况下此规则集以更为复杂的形式显示信息。 决策树表示法可以让您知道数据属性是如何将总体 分割 分区 成与问题相关的子集。 树-AS 节点输出不同于其他决策树节点,因为它在块中直接包含规则列表,无需创建规则集。 规则集表示法可以让您知道特定项目组与具体结论是如何关联的。 例如,以下规则就提供了关于值得购买的一组汽车的概要

IF tested = 'yes'
AND mileage = 'low'
THEN -> 'BUY'.

树构建算法

有多种算法可用于执行分类和细分分析。 这些算法执行的操作基本相同,检查数据集中的所有字段,通过将数据分割为多个子组来找到能够实现最佳分类或预测的字段。 此过程将重复应用以将子组分割成越来越小的单位,直到树结束生长(由特定的停止条件所定义)。 构建树的过程中所用的目标和输入字段可以是连续(数字范围)或分类(这取决于所采用的算法)。 如果使用的是连续目标,那么生成回归树;如果使用的是分类目标,那么生成分类树。

C&R 树节点图标 分类与回归树(C&R Tree)节点生成决策树,使您能够预测或分类未来的观测值。 该方法通过在每个步骤最大限度降低不纯度,使用递归分区将训练记录分割为若干组。如果树的某个节点中 100% 的观测值都属于目标字段的一个特定类别,那么该节点被视为“一致”。 目标和输入字段可以是数字范围或分类(名义、有序或标志);所有分割均为二元分割(即仅分割为两个子组)。

CHAID节点图标 CHAID节点利用卡方统计量生成决策树,以确定最优分割点。 CHAID 与 C&R 树和 QUEST 节点不同,它可以生成非二元树,这意味着有些分割将有多于两个的分支。 目标和输入字段可以是数字范围(连续)或分类。 Exhaustive CHAID 是 CHAID 的修正版,它对所有分割进行更彻底的检查,但计算时间比较长。

QUEST节点图标 QUEST节点提供了一种用于构建决策树的二元分类方法,旨在缩短大型分类与回归树分析所需的处理时间,同时减少分类树方法中倾向于选择能产生更多分裂的输入的现象。 输入字段可以是数字范围(连续),但目标字段必须是分类。 所有分割都是二元的。

C5.0 节点图标 C5.0 节点构建决策树或规则集。 该模型的工作原理是根据在每个级别提供最大信息收获的字段分割样本。 目标字段必须为分类字段。 允许进行多次多于两个子组的分割。

树状AS节点图标 Tree-AS节点与现有的CHAID节点类似;然而,Tree-AS节点专为处理大数据而设计,能够生成单棵决策树,并将最终模型展示在 SPSS® Modeler 17版本新增的输出查看器中。 此节点通过使用卡方统计 (CHAID) 来识别最优分割,从而生成决策树。 对 CHAID 的这一使用可生成非二元树,意味着某些分割将具有两个以上的分支。 目标和输入字段可以是数字范围(连续)或分类。 Exhaustive CHAID 是 CHAID 的修正版,它对所有分割进行更彻底的检查,但计算时间比较长。

随机树节点图标 随机树节点与现有的C&RT节点类似;然而,随机树节点专为处理大数据以构建单棵树而设计,并将生成的模型显示在 SPSS Modeler 17版本新增的输出查看器中。 “随机树”节点将生成您可以对未来观测值进行预测或分类的决策树。 该方法通过在每个步骤最大限度降低不纯度,使用递归分区将训练记录分割为若干组。如果树的某个节点中 100% 的观测值都属于目标字段的一个特定类别,那么该节点将被视为“一致”。 目标和输入字段可以是数字范围或分类(名义、有序或标志);所有分割均为二元分割(即仅分割为两个子组)。

基于树的分析的一般用法

以下是基于树的分析的一些常规用法:

细分:确定可能隶属于特定类别的人员。

分层:将观测值分配到多个类别中的一个,例如高风险组、中等风险组和低风险组。

预测:创建规则,并使用这些规则来预测未来事件。 预测还可能意味着尝试将预测属性与连续变量值相关联。

数据降维和变量筛选:从大型变量集选择有用的预测变量子集,以用于构建正式的参数模型。

交互识别:确定仅与特定子组有关的关系,并在正式的参数模型中指定这些关系。

类别合并和带状化连续变量:以最小的信息损失,对组预测变量类别和连续变量进行重新编码。