概述 (TREE 命令)
TREE 过程将创建基于树的模型。 它根据预测变量的值将个案分类为组或预测因变量的值。 此过程为探索性和证实性分类分析提供验证工具。
选项
模型。 您可以指定因变量 (目标) 和一个或多个独立 (预测变量) 变量。 (可选) 可以将一个自变量作为第一个变量强制引入模型中。
生长法。 有四种不断增长的算法可用 :CHAID (缺省值) ,穷举 CHAID , CRT 和 QUEST。 每个都执行一种类型的递归拆分。 首先,将检查所有预测变量,以通过将样本拆分为子组 (节点) 来找到提供最佳分类或预测的预测变量。 该过程以递归方式应用,将子组分为更小和更小的组。 它在满足一个或多个停止条件时停止。
四种生长方法具有不同的性能特点和特点:
- CHAID 选择与因变量交互最强的预测变量。 如果预测变量类别与因变量没有显着不同,那么将合并预测变量类别 (Kass , 1980)。
- 穷举 CHAID 是对 CHAID 的修改,用于检查每个预测变量 (Biggs 等) 的所有可能拆分。 1991 年)。
- CRT 是使节点内同质性最大化的方法系列 (Breiman 等人, 1984 年)。
- 快速计算 QUEST 树,但仅当因变量是名义变量时,该方法才可用。 (Loh and Shih , 1997 年)。
正在停止条件。 您可以设置用于限制树大小的参数,并控制每个节点中的最小个案数。
验证。 您可以评估树结构对更大样本的推广程度。 支持分割样本分区和交叉验证。 分区将数据划分为训练样本 (从中生长树) 和测试样本 (在其中测试树)。 交叉验证涉及将样本划分为多个较小的样本。 将依次从每个子样本中生成不包含数据的树。 对于每个树,将使用生成该树时排除的子样本的数据来估算错误分类风险。 交叉验证的风险估算值计算为跨树的平均风险。
输出。 缺省输出包括树形图和风险统计信息。 如果因变量是分类变量,那么将报告分类准确性。 (可选) 您可以获取收益和利润相关度量的图表以及可用于选择新个案或对新个案进行评分的分类规则。 您还可以将模型的预测保存到活动数据集,包括分配的段 (节点) ,预测的类/值和预测的概率。
基本规范
- 基本规范是一个因变量和一个或多个自变量。
操作
- 直到满足一个或多个停止条件时,才会生长该树。 缺省增长方法为 CHAID。
- 模型的类型取决于因变量的测量级别。 如果因变量是刻度 (连续) ,那么将计算预测模型。 如果它是分类 (名义或有序) ,那么将生成分类模型。
- 测量级别确定节点内预测变量值的允许组合。 对于有序预测变量和刻度预测变量,节点中只能出现相邻的类别/值。 对名义类别的分组没有任何限制。
- 如果请求拆分样本模型验证,那么
TREE将采用SET SEED值。 SPLIT FILE被TREE过程忽略。- 如果定义了
WEIGHT变量,那么会将权重视为复制权重。 小数权重是四舍五入的。
注: 测量级别可能会影响结果。 如果任何变量 (字段) 具有未知的测量级别,那么将执行数据传递以在分析开始之前确定测量级别。 有关确定条件的信息,请参阅 SET SCALEMIN。
语法规则
- 最小规范是因变量,关键字
BY以及一个或多个自变量。 - 所有子命令都是可选的。
- 只允许每个子命令的单个实例。
- 在子命令中只能指定一次关键字。
- 语法图表中显示的等号 (=) 是必需的。
- 子命令名称和关键字必须拼写完整。
- 可以按任何顺序使用子命令。
SPLIT FILE被TREE过程忽略。- CHAID 和穷举 CHAID: 分类因变量不能超过 126 个类别。 如果因变量是分类变量,那么分类预测变量的限制也是 126 个类别。
- CRT: 名义预测变量的类别不能超过 32 个。
- QUEST: 如果预测变量是名义变量,那么因变量 (必须是名义变量) 的限制为 127 个类别。 名义预测变量的类别不能超过 25 个。
示例
TREE risk BY income age creditscore employment.
- 计算树模型,该模型使用个人的收入,年龄,信用评分和就业类别作为预测变量来估算信用风险。
- 缺省方法 CHAID 用于生长树。
- 由于未指定测量级别,因此将从每个模型变量的数据字典中获取该测量级别。 如果未定义测量级别,那么数字变量将被视为标度变量,字符串变量将被视为名义变量。
TREE risk [o] BY income [o] age [s] creditscore [s] employment [n]
/METHOD TYPE=CRT
/VALIDATION TYPE=SPLITSAMPLE
/SAVE NODEID PREDVAL.
- 计算树模型,该模型使用个人的收入,年龄,信用评分和就业类别作为预测变量来估算信用风险。
- 年龄和信用评分将被视为标度变量,风险和收入将被视为有序,就业类别将被视为名义。
- 用于执行二进制分割的 CRT 方法用于生长树。
- 请求拆分样本验证。 缺省情况下,将 50% 的个案分配给训练样本。 其余个案用于验证树。
- 将两个变量保存到活动数据集: 节点 (段) 标识和预测值。