“随机树”节点

“随机树”节点可以与分布式环境中的数据配合使用。此节点中,您可以构建包含多个决策树的整体模型。

“随机树”节点是一种基于树的分类和预测方法,此方法根据分类和回归方法构建。与 C&R 树类似,此预测方法使用递归分区将训练记录拆分为具有相似输出字段值的段。首先,此节点通过检查可供其使用的输入字段来查找最佳分割(以分割所引起的杂质指标下降情况进行测量)。分割可定义两个子组,其中每个子组随后又分割为两个子组,依此类推,直到触发其中一项停止标准为止。所有分割都是二元的(仅有两个子组)。

“随机树”节点将 Bootstrap 采样与放回抽样一起使用来生成样本数据。样本数据用于生长树模型。在树生长期间,“随机树”将不会再次对数据采样。它会改为随机选择一部分预测变量,并使用最佳的预测变量来分割树节点。在分割每个树节点时,会重复此过程。这是在随机林中生长树的基本概念。

“随机树”使用类似“C&R 树”的树。由于此类树是二叉树,用于分割的每个字段都会产生两个分支。对于带有多个类别的分类字段,这些类别会基于内分割条件分为两个组。每个树都会生长到尽可能最大的程度(不会进行修剪)。在评分中,“随机树”通过多数投票(对于分类)或平均值(对于回归)来组合各个树评分。

“随机树”不同于“C&R 树”之处如下:
  • “随机树”节点随机选择指定数量的预测变量,并使用所选项中的最佳预测变量来分割节点。与之不同的是,“C&R 树”从所有预测变量中查找最佳预测变量。
  • “随机树”中的每个树都会完全生长,直到每个叶节点通常都包含一个记录为止。 因此树深度可能非常大。但是标准“C&R 树”对树生长使用了中止规则,这通常会导致深度浅得多的树。

与 C&R 树相比,随机树将添加两项功能:

  • 第一项功能是组装,其中训练数据集的副本是通过对原始数据集进行放回抽样来创建的。此操作将大小与原始数据集相等的 Bootstrap 样本,在此操作执行后将根据每个副本构建组件模型。这些成分模型共同构成一个整体模型。
  • 第二项功能是,在树的每个分割处仅考虑将输入字段采样进行杂质测量。

需求。要训练“随机树”模型,您需要一个或多个输入字段以及一个目标字段。目标字段和输入字段可以是连续字段(数字范围),也可以是分类字段。将忽略设置为两者的字段。对于模型中使用的字段,必须将它们的类型完全实例化,并且模型中使用的任何有序(有序集合)字段的存储类型必须是数字类型(而不是字符串)。必要的话,可以使用重新分类节点对存储类型进行转换。

优势。处理大型数据集和许多字段时,“随机树”模型是稳健的模型。由于使用组装和字段采样,因此它们更不容易过度拟合,并且测试中看到的结果更可能在您使用新数据时重复。