随机森林节点构建选项

使用“构建选项”选项卡可以指定随机森林节点的构建选项,包括基本选项高级选项。有关这些选项的更多信息,请参阅https://scikit-learn.org/stable/modules/ensemble.html#forest

基本

要构建的树数量。选择森林中树的数量。

指定最大深度。如果未选择,那么将展开节点直至所有叶片均纯净或者直至所有叶片包含的样本书小于 min_samples_split

最大深度。树的最大深度。

最小叶节点大小。需要位于一个叶节点上的样本的最小数量。

用于分割的特征数量。在查找最佳分割时要考虑的特征数目。
  • 如果为 auto,那么对于分类器为 max_features=sqrt(n_features) 且对于回归为 max_features=n_features
  • 如果为 sqrt,那么为 max_features=sqrt(n_features)
  • 如果为 log2,那么为 max_features=log2 (n_features)

高级

在构建树时,使用 Bootstrap 样本。如果选中,那么在构建树时使用 bootstramp 样本。

使用袋外样本来估算泛化关系准确性。如果选中,那么将使用袋外样本来估算泛化关系准确性。

使用仅限随机树。如果选中,那么将使用极限随机树代替常规随机森林。在极限随机树中,在计算分割时,随机性更进一步。在随机森林中,将使用一组随机的候选特征子集,但是不查找差异性最大的阈值,针对每个候选特征随机绘制阈值,并且将挑选这些随机生成的阈值中的最佳项作为分割规则。这通常可使模型方差降低一点,代价是偏差略微增加。1

重复结果。如果选中,那么会复制模型构建过程以实现相同的评分结果。

随机种子。您可以单击生成来生成随机数字生成器所使用的种子。

超参数优化(基于 Rbfopt)。选择此选项以启用基于 Rbfopt 的超参数优化,这将自动发现最佳参数组合,从而使模型在样本上实现期望或更低的错误率。有关 Rbfopt 的详细信息,请参阅http://rbfopt.readthedocs.io/en/latest/rbfopt_settings.html

目标。您想要实现的目标函数值(基于样本的模型的错误率)(例如,未知最佳值)。设置为可接受的值,例如,0.01

最大迭代次数。用于尝试模型的最大迭代次数。缺省值为 1000

最大评估次数。以精确模式尝试模型的功能评估的最大次数。缺省值为 300

下表显示 SPSS® Modeler 随机森林节点对话框中的设置与 Python 随机森林库参数之间的关系。
表 1. 映射到 Python 库参数的节点属性
SPSS Modeler 设置 脚本名称(属性名称) 随机森林参数
目标 target
预测变量 输入
要构建的树数量 n_estimators n_estimators
指定最大深度 specify_max_depth specify_max_depth
最大深度 max_depth max_depth
最小叶节点大小 min_samples_leaf min_samples_leaf
用于分割的特征数量 max_features max_features
在构建树时,使用 Bootstrap 样本 bootstrap bootstrap
使用袋外样本来估算泛化关系准确性 oob_score oob_score
使用仅限随机树 extreme
复制结果(C) use_random_seed
随机种子 random_seed random_seed
超参数优化(基于 Rbfopt) enable_hpo
目标(用于 HPO) target_objval
最大迭代次数(用于 HPO) max_iterations
最大评估次数(用于 HPO) max_evaluations

1L. Breiman, "Random Forests," Machine Learning, 45(1), 5-32, 2001.