Узел случайного леса - Опции построения

На вкладке Опции построения можно задать опции построения для узла Случайный лес, в том числе основные опции и дополнительные опции. Дополнительную информацию об этих опциях смотрите в разделе https://scikit-learn.org/stable/modules/ensemble.html#forest .

Базовый

Число строящихся деревьев. Выберите число деревьев в лесу.

Задать максимальную глубину. Если этот переключатель не включен, узлы раскрываются, пока все листья не станут однородными или пока каждый лист не будет содержать менее min_samples_split примеров.

Максимальная глубина. Максимальная глубина дерева.

Минимальный размер конечного узла. Минимальное число примеров, требуемых для конечного узла.

Число возможностей, используемых для расщепления. Число рассматриваемых возможностей при поиске наилучшего расщепления:
  • Если задано значение auto, используется max_features=sqrt(n_features) для классификатора и max_features=n_features для регрессии.
  • Если задано значение sqrt, используется max_features=sqrt(n_features).
  • Если задано значение log2, используется max_features=log2(n_features).

Дополнительные параметры

Использовать выборки бутстрапа при построении деревьев. Если эта опция включена, выборки бутстрапа используются при построении деревьев.

Применять неиспользуемую часть выборки для оценки точности генерализации. Если эта опция включена, неиспользуемая часть выборки используется для оценки точности генерализации.

Использовать крайне рандомизированные деревья. Если эта опция включена, вместо обычных случайных лесов используются крайне рандомизированные деревья. В крайне рандомизированных деревьях случайность обеспечивается дополнительно тем способом, которым вычисляются расщепления. Как в случайном лесе, используется случайное подмножество функций-кандидатов, но вместо поиска наиболее отличительных порогов пороги генерируются случайным образом для каждой функции-кандидата, и лучшие из этих случайных сгенерированных порогов выбираются как правило расщепления. Это обычно позволяет дополнительно сократить дисперсию модели ценой небольшого увеличения смещения. 1

Воспроизвести результаты. Если эта опция включена, процесс создания модели воспроизводится для достижения тех же самых результатов скоринга.

Стартовое число генератора псевдослучайных чисел. Можно щелкнуть по Генерировать, чтобы сгенерировать начальное число, используемое генератором псевдослучайных чисел.

Гиперпараметрическая оптимизация (на основе Rbfopt) Выберите эту опцию, чтобы включить гиперпараметрическую оптимизацию, основанную на Rbfopt, автоматически обнаруживающем оптимальную комбинацию параметров так, чтобы модель достигала ожидаемого или более низкого коэффициента ошибок на выборках. Подробности о Rbfopt смотрите в разделе http://rbfopt.readthedocs.io/en/latest/rbfopt_settings.html.

Цель. Значение целевой функции (частоты ошибок модели на выборках), которого вы хотите достичь (то есть значение неизвестного оптимума). Задайте приемлемое значение, например, 0,01.

Максимальное число итераций. Максимальное количество итераций для попытки построения модели. Значение по умолчанию - 1000.

Максимальное число оценок. Максимальное количество оценок функции в точном режиме для попытки построения модели. Значение по умолчанию - 300.

В следующей таблице показана взаимосвязь между параметрами в диалоговом окне узла SPSS Modeler Случайный лес и параметрами библиотеки Python Random Forest.
Табл. 1. Свойства узла, отображенные на параметры библиотеки Python
Параметр SPSS Modeler Имя в сценарии (имя свойства) Параметр случайного леса
Назначение назначение
Предикторы inputs
Число создаваемых деревьев n_estimators n_estimators
Задать максимальную глубину specify_max_depth specify_max_depth
Максимальная глубина max_depth max_depth
Минимальный размер конечного узла min_samples_leaf min_samples_leaf
Число возможностей, используемых для расщепления max_features max_features
Использовать выборки бутстрапа при построении деревьев bootstrap bootstrap
Применять неиспользуемую часть выборки для оценки точности генерализации oob_score oob_score
Использовать крайне рандомизированные деревья extreme
Воспроизвести результаты use_random_seed
Начальное значение генератора псевдослучайных чисел random_seed random_seed
Гиперпараметрическая оптимизация (на основе Rbfopt) enable_hpo
Назначение (для HPO) target_objval
Максимальное число итераций (для HPO) max_iterations
Максимальное число оценок (для HPO) max_evaluations

1L. Breiman, "Random Forests," Machine Learning, 45(1), 5-32, 2001.