Узел случайного леса - Опции построения

На вкладке Опции построения можно задать опции построения для узла Случайный лес, в том числе основные опции и дополнительные опции. Дополнительную информацию об этих опциях смотрите в разделе https://scikit-learn.org/stable/modules/ensemble.html#forest .

Базовый

Число строящихся деревьев. Выберите число деревьев в лесу.

Задать максимальную глубину. Если этот переключатель не включен, узлы раскрываются, пока все листья не станут однородными или пока каждый лист не будет содержать менее min_samples_split примеров.

Максимальная глубина. Максимальная глубина дерева.

Минимальный размер конечного узла. Минимальное число примеров, требуемых для конечного узла.

Число возможностей, используемых для расщепления. Число рассматриваемых возможностей при поиске наилучшего расщепления:

Если задано значение auto, используется max_features=sqrt(n_features) для классификатора и max_features=n_features для регрессии.
Если задано значение sqrt, используется max_features=sqrt(n_features).
Если задано значение log2, используется max_features=log2(n_features).

Дополнительные параметры

Использовать выборки бутстрапа при построении деревьев. Если эта опция включена, выборки бутстрапа используются при построении деревьев.

Применять неиспользуемую часть выборки для оценки точности генерализации. Если эта опция включена, неиспользуемая часть выборки используется для оценки точности генерализации.

Использовать крайне рандомизированные деревья. Если эта опция включена, вместо обычных случайных лесов используются крайне рандомизированные деревья. В крайне рандомизированных деревьях случайность обеспечивается дополнительно тем способом, которым вычисляются расщепления. Как в случайном лесе, используется случайное подмножество функций-кандидатов, но вместо поиска наиболее отличительных порогов пороги генерируются случайным образом для каждой функции-кандидата, и лучшие из этих случайных сгенерированных порогов выбираются как правило расщепления. Это обычно позволяет дополнительно сократить дисперсию модели ценой небольшого увеличения смещения. ¹

Воспроизвести результаты. Если эта опция включена, процесс создания модели воспроизводится для достижения тех же самых результатов скоринга.

Стартовое число генератора псевдослучайных чисел. Можно щелкнуть по Генерировать, чтобы сгенерировать начальное число, используемое генератором псевдослучайных чисел.

Гиперпараметрическая оптимизация (на основе Rbfopt) Выберите эту опцию, чтобы включить гиперпараметрическую оптимизацию, основанную на Rbfopt, автоматически обнаруживающем оптимальную комбинацию параметров так, чтобы модель достигала ожидаемого или более низкого коэффициента ошибок на выборках. Подробности о Rbfopt смотрите в разделе http://rbfopt.readthedocs.io/en/latest/rbfopt_settings.html.

Цель. Значение целевой функции (частоты ошибок модели на выборках), которого вы хотите достичь (то есть значение неизвестного оптимума). Задайте приемлемое значение, например, 0,01.

Максимальное число итераций. Максимальное количество итераций для попытки построения модели. Значение по умолчанию - 1000.

Максимальное число оценок. Максимальное количество оценок функции в точном режиме для попытки построения модели. Значение по умолчанию - 300.

В следующей таблице показана взаимосвязь между параметрами в диалоговом окне узла SPSS Modeler Случайный лес и параметрами библиотеки Python Random Forest.

Табл. 1. Свойства узла, отображенные на параметры библиотеки Python
Параметр SPSS Modeler	Имя в сценарии (имя свойства)	Параметр случайного леса
Назначение	`назначение`
Предикторы	`inputs`
Число создаваемых деревьев	`n_estimators`	`n_estimators`
Задать максимальную глубину	`specify_max_depth`	`specify_max_depth`
Максимальная глубина	`max_depth`	`max_depth`
Минимальный размер конечного узла	`min_samples_leaf`	`min_samples_leaf`
Число возможностей, используемых для расщепления	`max_features`	`max_features`
Использовать выборки бутстрапа при построении деревьев	`bootstrap`	`bootstrap`
Применять неиспользуемую часть выборки для оценки точности генерализации	`oob_score`	`oob_score`
Использовать крайне рандомизированные деревья	`extreme`
Воспроизвести результаты	`use_random_seed`
Начальное значение генератора псевдослучайных чисел	`random_seed`	`random_seed`
Гиперпараметрическая оптимизация (на основе Rbfopt)	`enable_hpo`
Назначение (для HPO)	`target_objval`
Максимальное число итераций (для HPO)	`max_iterations`
Максимальное число оценок (для HPO)	`max_evaluations`

¹L. Breiman, "Random Forests," Machine Learning, 45(1), 5-32, 2001.