Opciones de generación del nodo Bosque aleatorio

Utilice la pestaña Opciones de generación para especificar opciones de generación para el nodo Bosque aleatorio, incluyendo opciones básicas y opciones avanzadas. Si desea más información sobre estas opciones, consulte https://scikit-learn.org/stable/modules/ensemble.html#forest

Básico

Número de árboles que se crearán. Seleccione el número de árboles del bosque.

Especificar máxima profundidad. Si no está seleccionado, los nodos se expanden hasta llegar a las hojas que no contienen nada o hasta que todas las hojas contienen menos de min_samples_split muestras.

Profundidad máxima La profundidad máxima del árbol.

Tamaño mínimo de nodo de hoja. El número mínimo de muestras que deben estar en un nodo de hoja.

Número de características para utilizar para la división. El número de características para tener en cuenta al buscar la mejor división:

Si auto, max_features=sqrt(n_features) para clasificador y max_features=n_features para regresión.
Si sqrt, max_features=sqrt(n_features).
Si log2, max_features=log2(n_features).

Opciones avanzadas

Utilizar muestras de programa de arranque al generar árboles. Si está seleccionado, las muestras de programa de arranque se utilizan al generar árboles.

Utilizar muestras aleatorias para estimar la precisión de la generalización. Si está seleccionado, las muestras aleatorias se utilizan para estimar la precisión de la generalización.

Utilizar árboles extremadamente aleatorizados. Si está seleccionado, se utilizan árboles extremadamente aleatorizados en lugar de bosques aleatorios generales. En árboles extremadamente aleatorizados, la aleatoriedad va un paso más allá en la forma cómo se calculan las divisiones. Como en los bosques aleatorios, se utiliza un subconjunto aleatorio de características candidatas, pero en lugar de buscar los umbrales más discriminatorios, los umbrales se trazan de forma aleatoria para cada característica candidata y el mejor de estos umbrales generados al azar se selecciona como regla de división. Normalmente, esto permite que la varianza del modelo se reduzca un poco más, a expensas de un ligero mayor incremento en el sesgo. ¹

Replicar resultados. Si está seleccionado, el proceso de generación de modelo se replica para conseguir los mismos resultados de puntuación.

Semilla aleatoria. Puede pulsar Generar para generar la semilla utilizada por el generador de números aleatorios.

Optimización de hiper-parámetro (basada en Rbfopt). Seleccione esta opción para habilitar la optimización de hiper-parámetro basada en Rbfopt, que descubre automáticamente la combinación óptima de parámetros, de forma que el modelo conseguirá el índice de error previsto o inferior en las muestras. Si desea detalles sobre Rbfopt, consulte http://rbfopt.readthedocs.io/en/latest/rbfopt_settings.html.

Objetivo. El valor de función de objetivo (índice de errores del modelo en las muestras) que desea alcanzar (es decir, el valor del óptimo desconocido). Establezcalo en un valor aceptable como, por ejemplo, 0.01.

Máx de iteraciones. El número máximo de iteraciones para intentar el modelo. El valor predeterminado es 1000.

Máx de evaluaciones. El número máximo de evaluaciones de función de forma precisa, para volver a intentar el modelo. El valor predeterminado es 300.

La tabla siguiente muestra la relación entre los valores del diálogo del nodo Bosque aleatorio de SPSS Modeler y los parámetros de la biblioteca de Bosque aleatorio Python.

Tabla 1. Propiedades de nodo correlacionadas con parámetros de biblioteca Python
Valor de SPSS Modeler	Nombre de script (nombre de propiedad)	Parámetro de bosque aleatorio
destino	`target`
Predictores	`inputs`
Número de árboles que se generarán	`n_estimators`	`n_estimators`
Especificar máxima profundidad	`specify_max_depth`	`specify_max_depth`
Profundidad máxima	`max_depth`	`max_depth`
Tamaño mínimo de nodo de hoja	`min_samples_leaf`	`min_samples_leaf`
Número de características para utilizar para la división	`max_features`	`max_features`
Utilizar muestras de programa de arranque al generar árboles	`bootstrap`	`bootstrap`
Utilizar muestras aleatorias para estimar la precisión de generalización	`oob_score`	`oob_score`
Utilizar árboles extremadamente aleatorizados	`extreme`
Replicar resultados	`use_random_seed`
Semilla aleatoria	`random_seed`	`random_seed`
Optimización de hiper parámetro (basada en Rbfopt)	`enable_hpo`
Objetivo (para HPO)	`target_objval`
Máx de iteraciones (para HPO)	`max_iterations`
Máx de evaluaciones (para HPO)	`max_evaluations`

¹L. Breiman, "Random Forests," Machine Learning, 45(1), 5-32, 2001.