Nodo Árboles aleatorios - Aspectos básicos
Especifique opciones básicas sobre cómo crear el árbol de decisiones.
Número de modelos a construir. Especifique el número máximo de árboles que el nodo puede construir.
Tamaño de muestra. De forma predeterminada, el tamaño de la
muestra de programa de arranque es igual a los datos de entrenamiento originales. Al tratar
con conjuntos de datos grandes, la reducción del tamaño de muestra
puede aumentar el rendimiento. Es una relación de 0 a 1. Por ejemplo, establezca el tamaño de ejemplo en 0,6 para reducirlo al 60% del tamaño de datos de entrenamiento original.
Manejar datos desequilibrados. Si el destino del modelo es un resultado de distintivo (por ejemplo, comprar o no comprar) y la proporción entre el resultado deseado y el no deseado es muy pequeña, los datos están desequilibrados y el muestreo de programa de arranque realizado por el modelo puede afectar la precisión del modelo. Para mejorar la precisión marque esta casilla de verificación; entonces el modelo captura una proporción mayor de los resultados deseados y genera un modelo mejor.
Utilizar muestreo ponderado para la selección de variables. De forma predeterminada, las variables para cada nodo hoja se seleccionan aleatoriamente con la misma probabilidad. Para aplicar ponderación a las variables y mejorar el proceso de selección, seleccione esta casilla de verificación. La ponderación la calcula el propio nodo Árboles aleatorios. Los campos más importantes (con mayor ponderación) tienen más probabilidades de ser seleccionados como predictores.
Número máximo de nodos. Especifique el número máximo de nodos hoja que están permitidos en árboles individuales. Si el número supera en la división siguiente, el crecimiento del árbol se detiene antes de que se produzca la división.
Máxima profundidad de árbol. Especifique el número máximo de niveles nodos hoja bajo el nodo raíz; es decir, el número de veces que la muestra se divide repetidamente).
Tamaño mínimo de nodo hijo. Especifique el número mínimo de registros que deben estar contenidos en un nodo hijo después de que se haya dividido el nodo padre. Si un nodo hijo contiene menos registros que los que se especifican, el nodo padre no se dividirá.
⌊sqrt(M)⌋ para la clasificación y ⌊M/3⌋ para la regresión, donde M es el número total de variables predictoras. Si se selecciona esta opción, se utilizará el número especificado de predictores.Detener la creación cuando la precisión ya no pueda ser mejorada. Árboles aleatorios utiliza un procedimiento concreto para decidir cuando detener el entrenamiento. Específicamente, si la mejora de la precisión del conjunto actual es menor que un umbral especificado, dejará de añadir nuevos árboles. Esto podría resultar en un modelo con menos árboles que el valor especificado para la opción Número de modelos a construir.