Opciones de modelo para el nodo C5.0

Esta característica está disponible en SPSS Modeler Professional y SPSS Modeler Premium.

Nombre del modelo. Especifique el nombre del modelo que desea generar.

  • Automático. Seleccione esta opción para generar automáticamente el nombre del modelo de acuerdo con los nombres de los campos objetivos. Este es el método predeterminado.
  • Personalizado. Seleccione esta opción para especificar el nombre que desea para el nugget de modelo que se creará en este nodo.

Utilice datos en particiones. Si se ha definido un campo de partición, esta opción garantiza que sólo se utilicen los datos de la partición de entrenamiento para la generación del modelo.

Crear modelos divididos. Genera un modelo diferente para cada valor posible de campos de entrada que se especifican como campos de división. Consulte Generación de modelos divididos si desea obtener más información.

Tipo de resultados. Especifique si desea que el nugget de modelo sea un árbol de decisión o un conjunto de reglas.

Agrupar simbólicos. Seleccione esta opción para que C5.0 intente combinar los valores simbólicos que cuentan con patrones similares respecto al campo de salida. Seleccione esta opción para que C5.0 cree un nodo hijo para cada uno de los valores del campo simbólico utilizado para dividir el nodo padre. Por ejemplo, si C5.0 realiza divisiones en un campo COLOR (con valores ROJO, VERDE y AZUL), se creará de forma predeterminada una división de tres factores. No obstante, si selecciona esta opción y los registros donde COLOR = ROJO son muy similares a los registros donde COLOR = AZUL, se creará una división de dos factores, con los registros correspondientes a VERDE en un grupo y los registros para AZUL y ROJO en otro.

Utilizar aumento. El algoritmo C5.0 cuenta con un método especial para mejorar su precisión denominado aumento. Este método genera varios modelos en una secuencia. El primer modelo se crea con el procedimiento habitual. A continuación, se crea un segundo modelo que se centra en los registros que el primer modelo clasificó erróneamente. Seguidamente se crea un tercer modelo que se basará en los errores del segundo modelo, y así sucesivamente. Por último, para clasificar los casos, se les aplica todo el conjunto de modelos de acuerdo con un procedimiento de votación ponderada para combinar las distintas predicciones en una predicción global. El aumento puede mejorar significativamente la precisión del modelo C5.0, aunque también precisa de un entrenamiento más largo. La opción Número de ensayos permite controlar el número de modelos que deben utilizarse para el modelo aumentado.

Efectuar validación cruzada. Seleccione esta opción para que C5.0 utilice un conjunto de modelos creado a partir de subconjuntos de datos de entrenamiento para calcular una estimación de la precisión de un modelo creado a partir de un conjunto de datos completo. Esta función resulta de utilidad cuando el conjunto de datos es demasiado pequeño para dividirlo en conjuntos tradicionales de comprobación o entrenamiento. Los modelos de validación cruzada se descartan una vez calculada la estimación de precisión. Puede especificar el número de veces o el número de modelos que desea aplicar a la validación cruzada. Observe que, en versiones anteriores de IBM® SPSS Modeler, la creación del modelo y la validación cruzada eran dos operaciones independientes. En la versión actual, no se precisa ningún otro paso para generar el modelo. La validación cruzada y la generación del modelo se realizan al mismo tiempo.

Moda. En un entrenamiento Simple, la mayoría de los parámetros de C5.0 se establecen automáticamente. El entrenamiento Experto permite ejercer un control más directo sobre los parámetros de entrenamiento.

Opciones de modo Simple

Favorecer. De forma predeterminada, C5.0 intentará producir el árbol más preciso posible. En algunos casos, puede producirse un sobreajuste que puede ocasionar un rendimiento pobre al aplicar el modelo a nuevos datos. Seleccione Generalización para utilizar la configuración de algoritmo menos propensa a este problema.

Nota: los modelos generados con la opción Generalización no tienen por qué generalizar mejor que el resto de modelos necesariamente. Cuando la generalización resulta fundamental, valide siempre el modelo con una muestra de comprobación reservada.

Ruido esperado (%). Especifique la proporción esperada de datos con ruido o erróneos en el conjunto de entrenamiento.

Opciones de modo Experto

Gravedad de la poda. Determina hasta qué punto se debe podar el árbol de decisión o conjunto de reglas. Aumente este valor para obtener un árbol más pequeño y resumido. Disminúyalo para obtener un árbol más preciso. Este parámetro afecta únicamente a la poda local (consulte "Utilizar poda global" a continuación).

Número mínimo de registros por rama hija. Puede utilizar el tamaño de los subgrupos para limitar el número de divisiones de cualquier rama del árbol. Una rama se dividirá únicamente si dos o más de las subramas resultantes pueden contener al menos este número de registros del conjunto de entrenamiento. El valor predeterminado es 2. Auméntelo para impedir el sobreentrenamiento con los datos con ruido.

Utilizar poda global. Los árboles se podan en dos etapa: La primera, una fase de poda local, que examina los subárboles y contrae las ramas para aumentar la precisión del modelo. La segunda es una fase de poda global en que se considera el árbol como un todo y pueden contraerse los subárboles. De forma predeterminada, se realiza la poda global. Anule la selección de esta opción para omitir esta fase.

Valoración inicial de atributos. Seleccione esta opción para que C5.0 examine la utilidad de los predictores antes de iniciar la generación del modelo. A continuación, se excluyen de este proceso de generación los predictores que no se consideran importantes. Esta opción puede resultar útil para los modelos con varios campos predictores y puede ayudar a impedir el sobreajuste.

Nota: La velocidad de la generación de modelos C5.0 se puede beneficiar de la habilitación del proceso paralelo.