Visión general (mandato TREE)

El procedimiento TREE crea un modelo basado en árbol. Clasifica los casos en grupos o predice valores de una variable dependiente basándose en valores de variables predictoras. El procedimiento proporciona herramientas de validación para análisis de clasificación exploratorios y confirmatorios.

Opciones

Modelo. Puede especificar la variable dependiente (objetivo) y una o más variables (predictoras) independientes. Opcionalmente, puede forzar una variable independiente en el modelo como la primera variable.

Método de crecimiento. Hay disponibles cuatro algoritmos en crecimiento: CHAID (el valor predeterminado), CHAID exhaustivo, CRT y QUEST. Cada uno realiza un tipo de división recursiva. En primer lugar, se examinan todos los predictores para encontrar el que proporciona la mejor clasificación o predicción dividiendo la muestra en subgrupos (nodos). El proceso se aplica de forma recursiva, dividiendo los subgrupos en grupos cada vez más pequeños. Se detiene cuando se cumplen uno o varios criterios de detención.

Los cuatro métodos de crecimiento tienen características y características de rendimiento diferentes:

CHAID elige predictores que tienen la interacción más fuerte con la variable dependiente. Las categorías de predictor se fusionan si no son significativamente diferentes con respecto a la variable dependiente (Kass, 1980).
CHAID exhaustivo es una modificación de CHAID que examina todas las posibles divisiones para cada predictor (Biggs et al., 1991).
La TRC es una familia de métodos que maximiza la homogeneidad intra-nodo (Breiman et al., 1984).
Los árboles QUEST se calculan rápidamente, pero el método sólo está disponible si la variable dependiente es nominal. (Loh y Shih, 1997).

Criterios de parada. Puede establecer parámetros que limiten el tamaño del árbol y controlen el número mínimo de casos en cada nodo.

Validación. Puede evaluar el grado de generalización de la estructura de árbol en una muestra más grande. Se da soporte al particionamiento de muestra dividida y a la validación cruzada. El particionamiento divide los datos en una muestra de entrenamiento, a partir de la cual se cultiva el árbol, y una muestra de prueba, en la que se prueba el árbol. La validación cruzada implica dividir la muestra en un número de muestras más pequeñas. Los árboles se generan excluyendo los datos de cada submuestra a su vez. Para cada árbol, el riesgo de clasificación errónea se estima utilizando datos para la submuestra que se excluyó al generarlo. Una estimación de riesgo validada cruzada se calcula como el riesgo promedio entre árboles.

Salida. La salida predeterminada incluye un diagrama de árbol y estadísticas de riesgo. La precisión de clasificación se notifica si la variable dependiente es categórica. Opcionalmente, puede obtener gráficos de medidas relacionadas con ganancias y beneficios, así como reglas de clasificación que se pueden utilizar para seleccionar o puntuar nuevos casos. También puede guardar las predicciones del modelo en el conjunto de datos activo, incluido el segmento asignado (nodo), la clase/valor pronosticado y la probabilidad pronosticada.

Especificación básica

La especificación básica es una variable dependiente y una o más variables independientes.

Operaciones

El árbol se cultiva hasta que se cumplen uno o más criterios de detención. El método de crecimiento predeterminado es CHAID.
El tipo de modelo depende del nivel de medición de la variable dependiente. Si la variable dependiente es de escala (continua), se calcula un modelo de predicción. Si es categórico (nominal u ordinal), se genera un modelo de clasificación.
El nivel de medición determina las combinaciones permitidas de valores predictores dentro de un nodo. Para los predictores ordinales y de escala, sólo se pueden producir categorías/valores adyacentes en un nodo. No existen restricciones sobre la agrupación de categorías nominales.
TREE respeta el valor SET SEED si se solicita la validación del modelo de división muestral.
El procedimiento TREE ignora SPLIT FILE .
Si se define una variable WEIGHT , las ponderaciones se tratan como ponderaciones de réplica. Las ponderaciones fraccionales se redondean.

Nota: El nivel de medición puede afectar a los resultados. Si alguna variable (campos) tiene un nivel de medición desconocido, se realiza un paso de datos para determinar el nivel de medición antes de que comience el análisis. Para obtener información sobre los criterios de determinación, consulte SET SCALEMIN.

Reglas de la sintaxis

La especificación mínima es una variable dependiente, la palabra clave BY y una o más variables independientes.
Todos los submandatos son opcionales.
Sólo se permite una única instancia de cada submandato.
Una palabra clave sólo puede especificarse una vez dentro de un subcomando.
Son necesarios los signos de igual (=) que se muestran en el gráfico de sintaxis.
Los nombres de subcomando y las palabras clave deben escribirse en su totalidad.
Los subcomandos se pueden utilizar en cualquier orden.

El procedimiento TREE ignora SPLIT FILE .
CHAID y CHAID exhaustivo: una variable dependiente categórica no puede tener más de 126 categorías. Si la variable dependiente es categórica, el límite para un predictor categórico es también de 126 categorías.
TRT: Un predictor nominal no puede tener más de 32 categorías.
QUEST: Si un predictor es nominal, el límite para la variable dependiente (que debe ser nominal) es de 127 categorías. Un predictor nominal no puede tener más de 25 categorías.

Ejemplos

TREE risk BY income age creditscore employment.

Se calcula un modelo de árbol que estima el riesgo de crédito utilizando los ingresos, la edad, la puntuación de crédito y la categoría de empleo de un individuo como variables predictoras.
El método predeterminado, CHAID, se utiliza para hacer crecer el árbol.
Puesto que no se especifica el nivel de medición, se obtiene del diccionario de datos para cada variable de modelo. Si no se ha definido ningún nivel de medición, las variables numéricas se tratan como de escala y las variables de cadena se tratan como nominales.

TREE risk [o] BY income [o] age [s] creditscore [s] employment [n]
  /METHOD TYPE=CRT
  /VALIDATION TYPE=SPLITSAMPLE
  /SAVE NODEID PREDVAL.

Se calcula un modelo de árbol que estima el riesgo de crédito utilizando los ingresos, la edad, la puntuación de crédito y la categoría de empleo de un individuo como variables predictoras.
La edad y la puntuación de crédito se tratarán como variables de escala, el riesgo y los ingresos como ordinales, y la categoría de empleo como nominal.
El método CRT, que realiza divisiones binarias, se utiliza para hacer crecer el árbol.
Se solicita la validación por división muestral. De forma predeterminada, el 50% de los casos se asignan a la muestra de entrenamiento. Los casos restantes se utilizan para validar el árbol.
Se guardan dos variables en el conjunto de datos activo: identificador de nodo (segmento) y valor predicho.