Modelos de árboles de decisión

Utilice modelos de árbol de decisión para desarrollar sistemas de clasificación que predicen o clasifican observaciones futuras basándose en un conjunto de reglas de decisión. Si dispone de datos divididos en clases que le interesan (por ejemplo, préstamos de alto riesgo frente a préstamos de bajo riesgo, suscriptores frente a no suscriptores, votantes frente a no votantes o tipos de bacterias), puede usar los datos para generar reglas que pueda usar para clasificar casos antiguos o recientes con la máxima precisión. Por ejemplo, podría generar un árbol que clasificara el riesgo de crédito o la intención de compra basándose en la edad y otros factores.

Este método, a veces conocido como inducción de regla, presenta varias ventajas. Primero, el proceso de razonamiento detrás del modelo resulta claramente evidente cuando se examina el árbol. Esto contrasta con otras técnicas de modelado de caja negra, en las que la lógica interna puede resultar difícil de averiguar.

En segundo lugar, el proceso incluye automáticamente en su regla únicamente los atributos que realmente importan en la toma decisiones. Los atributos que no contribuyan a la precisión del árbol se omiten. Esto puede proporcionar información de gran utilidad acerca de los datos y se puede usar para reducir los datos a campos relevantes antes de entrenar otra técnica de aprendizaje, como una red neuronal.

Los nugget de modelo de árbol de decisión se pueden convertir en una colección de reglas if-then (un conjunto de reglas), que en muchos casos muestra la información de forma más comprensible. La presentación del árbol de decisión resulta útil cuando se desea ver el modo en que los atributos de los datos pueden dividir o particionar la población en subconjuntos relevantes para el problema. La salida del nodo Tree-AS es diferente de los otros nodos Árbol de decisión porque incluye una lista de reglas directamente en el nugget sin tener que crear un conjunto de reglas. La presentación del conjunto de reglas resulta de utilidad si se desea ver el modo en que determinados grupos de elementos se vinculan a una conclusión particular. Por ejemplo, la siguiente regla proporciona un perfil de un grupo de vehículos que merece la pena comprar:

IF tested = 'yes'
AND kilometraje = 'bajo'
THEN -> 'BUY'.

Algoritmos de generación de árboles

Hay varios algoritmos disponibles para realizar un análisis de segmentación y clasificación. Todos estos algoritmos son básicamente similares: examinan todos los campos del conjunto de datos para detectar el que proporciona la mejor clasificación o predicción dividiendo los datos en subgrupos. El proceso se aplica de forma recursiva, dividiendo los subgrupos en unidades cada vez más pequeñas hasta completar el árbol (según defina determinados criterios de parada). Los campos objetivo y de entrada utilizados en la generación del árbol pueden ser continuos (rango numérico) o categóricos, dependiendo del algoritmo que se utilice. Si se usa un objetivo continuo, se genera un árbol de regresión; si se usa un objetivo categórico, se genera un árbol de clasificación.

El nodo de árbol de clasificación y regresión (C&R) genera un árbol de decisión que permite predecir o clasificar observaciones futuras. El método utiliza la partición reiterada para dividir los registros de entrenamiento en segmentos minimizando las impurezas en cada paso, donde un nodo se considera “puro” si el 100% de los casos del nodo corresponden a una categoría específica del campo objetivo. Los campos de entrada y objetivo pueden ser continuos (rango numérico) o categóricos (nominal, ordinal o marca). Todas las divisiones son binarias (sólo se crean dos subgrupos).

El nodo CHAID genera árboles de decisión utilizando estadísticos de chi-cuadrado para identificar las divisiones óptimas. A diferencia de los nodos C&RT y Árbol y QUEST, CHAID puede generar árboles no binarios, lo que significa que algunas divisiones generarán más de dos ramas. Los campos de entrada y objetivo pueden ser continuos (rango numérico) o categóricos. CHAID exhaustivo es una modificación de CHAID que examina con mayor precisión todas las divisiones posibles, aunque necesita más tiempo para realizar los cálculos.

El nodo QUEST proporciona un método de clasificación binario para generar árboles de decisión; está diseñado para reducir el tiempo de procesamiento necesario para realizar los análisis de C&RT y reducir la tendencia de los métodos de clasificación de árboles para favorecer a las entradas que permitan realizar más divisiones. Los campos de entrada pueden ser continuos (rango numérico), sin embargo el campo objetivo debe ser categórico. Todas las divisiones son binarias.

El nodo C5.0 genera un árbol de decisión o un conjunto de reglas. El modelo divide la muestra basándose en el campo que ofrece la máxima ganancia de información en cada nivel. El campo objetivo debe ser categórico. Se permiten varias divisiones en más de dos subgrupos.

El nodo Tree-AS es similar al nodo CHAID existente; sin embargo, el nodo Tree-AS se ha designado para procesar grandes cantidades de datos (Big Data) para crear un solo árbol y mostrar el modelo resultante en el visor de salida que se ha añadido en SPSS Modeler versión 17. El nodo genera un árbol de decisiones utilizando estadísticas de chi-cuadrado (CHAID) para identificar divisiones opcionales. Este uso de CHAID puede generar árboles no binarios, lo que significa que algunas divisiones generarán más de dos ramas. Los campos de entrada y objetivo pueden ser continuos (rango numérico) o categóricos. CHAID exhaustivo es una modificación de CHAID que examina con mayor precisión todas las divisiones posibles, aunque necesita más tiempo para realizar los cálculos.

El nodo Árboles aleatorios es similar al nodo C&RT existente; el nodo Árboles aleatorios se diseñado para procesar grandes cantidades de datos (Big Data) para crear un único árbol y mostrar el modelo resultante en el visor de la salida que se ha añadido en SPSS Modeler versión 17. El nodo del árbol Árboles aleatorios genera un árbol de decisiones que se utiliza para predecir o clasificar observaciones futuras. El método utiliza la partición reiterada para dividir los registros de entrenamiento en segmentos minimizando las impurezas en cada paso, donde un nodo se considera puro si el 100% de los casos del nodo corresponden a una categoría específica del campo objetivo. Los campos de entrada y objetivo pueden ser continuos (rango numérico) o categóricos (nominal, ordinal o marca). Todas las divisiones son binarias (sólo se crean dos subgrupos).

Usos generales del análisis basado en árboles

A continuación se detallan algunos usos generales del análisis basado en árboles:

Segmentación: Identifique personas que probablemente sean miembros de una clase concreta.

Estratificación: Asigne casos en una de varias categorías como, por ejemplo, grupos de alto riesgo, de riesgo medio y de bajo riesgo.

Predicción: Cree reglas y utilícelas para predecir futuros eventos. Las predicciones también pueden significar intentos de relacionar atributos predictivos con valores de una variable continua.

Reducción de datos y cribado de variables: Seleccione un subconjunto útil de predictores en un gran conjunto de variables para utilizarlas en la creación de un modelo paramétrico formal.

Identificación de interacción: Identifique las relaciones que solo pertenecen a subgrupos específicos y especifíquelos en un modelo paramétrico formal.

Fusión de categorías y creación de tramos de variables continuas: Vuelva a codificar categorías de predictor de grupo y variables mínimas con una pérdida mínima de información.