Árbol de clasificación

Un árbol de clasificación es un tipo de árbol de decisiones. Utiliza la medida de impurezas de Gini para clasificar los registros en las categorías del campo objetivo. Las predicciones se basan en combinaciones de valores en los campos de entrada.

Un árbol de clasificación calcula la categoría de destino pronosticada para cada nodo en el árbol. Este tipo de árbol se genera cuando el campo de destino es categórico.

Los detalles algorítmicos son demasiado complicados para describirlos aquí. Puede ver las estadísticas de frecuencia en las sugerencias de herramientas para los nodos en la visualización del árbol de decisiones. Cada nodo se divide en dos o más nodos hijo para reducir el valor de impureza Gini del nodo. La impureza de Gini es una función que penaliza más incluso la distribución de valores objetivo y se basa en las estadísticas de frecuencia de destino y en el número de filas de datos correspondientes al nodo. Los nodos hijo correspondientes a las categorías de predictores dados se fusionan cuando el incremento correspondiente en la impureza de Gini es tolerable dentro del límite especificado. Para cada nodo, el predictor que reduce el valor de impurezas de Gini más se selecciona para la división del nodo.

El proceso de creación de un árbol de decisiones se inicia con el nodo raíz que corresponde a todas las filas de los datos. Cualquier nodo se divide en nodos hijo hasta que no es posible ninguna mejora adicional en la impureza de Gini, o el número de filas de datos correspondientes al nodo se vuelve demasiado pequeño. El proceso también se detiene si el número de nodos en el árbol de decisiones pasa a ser demasiado grande.

La potencia predictiva que se notifica para un árbol de clasificación es el recuento ajustado R2. Se obtiene calculando la precisión de clasificación de árbol sobre el modelo constante y dividiéndolo por el error de clasificación de modelo constante. El modelo constante siempre predice la modalidad de destino y su precisión de clasificación se estima según la frecuencia de la modalidad. Se informa de un árbol de clasificación predictiva fiable cuando su fuerza predictiva es mayor que un umbral predeterminado del 10%.