¿Qué es un árbol de decisión?

Conozca los pros y los contras de usar árboles de decisión para realizar tareas de minería de datos y descubrimiento de conocimiento.

Ilustración de computación acelerada de almacenamiento de datos e IA

Árboles de decisión

Un árbol de decisión es un algoritmo de aprendizaje supervisado no paramétrico, que se utiliza tanto para tareas de clasificación como de regresión. Tiene una estructura de árbol jerárquica, que consta de un nodo raíz, ramas, nodos internos y nodos hoja.

Como puede ver en el diagrama anterior, un árbol de decisión comienza con un nodo raíz, que no tiene ramas entrantes. Las ramas salientes del nodo raíz alimentan los nodos internos, también conocidos como nodos de decisión. En función de las características disponibles, ambos tipos de nodos realizan evaluaciones para formar subconjuntos homogéneos, que se indican mediante nodos hoja o nodos terminales. Los nodos hoja representan todos los resultados posibles dentro del conjunto de datos. Como ejemplo, imaginemos que está tratando de evaluar si debe o no ir a surfear, puede usar las siguientes reglas de decisión para tomar una decisión:

Este tipo de estructura de diagrama de flujo también crea una representación fácil de digerir de la toma de decisiones, lo que permite que diferentes grupos en una organización comprendan mejor por qué se tomó una decisión.

El aprendizaje del árbol de decisiones emplea una estrategia de divide y vencerás mediante la realización de una búsqueda codiciosa para identificar los puntos de división óptimos dentro de un árbol. Este proceso de división se repite de forma recursiva de arriba hacia abajo hasta que todos o la mayoría de los registros se hayan clasificado bajo etiquetas de clase específicas. Que todos los puntos de datos se clasifiquen o no como conjuntos homogéneos depende en gran medida de la complejidad del árbol de decisión. Los árboles más pequeños son más fáciles de obtener nodos hoja puros, es decir, puntos de datos en una sola clase. Sin embargo, a medida que un árbol crece en tamaño, se vuelve cada vez más difícil mantener esta pureza y, por lo general, da como resultado que haya muy pocos datos dentro de un subárbol determinado. Cuando esto ocurre, se conoce como fragmentación de datos y, a menudo, puede resultar en sobreajustes. Como resultado, los árboles de decisión tienen preferencia por los árboles pequeños, lo cual es consistente con el principio de parsimonia en la Navaja de Occam. Es decir, "las entidades no deben multiplicarse más allá de la necesidad". Dicho de otra manera, los árboles de decisión deben agregar complejidad solo si es necesario, ya que la explicación más simple suele ser la mejor. Para reducir la complejidad y evitar el sobreajuste, generalmente se emplea la poda. Este es un proceso que elimina las ramas que se dividen en características con poca importancia. Luego, el ajuste del modelo se puede evaluar mediante el proceso de validación cruzada. Otra forma en que los árboles de decisión pueden mantener su precisión es mediante la formación de un conjunto a través de un algoritmo de bosque aleatorio. Este clasificador predice resultados más precisos, particularmente cuando los árboles individuales no están correlacionados entre sí.


Tipos de árboles de decisión

El algoritmo de Hunt, que se desarrolló en la década de 1960 para modelar el aprendizaje humano en Psicología, forma la base de muchos algoritmos de árboles de decisión populares, como los siguientes: 

  • ID3: A Ross Quinlan se le atribuye el desarrollo de ID3, que es la abreviatura de "Iterative Dichotomiser 3". Este algoritmo aprovecha la entropía y la ganancia de información como métricas para evaluar las divisiones de candidatos. Algunas de las investigaciones de Quinlan sobre este algoritmo de 1986 se pueden encontrar aquí (PDF, 1.3 MB) (enlace externo a ibm.com).
  • C4.5: Este algoritmo se considera una iteración posterior de ID3, que también fue desarrollado por Quinlan. Puede utilizar la ganancia de información o las proporciones de ganancia para evaluar los puntos de división dentro de los árboles de decisión. 
  • CART: El término CART es una abreviatura de "árboles de clasificación y regresión" (“classification and regression trees”) y fue introducido por Leo Breiman. Este algoritmo generalmente utiliza la impureza de Gini para identificar el atributo ideal para la división. La impureza de Gini mide la frecuencia con la que se clasifica incorrectamente un atributo elegido al azar. Cuando se evalúa usando la impureza de Gini, un valor más bajo es más ideal. 

Cómo elegir el mejor atributo en cada nodo

Si bien hay varias formas de seleccionar el mejor atributo en cada nodo, dos métodos, la ganancia de información y la impureza de Gini, actúan como criterio de división popular para los modelos de árboles de decisión. Ayudan a evaluar la calidad de cada condición de prueba y qué tan bien podrá clasificar las muestras en una clase.

Entropía y ganancia de información

Es difícil explicar la ganancia de información sin discutir primero la entropía. La entropía es un concepto que se deriva de la teoría de la información, que mide la impureza de los valores de la muestra. Se define con la siguiente fórmula, donde: 

  • S representa el conjunto de datos en el que se calcula la entropía 
  • c representa las clases en conjunto, S
  • p(c) representa la proporción de puntos de datos que pertenecen a la clase c al número total de puntos de datos en el conjunto, S

Los valores de entropía pueden estar entre 0 y 1. Si todas las muestras en el conjunto de datos, S, pertenecen a una clase, entonces la entropía será igual a cero. Si la mitad de las muestras se clasifican en una clase y la otra mitad en otra clase, la entropía estará en su punto más alto en 1. Para seleccionar la mejor característica para dividir y encontrar el árbol de decisión óptimo, se debe usar el atributo con la menor cantidad de entropía. La ganancia de información representa la diferencia de entropía antes y después de una división en un atributo determinado. El atributo con la ganancia de información más alta producirá la mejor división, ya que hace el mejor trabajo al clasificar los datos de entrenamiento de acuerdo con su clasificación de destino. La ganancia de información generalmente se representa con la siguiente fórmula, donde: 

  • a representa un atributo específico o una etiqueta de clase
  • Entropía (S) es la entropía del conjunto de datos, S
  • |Sv|/ |S| representa la proporción de los valores en Sv al número de valores en el conjunto de datos, S
  • Entropía (Sv) es la entropía del conjunto de datos, Sv

Veamos un ejemplo para solidificar estos conceptos. Imagine que tenemos el siguiente conjunto de datos arbitrario:

Para este conjunto de datos, la entropía es 0.94. Esto se puede calcular al encontrar la proporción de días en los que "Jugar al tenis" es "Sí", que es 9/14, y la proporción de días en los que "Jugar al tenis" es "No", que es 5/14. Luego, estos valores se pueden conectar a la fórmula de entropía anterior.

Entropía (Tenis) = -(9/14) log2(9/14) – (5/14) log2 (5/14) = 0.94

Entonces podemos calcular la ganancia de información para cada uno de los atributos individualmente. Por ejemplo, la ganancia de información para el atributo "Humedad" sería la siguiente:

Ganancia (Tenis, Humedad) = (0.94)-(7/14)*(0.985) – (7/14)*(0.592) = 0.151

 

Como resumen,

  • 7/14 representa la proporción de valores donde la humedad es igual a "alta" al número total de valores de humedad. En este caso, el número de valores donde la humedad es igual a "alta" es el mismo que el número de valores donde la humedad es igual a "normal".
  • 0.985 es la entropía cuando Humedad es = a "alta"
  • 0.59 es la entropía cuando Humedad es = a "normal"

Luego, repita el cálculo de la ganancia de información para cada atributo de la tabla anterior y seleccione el atributo con la ganancia de información más alta para que sea el primer punto de división en el árbol de decisión. En este caso, Outlook produce la mayor ganancia de información. A partir de ahí, el proceso se repite para cada subárbol. 

Impureza de Gini 

La impureza de Gini es la probabilidad de clasificar incorrectamente un punto de datos aleatorio en el conjunto de datos si se etiquetara en función de la distribución de clases del conjunto de datos. Similar a la entropía, si el conjunto S es puro (es decir, pertenece a una clase), entonces su impureza es cero. Esto se denota mediante la siguiente fórmula: 


Ventajas y desventajas de los árboles de decisión

Si bien los árboles de decisión se pueden usar en una variedad de casos de uso, otros algoritmos generalmente superan a los algoritmos de árboles de decisión. Dicho esto, los árboles de decisión son particularmente útiles para minería de datos y tareas de descubrimiento de conocimiento. Exploremos los principales beneficios y desafíos de utilizar árboles de decisión a continuación:

Ventajas

  • Fácil de interpretar: La lógica booleana y las representaciones visuales de los árboles de decisión los hacen más fáciles de entender y consumir. La naturaleza jerárquica de un árbol de decisión también facilita ver qué atributos son los más importantes, lo que no siempre es claro con otros algoritmos, como las Redes neuronales.
  • Se requiere poca o ninguna preparación de datos: Los árboles de decisión tienen una serie de características que los hacen más flexibles que otros clasificadores. Puede manejar varios tipos de datos, es decir, valores discretos o continuos, y los valores continuos se pueden convertir en valores categóricos mediante el uso de umbrales. Además, también puede manejar valores con valores omitidos, lo que puede ser problemático para otros clasificadores, como Naïve Bayes.
  • Mas flexible: Los árboles de decisión se pueden aprovechar para tareas de clasificación y regresión, lo que los hace más flexibles que otros algoritmos. También es insensible a las relaciones subyacentes entre los atributos; esto significa que si dos variables están altamente correlacionadas, el algoritmo solo elegirá una de las características para realizar la división. 

Desventajas

  • Propenso al sobreajuste: Los árboles de decisión complejos tienden a sobreajustarse y no se generalizan bien a los nuevos datos. Este escenario se puede evitar mediante los procesos de poda previa o poda posterior. La poda previa detiene el crecimiento del árbol cuando no hay datos suficientes, mientras que la poda posterior elimina los subárboles con datos inadecuados después de la construcción del árbol. 
  • Estimadores de alta varianza: Pequeñas variaciones dentro de los datos pueden producir un árbol de decisión muy diferente. El embolsado, o el promedio de estimaciones, puede ser un método para reducir la varianza de los árboles de decisión. Sin embargo, este enfoque es limitado ya que puede conducir a predictores altamente correlacionados.
  • Más costoso: Dado que los árboles de decisión adoptan un enfoque de búsqueda codicioso durante la construcción, pueden ser más costosos de entrenar en comparación con otros algoritmos. 
  • No es totalmente compatible con scikit-learn: Scikit-learn es una popular biblioteca de machine learning basada en Python. Si bien esta biblioteca tiene un módulo de Árbol de decisiones (DecisionTreeClassifier, enlace externo a ibm.com), la implementación actual no admite variables categóricas.

Árboles de decisión e IBM

IBM SPSS Modeler es una herramienta de minería de datos que le permite desarrollar modelos predictivos para implementarlos en las operaciones comerciales. Diseñado en torno al modelo CRISP-DM estándar de la industria, IBM SPSS Modeler admite todo el proceso de minería de datos, desde el procesamiento de datos hasta mejores resultados empresariales.

IBM SPSS Decision Trees presenta clasificación visual y árboles de decisión para ayudarle a presentar resultados categóricos y explicar más claramente el análisis a audiencias no técnicas. Cree modelos de clasificación para segmentación, estratificación, predicción, reducción de datos y selección de variables.

Para obtener más información acerca de las herramientas y soluciones de minería de datos de IBM, regístrese para obtener un IBMid y cree una cuenta de IBM Cloud hoy.


Soluciones relacionadas

IBM SPSS Modeler

IBM SPSS Modeler es una herramienta de minería de datos que le permite desarrollar modelos predictivos para implementarlos en las operaciones comerciales. Diseñado en torno al modelo CRISP-DM estándar de la industria, IBM SPSS Modeler admite todo el proceso de minería de datos, desde el procesamiento de datos hasta mejores resultados empresariales.


IBM SPSS Decision Trees

IBM SPSS Decision Trees presenta una clasificación visual y árboles de decisión para ayudarle a presentar resultados categóricos y explicar más claramente el análisis a audiencias no técnicas. Cree modelos de clasificación para segmentación, estratificación, predicción, reducción de datos y selección de variables.



Obtenga más información acerca de las soluciones de minería de datos de IBM

Para obtener más información acerca de las herramientas y soluciones de minería de datos de IBM, regístrese para obtener un IBMid y cree una cuenta de IBM Cloud hoy.