Inicio

Temas

Árbol de decisión

¿Qué es un árbol de decisión?
Aplica árboles de decisión con watsonx.ai Regístrese para recibir actualizaciones sobre IA
Ilustración del diagrama de flujo del decision tree
¿Qué es un árbol de decisión?

Un árbol de decisión es un algoritmo de aprendizaje supervisado no paramétrico, que se utiliza tanto para tareas de clasificación como de regresión. Tiene una estructura jerárquica, de árbol, que consta de un nodo raíz, ramas, nodos internos y nodos de hoja.

Un árbol de decisión es un algoritmo de aprendizaje supervisado no paramétrico, que se utiliza tanto para tareas de clasificación como de regresión. Tiene una estructura de árbol jerárquica, que consta de un nodo raíz, ramas, nodos internos y nodos hoja.

Como puede ver en el diagrama anterior, un árbol de decisión comienza con un nodo raíz, que no tiene ramas entrantes. Las ramas salientes del nodo raíz alimentan los nodos internos, también conocidos como nodos de decisión. En función de las características disponibles, ambos tipos de nodos realizan evaluaciones para formar subconjuntos homogéneos, que se indican mediante nodos hoja o nodos terminales. Los nodos hoja representan todos los resultados posibles dentro del conjunto de datos. Como ejemplo, imaginemos que está tratando de evaluar si debe o no ir a surfear, puede usar las siguientes reglas de decisión para tomar una decisión:

Este tipo de estructura de diagrama de flujo también crea una representación fácil de digerir de la toma de decisiones, lo que permite que diferentes grupos en una organización comprendan mejor por qué se tomó una decisión.

El aprendizaje del árbol de decisiones emplea una estrategia de divide y vencerás mediante la realización de una búsqueda codiciosa para identificar los puntos de división óptimos dentro de un árbol. Este proceso de división se repite de forma recursiva de arriba hacia abajo hasta que todos o la mayoría de los registros se hayan clasificado bajo etiquetas de clase específicas.

Que todos los puntos de datos se clasifiquen o no como conjuntos homogéneos depende en gran medida de la complejidad del árbol de decisión. Los árboles más pequeños son más fáciles de obtener nodos hoja puros, es decir, puntos de datos en una sola clase. Sin embargo, a medida que un árbol crece en tamaño, se vuelve cada vez más difícil mantener esta pureza y, por lo general, da como resultado que haya muy pocos datos dentro de un subárbol determinado. Cuando esto ocurre, se conoce como fragmentación de datos y, a menudo, puede resultar en sobreajustes. Como resultado, los árboles de decisión tienen preferencia por los árboles pequeños, lo cual es consistente con el principio de parsimonia en la Navaja de Occam. Es decir, "las entidades no deben multiplicarse más allá de la necesidad". Dicho de otra manera, los árboles de decisión deben agregar complejidad solo si es necesario, ya que la explicación más simple suele ser la mejor.

Para reducir la complejidad y evitar el sobreajuste, generalmente se emplea la poda. Este es un proceso que elimina las ramas que se dividen en características con poca importancia. Luego, el ajuste del modelo se puede evaluar mediante el proceso de validación cruzada. Otra forma en que los árboles de decisión pueden mantener su precisión es mediante la formación de un conjunto a través de un algoritmo de bosque aleatorio. Este clasificador predice resultados más precisos, particularmente cuando los árboles individuales no están correlacionados entre sí.

Cómo elegir el modelo fundacional de IA adecuado

Utilice este marco de selección de modelos para elegir el modelo más apropiado mientras equilibra sus requisitos de rendimiento con los costos, los riesgos y las necesidades de despliegue.

Contenido relacionado Regístrese para obtener el libro electrónico sobre flujos de trabajo de IA responsable
Tipos de árboles de decisión

El algoritmo de Hunt, que se desarrolló en la década de 1960 para modelar el aprendizaje humano en Psicología, forma la base de muchos algoritmos de árboles de decisión populares, como los siguientes: 

  • ID3: A Ross Quinlan se le atribuye el desarrollo de ID3, que es la abreviatura de "Iterative Dichotomiser 3". Este algoritmo aprovecha la entropía y la ganancia de información como métricas para evaluar las divisiones de candidatos. Algunas de las investigaciones de Quinlan sobre este algoritmo de 1986 se pueden encontrar aquí (PDF, 1.3 MB) (enlace externo a ibm.com).

  • C4.5: Este algoritmo se considera una iteración posterior de ID3, que también fue desarrollado por Quinlan. Puede utilizar la ganancia de información o las proporciones de ganancia para evaluar los puntos de división dentro de los árboles de decisión. 

  • CART: El término CART es una abreviatura de "árboles de clasificación y regresión" (“classification and regression trees”) y fue introducido por Leo Breiman. Este algoritmo generalmente utiliza la impureza de Gini para identificar el atributo ideal para la división. La impureza de Gini mide la frecuencia con la que se clasifica incorrectamente un atributo elegido al azar. Cuando se evalúa usando la impureza de Gini, un valor más bajo es más ideal. 
Cómo elegir el mejor atributo en cada nodo

Si bien hay varias formas de seleccionar el mejor atributo en cada nodo, dos métodos, la ganancia de información y la impureza de Gini, actúan como criterio de división popular para los modelos de árboles de decisión. Ayudan a evaluar la calidad de cada condición de prueba y qué tan bien podrá clasificar las muestras en una clase.

Entropía y ganancia de información

Es difícil explicar la ganancia de información sin discutir primero la entropía. La entropía es un concepto que se deriva de la teoría de la información, que mide la impureza de los valores de la muestra. Se define con la siguiente fórmula, donde: 

  • S representa el conjunto de datos en el que se calcula la entropía 
  • c representa las clases en el conjunto, S
  • p(c) representa la proporción de puntos de datos que pertenecen a la clase c con respecto al número total de puntos de datos del conjunto, S

Los valores de entropía pueden estar entre 0 y 1. Si todas las muestras del conjunto de datos, S, pertenecen a una clase, entonces la entropía será igual a cero. Si la mitad de las muestras se clasifican en una clase y la otra mitad en otra clase, la entropía alcanzará su nivel más alto, 1. Para seleccionar la mejor característica para dividir y encontrar el árbol de decisión óptimo, se debe emplear el atributo con la menor cantidad de entropía. La ganancia de información representa la diferencia de entropía antes y luego de una división en un atributo determinado. El atributo con la mayor ganancia de información producirá la mejor división, ya que es el que hace el mejor trabajo al clasificar los datos de entrenamiento según su clasificación objetivo. La ganancia de información se representa habitualmente con la siguiente fórmula, donde: 

  • a representa un atributo específico o etiqueta de clase
  • Entropy(S) es la entropía del conjunto de datos, S
  • |Sv|/ |S| representa la proporción de los valores en Sv con respecto al número de valores en el conjunto de datos, S
  • Entropy(Sv) es la entropía del conjunto de datos, S v

Veamos un ejemplo para reforzar estos conceptos. Imagine que tenemos el siguiente conjunto de datos arbitrario:

Para este conjunto de datos, la entropía es 0.94. Esto se puede calcular encontrando la proporción de días en los que “Juega al tenis” es “Sí”, que es 9/14, y la proporción de días en los que “Juega al tenis” es “No”, que es 5/14. Luego, estos valores se pueden conectar a la fórmula de entropía anterior.

Entropía (Tenis) = -(9/14) log2(9/14) – (5/14) log2 (5/14) = 0.94

A continuación, podemos calcular la ganancia de información para cada uno de los atributos individualmente. Por ejemplo, la ganancia de información para el atributo "Humedad" sería la siguiente:

Ganancia (Tenis, Humedad) = (0.94) - (7/14) * (0.985) – 7/14) * (0,592) = 0.151

 

En resumen,

- 7/14 representa la proporción de valores donde la humedad es “alta” respecto al número total de valores de humedad. En este caso, el número de valores donde la humedad es igual a “alta” es el mismo que el número de valores donde la humedad es igual a “normal”.

- 0.985 es la entropía cuando Humedad = “alta”

- 0.59 es la entropía cuando la humedad = “normal”

Luego, repita el cálculo de la ganancia de información para cada atributo de la tabla anterior y seleccione el atributo con la mayor ganancia de información para que sea el primer punto de división en el árbol de decisión. En este caso, la perspectiva produce la mayor ganancia de información. A partir de ahí, el proceso se repite para cada subárbol. 

Impureza de Gini 

La impureza de Gini es la probabilidad de clasificar incorrectamente un punto de datos aleatorio en el conjunto de datos si se etiquetara en función de la distribución de clases del conjunto de datos. Similar a la entropía, si se establece, S, es pura, es decir, perteneciente a una clase), entonces, su impureza es cero. Esto se denota mediante la siguiente fórmula: 

Beneficios y desventajas de los árboles de decisión

Si bien los árboles de decisión se pueden emplear en una variedad de casos de uso, otros algoritmos suelen superar a los algoritmos de árbol de decisión. Dicho esto, los árboles de decisión son particularmente útiles para tareas de minería de datos y descubrimiento de conocimiento. Exploremos los principales beneficios y desafíos de emplear árboles de decisión a continuación:

Ventajas
  • Fácil de interpretar: La lógica booleana y las representaciones visuales de los árboles de decisión los hacen más fáciles de entender y consumir. La naturaleza jerárquica de un árbol de decisión también facilita ver qué atributos son los más importantes, lo que no siempre es claro con otros algoritmos, como las Redes neuronales.

  • Se requiere poca o ninguna preparación de datos: Los árboles de decisión tienen una serie de características que los hacen más flexibles que otros clasificadores. Puede manejar varios tipos de datos, es decir, valores discretos o continuos, y los valores continuos se pueden convertir en valores categóricos mediante el uso de umbrales. Además, también puede manejar valores con valores omitidos, lo que puede ser problemático para otros clasificadores, como Naïve Bayes.

  • Mas flexible: Los árboles de decisión se pueden aprovechar para tareas de clasificación y regresión, lo que los hace más flexibles que otros algoritmos. También es insensible a las relaciones subyacentes entre los atributos; esto significa que si dos variables están altamente correlacionadas, el algoritmo solo elegirá una de las características para realizar la división. 
Desventajas
  • Propenso al sobreajuste: Los árboles de decisión complejos tienden a sobreajustarse y no se generalizan bien a los nuevos datos. Este escenario se puede evitar mediante los procesos de poda previa o poda posterior. La poda previa detiene el crecimiento del árbol cuando no hay datos suficientes, mientras que la poda posterior elimina los subárboles con datos inadecuados después de la construcción del árbol. 

  • Estimadores de alta varianza: Pequeñas variaciones dentro de los datos pueden producir un árbol de decisión muy diferente. El embolsado, o el promedio de estimaciones, puede ser un método para reducir la varianza de los árboles de decisión. Sin embargo, este enfoque es limitado ya que puede conducir a predictores altamente correlacionados.

  • Más costoso: Dado que los árboles de decisión adoptan un enfoque de búsqueda codicioso durante la construcción, pueden ser más costosos de entrenar en comparación con otros algoritmos.
     
  • No es totalmente compatible con scikit-learn: Scikit-learn es una popular biblioteca de machine learning basada en Python. Si bien esta biblioteca tiene un módulo de Árbol de decisiones (DecisionTreeClassifier, enlace externo a ibm.com), la implementación actual no admite variables categóricas.
Árboles de decisión e IBM

IBM SPSS Modeler es una herramienta de minería de datos que le permite desarrollar modelos predictivos para desplegarlos en operaciones comerciales. Diseñado alrededor del modelo CRISP-DM estándar de la industria, IBM SPSS Modeler admite todo el proceso de minería de datos, desde el procesamiento de datos hasta mejores resultados comerciales.

IBM SPSS Decision Trees cuenta con árboles de clasificación y decisión visuales para ayudarle a presentar resultados categóricos y explicar con mayor claridad el análisis a audiencias no técnicas. Cree modelos de clasificación para segmentación, estratificación, predicción, reducción de datos y cribado de variables. 

Para obtener más información sobre las herramientas y soluciones de minería de datos de IBM, regístrese para obtener un IBMid y cree una cuenta de IBM Cloud hoy mismo. 

Soluciones relacionadas
IBM SPSS Modeler 

IBM SPSS Modeler es una herramienta de minería de datos que le permite desarrollar modelos predictivos para desplegarlos en las operaciones comerciales. Diseñado en torno al modelo CRISP-DM estándar de la industria, IBM SPSS Modeler admite todo el proceso de minería de datos, desde el procesamiento de datos hasta mejores resultados comerciales.

Explore IBM SPSS Modeler
IBM SPSS Decision Trees 

IBM SPSS Decision Trees cuenta con clasificación y decision trees visuales para ayudarle a presentar resultados categóricos y explicar con mayor claridad el análisis a audiencias no técnicas. Cree modelos de clasificación para segmentación, estratificación, predicción, reducción de datos y cribado de variables.

Explorar IBM SPSS Decision Trees
watsonx.ai

Con watsonx.ai, puede entrenar, validar, ajustar e implementar IA generativa, modelos fundacionales y capacidades de aprendizaje automático con facilidad y crear aplicaciones de IA en una fracción del tiempo con un fragmento de los datos.

Más información sobre watsonx.ai
Recursos Software IBM SPSS

Encuentre oportunidades, mejore la eficiencia y reduzca al mínimo el riesgo utilizando las capacidades avanzadas de análisis estadístico del software IBM SPSS.

Dé el siguiente paso

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de aprendizaje automático con IBM® watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai Reserve una demostración en vivo