Inicio
Temas
Árbol de decisión
Un árbol de decisión es un algoritmo de aprendizaje supervisado no paramétrico, que se utiliza tanto para tareas de clasificación como de regresión. Tiene una estructura jerárquica, de árbol, que consta de un nodo raíz, ramas, nodos internos y nodos de hoja.
Un árbol de decisión es un algoritmo de aprendizaje supervisado no paramétrico, que se utiliza tanto para tareas de clasificación como de regresión. Tiene una estructura de árbol jerárquica, que consta de un nodo raíz, ramas, nodos internos y nodos hoja.
Como puede ver en el diagrama anterior, un árbol de decisión comienza con un nodo raíz, que no tiene ramas entrantes. Las ramas salientes del nodo raíz alimentan los nodos internos, también conocidos como nodos de decisión. En función de las características disponibles, ambos tipos de nodos realizan evaluaciones para formar subconjuntos homogéneos, que se indican mediante nodos hoja o nodos terminales. Los nodos hoja representan todos los resultados posibles dentro del conjunto de datos. Como ejemplo, imaginemos que está tratando de evaluar si debe o no ir a surfear, puede usar las siguientes reglas de decisión para tomar una decisión:
Este tipo de estructura de diagrama de flujo también crea una representación fácil de digerir de la toma de decisiones, lo que permite que diferentes grupos en una organización comprendan mejor por qué se tomó una decisión.
El aprendizaje del árbol de decisiones emplea una estrategia de divide y vencerás mediante la realización de una búsqueda codiciosa para identificar los puntos de división óptimos dentro de un árbol. Este proceso de división se repite de forma recursiva de arriba hacia abajo hasta que todos o la mayoría de los registros se hayan clasificado bajo etiquetas de clase específicas.
Que todos los puntos de datos se clasifiquen o no como conjuntos homogéneos depende en gran medida de la complejidad del árbol de decisión. Los árboles más pequeños son más fáciles de obtener nodos hoja puros, es decir, puntos de datos en una sola clase. Sin embargo, a medida que un árbol crece en tamaño, se vuelve cada vez más difícil mantener esta pureza y, por lo general, da como resultado que haya muy pocos datos dentro de un subárbol determinado. Cuando esto ocurre, se conoce como fragmentación de datos y, a menudo, puede resultar en sobreajustes. Como resultado, los árboles de decisión tienen preferencia por los árboles pequeños, lo cual es consistente con el principio de parsimonia en la Navaja de Occam. Es decir, "las entidades no deben multiplicarse más allá de la necesidad". Dicho de otra manera, los árboles de decisión deben agregar complejidad solo si es necesario, ya que la explicación más simple suele ser la mejor.
Para reducir la complejidad y evitar el sobreajuste, generalmente se emplea la poda. Este es un proceso que elimina las ramas que se dividen en características con poca importancia. Luego, el ajuste del modelo se puede evaluar mediante el proceso de validación cruzada. Otra forma en que los árboles de decisión pueden mantener su precisión es mediante la formación de un conjunto a través de un algoritmo de bosque aleatorio. Este clasificador predice resultados más precisos, particularmente cuando los árboles individuales no están correlacionados entre sí.
Utilice este marco de selección de modelos para elegir el modelo más apropiado mientras equilibra sus requisitos de rendimiento con los costos, los riesgos y las necesidades de despliegue.
El algoritmo de Hunt, que se desarrolló en la década de 1960 para modelar el aprendizaje humano en Psicología, forma la base de muchos algoritmos de árboles de decisión populares, como los siguientes:
Si bien hay varias formas de seleccionar el mejor atributo en cada nodo, dos métodos, la ganancia de información y la impureza de Gini, actúan como criterio de división popular para los modelos de árboles de decisión. Ayudan a evaluar la calidad de cada condición de prueba y qué tan bien podrá clasificar las muestras en una clase.
Entropía y ganancia de información
Es difícil explicar la ganancia de información sin discutir primero la entropía. La entropía es un concepto que se deriva de la teoría de la información, que mide la impureza de los valores de la muestra. Se define con la siguiente fórmula, donde:
Los valores de entropía pueden estar entre 0 y 1. Si todas las muestras del conjunto de datos, S, pertenecen a una clase, entonces la entropía será igual a cero. Si la mitad de las muestras se clasifican en una clase y la otra mitad en otra clase, la entropía alcanzará su nivel más alto, 1. Para seleccionar la mejor característica para dividir y encontrar el árbol de decisión óptimo, se debe emplear el atributo con la menor cantidad de entropía. La ganancia de información representa la diferencia de entropía antes y luego de una división en un atributo determinado. El atributo con la mayor ganancia de información producirá la mejor división, ya que es el que hace el mejor trabajo al clasificar los datos de entrenamiento según su clasificación objetivo. La ganancia de información se representa habitualmente con la siguiente fórmula, donde:
Veamos un ejemplo para reforzar estos conceptos. Imagine que tenemos el siguiente conjunto de datos arbitrario:
Para este conjunto de datos, la entropía es 0.94. Esto se puede calcular encontrando la proporción de días en los que “Juega al tenis” es “Sí”, que es 9/14, y la proporción de días en los que “Juega al tenis” es “No”, que es 5/14. Luego, estos valores se pueden conectar a la fórmula de entropía anterior.
Entropía (Tenis) = -(9/14) log2(9/14) – (5/14) log2 (5/14) = 0.94
A continuación, podemos calcular la ganancia de información para cada uno de los atributos individualmente. Por ejemplo, la ganancia de información para el atributo "Humedad" sería la siguiente:
Ganancia (Tenis, Humedad) = (0.94) - (7/14) * (0.985) – 7/14) * (0,592) = 0.151
En resumen,
- 7/14 representa la proporción de valores donde la humedad es “alta” respecto al número total de valores de humedad. En este caso, el número de valores donde la humedad es igual a “alta” es el mismo que el número de valores donde la humedad es igual a “normal”.
- 0.985 es la entropía cuando Humedad = “alta”
- 0.59 es la entropía cuando la humedad = “normal”
Luego, repita el cálculo de la ganancia de información para cada atributo de la tabla anterior y seleccione el atributo con la mayor ganancia de información para que sea el primer punto de división en el árbol de decisión. En este caso, la perspectiva produce la mayor ganancia de información. A partir de ahí, el proceso se repite para cada subárbol.
Impureza de Gini
La impureza de Gini es la probabilidad de clasificar incorrectamente un punto de datos aleatorio en el conjunto de datos si se etiquetara en función de la distribución de clases del conjunto de datos. Similar a la entropía, si se establece, S, es pura, es decir, perteneciente a una clase), entonces, su impureza es cero. Esto se denota mediante la siguiente fórmula:
Si bien los árboles de decisión se pueden emplear en una variedad de casos de uso, otros algoritmos suelen superar a los algoritmos de árbol de decisión. Dicho esto, los árboles de decisión son particularmente útiles para tareas de minería de datos y descubrimiento de conocimiento. Exploremos los principales beneficios y desafíos de emplear árboles de decisión a continuación:
IBM SPSS Modeler es una herramienta de minería de datos que le permite desarrollar modelos predictivos para desplegarlos en operaciones comerciales. Diseñado alrededor del modelo CRISP-DM estándar de la industria, IBM SPSS Modeler admite todo el proceso de minería de datos, desde el procesamiento de datos hasta mejores resultados comerciales.
IBM SPSS Decision Trees cuenta con árboles de clasificación y decisión visuales para ayudarle a presentar resultados categóricos y explicar con mayor claridad el análisis a audiencias no técnicas. Cree modelos de clasificación para segmentación, estratificación, predicción, reducción de datos y cribado de variables.
Para obtener más información sobre las herramientas y soluciones de minería de datos de IBM, regístrese para obtener un IBMid y cree una cuenta de IBM Cloud hoy mismo.
IBM SPSS Modeler es una herramienta de minería de datos que le permite desarrollar modelos predictivos para desplegarlos en las operaciones comerciales. Diseñado en torno al modelo CRISP-DM estándar de la industria, IBM SPSS Modeler admite todo el proceso de minería de datos, desde el procesamiento de datos hasta mejores resultados comerciales.
IBM SPSS Decision Trees cuenta con clasificación y decision trees visuales para ayudarle a presentar resultados categóricos y explicar con mayor claridad el análisis a audiencias no técnicas. Cree modelos de clasificación para segmentación, estratificación, predicción, reducción de datos y cribado de variables.
Con watsonx.ai, puede entrenar, validar, ajustar e implementar IA generativa, modelos fundacionales y capacidades de aprendizaje automático con facilidad y crear aplicaciones de IA en una fracción del tiempo con un fragmento de los datos.