Un árbol de decisión es un algoritmo de aprendizaje supervisado no paramétrico, que se utiliza tanto para tareas de clasificación como de regresión. Tiene una estructura de árbol jerárquica, que consta de un nodo raíz, ramas, nodos internos y nodos hoja.
Como puede ver en el diagrama anterior, un árbol de decisión comienza con un nodo raíz, que no tiene ramas entrantes. Las ramas salientes del nodo raíz alimentan los nodos internos, también conocidos como nodos de decisión. En función de las características disponibles, ambos tipos de nodos realizan evaluaciones para formar subconjuntos homogéneos, que se indican mediante nodos hoja o nodos terminales. Los nodos hoja representan todos los resultados posibles dentro del conjunto de datos. Como ejemplo, imaginemos que está tratando de evaluar si debe o no ir a surfear, puede usar las siguientes reglas de decisión para tomar una decisión:
Este tipo de estructura de diagrama de flujo también crea una representación fácil de digerir de la toma de decisiones, lo que permite que diferentes grupos en una organización comprendan mejor por qué se tomó una decisión.
El aprendizaje del árbol de decisiones emplea una estrategia de divide y vencerás mediante la realización de una búsqueda codiciosa para identificar los puntos de división óptimos dentro de un árbol. Este proceso de división se repite de forma recursiva de arriba hacia abajo hasta que todos o la mayoría de los registros se hayan clasificado bajo etiquetas de clase específicas. Que todos los puntos de datos se clasifiquen o no como conjuntos homogéneos depende en gran medida de la complejidad del árbol de decisión. Los árboles más pequeños son más fáciles de obtener nodos hoja puros, es decir, puntos de datos en una sola clase. Sin embargo, a medida que un árbol crece en tamaño, se vuelve cada vez más difícil mantener esta pureza y, por lo general, da como resultado que haya muy pocos datos dentro de un subárbol determinado. Cuando esto ocurre, se conoce como fragmentación de datos y, a menudo, puede resultar en sobreajustes. Como resultado, los árboles de decisión tienen preferencia por los árboles pequeños, lo cual es consistente con el principio de parsimonia en la Navaja de Occam. Es decir, "las entidades no deben multiplicarse más allá de la necesidad". Dicho de otra manera, los árboles de decisión deben agregar complejidad solo si es necesario, ya que la explicación más simple suele ser la mejor. Para reducir la complejidad y evitar el sobreajuste, generalmente se emplea la poda. Este es un proceso que elimina las ramas que se dividen en características con poca importancia. Luego, el ajuste del modelo se puede evaluar mediante el proceso de validación cruzada. Otra forma en que los árboles de decisión pueden mantener su precisión es mediante la formación de un conjunto a través de un algoritmo de bosque aleatorio. Este clasificador predice resultados más precisos, particularmente cuando los árboles individuales no están correlacionados entre sí.
El algoritmo de Hunt, que se desarrolló en la década de 1960 para modelar el aprendizaje humano en Psicología, forma la base de muchos algoritmos de árboles de decisión populares, como los siguientes:
Si bien hay varias formas de seleccionar el mejor atributo en cada nodo, dos métodos, la ganancia de información y la impureza de Gini, actúan como criterio de división popular para los modelos de árboles de decisión. Ayudan a evaluar la calidad de cada condición de prueba y qué tan bien podrá clasificar las muestras en una clase.
Entropía y ganancia de información
Es difícil explicar la ganancia de información sin discutir primero la entropía. La entropía es un concepto que se deriva de la teoría de la información, que mide la impureza de los valores de la muestra. Se define con la siguiente fórmula, donde:
Los valores de entropía pueden estar entre 0 y 1. Si todas las muestras en el conjunto de datos, S, pertenecen a una clase, entonces la entropía será igual a cero. Si la mitad de las muestras se clasifican en una clase y la otra mitad en otra clase, la entropía estará en su punto más alto en 1. Para seleccionar la mejor característica para dividir y encontrar el árbol de decisión óptimo, se debe usar el atributo con la menor cantidad de entropía. La ganancia de información representa la diferencia de entropía antes y después de una división en un atributo determinado. El atributo con la ganancia de información más alta producirá la mejor división, ya que hace el mejor trabajo al clasificar los datos de entrenamiento de acuerdo con su clasificación de destino. La ganancia de información generalmente se representa con la siguiente fórmula, donde:
Veamos un ejemplo para solidificar estos conceptos. Imagine que tenemos el siguiente conjunto de datos arbitrario:
Para este conjunto de datos, la entropía es 0.94. Esto se puede calcular al encontrar la proporción de días en los que "Jugar al tenis" es "Sí", que es 9/14, y la proporción de días en los que "Jugar al tenis" es "No", que es 5/14. Luego, estos valores se pueden conectar a la fórmula de entropía anterior.
Entropía (Tenis) = -(9/14) log2(9/14) – (5/14) log2 (5/14) = 0.94
Entonces podemos calcular la ganancia de información para cada uno de los atributos individualmente. Por ejemplo, la ganancia de información para el atributo "Humedad" sería la siguiente:
Ganancia (Tenis, Humedad) = (0.94)-(7/14)*(0.985) – (7/14)*(0.592) = 0.151
Como resumen,
Luego, repita el cálculo de la ganancia de información para cada atributo de la tabla anterior y seleccione el atributo con la ganancia de información más alta para que sea el primer punto de división en el árbol de decisión. En este caso, Outlook produce la mayor ganancia de información. A partir de ahí, el proceso se repite para cada subárbol.
Impureza de Gini
La impureza de Gini es la probabilidad de clasificar incorrectamente un punto de datos aleatorio en el conjunto de datos si se etiquetara en función de la distribución de clases del conjunto de datos. Similar a la entropía, si el conjunto S es puro (es decir, pertenece a una clase), entonces su impureza es cero. Esto se denota mediante la siguiente fórmula:
Si bien los árboles de decisión se pueden usar en una variedad de casos de uso, otros algoritmos generalmente superan a los algoritmos de árboles de decisión. Dicho esto, los árboles de decisión son particularmente útiles para minería de datos y tareas de descubrimiento de conocimiento. Exploremos los principales beneficios y desafíos de utilizar árboles de decisión a continuación:
IBM SPSS Modeler es una herramienta de minería de datos que le permite desarrollar modelos predictivos para implementarlos en las operaciones comerciales. Diseñado en torno al modelo CRISP-DM estándar de la industria, IBM SPSS Modeler admite todo el proceso de minería de datos, desde el procesamiento de datos hasta mejores resultados empresariales.
IBM SPSS Decision Trees presenta clasificación visual y árboles de decisión para ayudarle a presentar resultados categóricos y explicar más claramente el análisis a audiencias no técnicas. Cree modelos de clasificación para segmentación, estratificación, predicción, reducción de datos y selección de variables.
Para obtener más información acerca de las herramientas y soluciones de minería de datos de IBM, regístrese para obtener un IBMid y cree una cuenta de IBM Cloud hoy.
IBM SPSS Modeler es una herramienta de minería de datos que le permite desarrollar modelos predictivos para implementarlos en las operaciones comerciales. Diseñado en torno al modelo CRISP-DM estándar de la industria, IBM SPSS Modeler admite todo el proceso de minería de datos, desde el procesamiento de datos hasta mejores resultados empresariales.
IBM SPSS Decision Trees presenta una clasificación visual y árboles de decisión para ayudarle a presentar resultados categóricos y explicar más claramente el análisis a audiencias no técnicas. Cree modelos de clasificación para segmentación, estratificación, predicción, reducción de datos y selección de variables.
Encuentre oportunidades, mejore la eficiencia y minimice el riesgo mediante las funcionalidades avanzadas de análisis estadístico del software IBM SPSS.
Descubra cómo los expertos de varias industrias están adoptando IBM SPSS Statistics. Aproveche sus insights y obtenga mejores resultados en su campo.