Para este conjunto de datos, la entropía es de 0,94. Esto se puede calcular encontrando la proporción de días en los que “Jugar tenis” es “Sí”, que es 9/14, y la proporción de días en los que “Jugar tenis” es “No”, que es 5/14. Entonces, estos valores se pueden conectar a la fórmula de entropía anterior.
Entropía (Tenis) = -(9/14) log2(9/14) – (5/14) log2 (5/14) = 0,94
A continuación, podemos calcular la ganancia de información para cada uno de los atributos individualmente. Por ejemplo, la ganancia de información para el atributo "Humedad" sería la siguiente:
Ganancia (Tenis, Humedad) = (0,94)-(7/14)*(0,985) – (7/14)*(0,592) = 0,151
En resumen,
- 7/14 representa la proporción de valores en los que la humedad es igual a "alta" respecto al número total de valores de humedad. En este caso, el número de valores en los que la humedad es igual a "alta" es el mismo que el número de valores en los que la humedad es igual a "normal".
- 0,985 es la entropía cuando la humedad = “alta”
- 0,59 es la entropía cuando la humedad = “normal”
A continuación, repita el cálculo de la ganancia de información para cada atributo de la tabla anterior y seleccione el atributo con la mayor ganancia de información para que sea el primer punto de división en el árbol de decisión. En este caso, Outlook produce la mayor ganancia de información. Desde ahí, el proceso se repite para cada subárbol.