Pour ce jeu de données, l’entropie est de 0,94. Cela peut être calculé en trouvant la proportion de jours où « Jouer au tennis » est « Oui », qui est de 9/14, et la proportion de jours où « Jouer au tennis » est « Non », qui est de 5/14. Ensuite, ces valeurs peuvent être intégrées à la formule d’entropie ci-dessus.
Entropie (tennis) = -(9/14) log2(9/14) – (5/14) log2 (5/14) = 0,94
Nous pouvons alors calculer le gain d’information pour chacun des attributs individuellement. Par exemple, le gain d’information pour l’attribut « Humidité » serait le suivant :
Gain (Tennis, Humidité) = (0,94)-(7/14)*(0,985) – (7/14)*(0,592) = 0,151
Pour rappel,
- 7/14 représente la proportion de valeurs où l’humidité est égale à « élevée » par rapport au nombre total de valeurs d’humidité. Dans ce cas, le nombre de valeurs où l’humidité est égale à « élevée » est le même que le nombre de valeurs où l’humidité est égale à « normale ».
- 0,985 est l’entropie lorsque le taux d’humidité est « élevé »
- 0,59 est l’entropie lorsque l’humidité = « normal »
Ensuite, répétez le calcul du gain d’information pour chaque attribut du tableau ci-dessus et sélectionnez l’attribut ayant le gain d’information le plus élevé comme premier point de division de l’arbre de décision. Dans ce cas, Outlook génère le gain d’informations le plus élevé. Le processus est ensuite répété pour chaque sous-arborescence.