Per questo set di dati, l'entropia è 0,94, e può essere calcolata trovando la proporzione di giorni in cui "Gioca a tennis" è "Sì", ovvero 9/14, e la proporzione di giorni in cui "Gioca a tennis" è "No", cioè 5/14. Questi valori possono essere inseriti nella formula dell'entropia riportata in precedenza.
Entropia (Tennis) = -(9/14) log2(9/14) – (5/14) log2 (5/14) = 0,94
Possiamo quindi calcolare l'information gain per ciascuno degli attributi individualmente. Ad esempio, l'information gain per l'attributo "Umidità" è il seguente:
Gain (Tennis, Umidità) = (0,94)-(7/14)*(0,985) – (7/14)*(0,592) = 0,151
Riassumendo,
- 7/14 rappresenta la proporzione di valori in cui l'umidità equivale a "alta" rispetto al numero totale di valori di umidità. In questo caso, il numero di valori in cui l'umidità equivale a "alta" è uguale al numero di valori in cui l'umidità equivale a "normale".
- 0,985 è l'entropia quando Umidità = "alta"
- 0,59 è l'entropia quando Umidità = "normale"
Ripetere il calcolo per l'information gain per ogni attributo nella tabella precedente e selezionare l'attributo con l'information gain più elevato come primo punto di divisione nell'albero decisionale. In questo caso, Outlook produce il massimo information gain. Da lì, il processo viene ripetuto per ogni albero secondario.