Para esse conjunto de dados, a entropia é 0,94. Isso pode ser calculado encontrando-se a proporção de dias em que “Jogar tênis” é “Sim”, que é 9/14, e a proporção de dias em que “Jogar tênis” é “Não”, que é 5/14. Em seguida, esses valores podem ser inseridos na fórmula de entropia acima.
Entropia (Tênis) = -(9/14) log2(9/14) – (5/14) log2 (5/14) = 0,94
Podemos então calcular o ganho de informação para cada um dos atributos individualmente. Por exemplo, o ganho de informação para o atributo "Umidade" seria o seguinte:
Ganho (Tênis, Umidade) = (0,94)-(7/14)*(0,985) - (7/14)*(0.592) = 0.151
Recapitulando,
- 7/14 representa a proporção de valores em que a umidade é igual a "alta" em relação ao número total de valores de umidade. Nesse caso, o número de valores em que a umidade é igual a "alta" é o mesmo que o número de valores em que a umidade é igual a "normal".
- 0,985 é a entropia quando umidade = "alta"
- 0,59 é a entropia quando a umidade = "normal"
Em seguida, repete o cálculo do ganho de informações para cada atributo na tabela acima e seleciona o atributo com o maior ganho de informações para ser o primeiro ponto de divisão na decision tree. Nesse caso, o Outlook produz o maior ganho de informações. A partir daí, o processo é repetido para cada subárvore.