Für diesen Datensatz beträgt die Entropie 0,94. Dies lässt sich berechnen, indem man den Anteil der Tage ermittelt, an denen „Tennis spielen“ „Ja“ ist, was 9/14 entspricht, und den Anteil der Tage, an denen „Tennis spielen“ „Nein“ ist, was 5/14 entspricht. Dann können diese Werte in die obige Entropieformel eingesetzt werden.
Entropie (Tennis) = -(9/14) log2(9/14) – (5/14) log2 (5/14) = 0,94
Wir können dann den Informationsgewinn für jedes der Attribute einzeln berechnen. Zum Beispiel wäre der Informationsgewinn für das Attribut „Luftfeuchtigkeit“ wie folgt:
Gewinn (Tennis, Luftfeuchtigkeit) = (0,94) – (7/14)*(0,985) – (7/14)*(0,592) = 0,151
Zusammenfassend:
- 7/14 stellt den Anteil der Werte dar, bei denen die Luftfeuchtigkeit „hoch“ ist, im Vergleich zur Gesamtzahl der Luftfeuchtigkeitswerte. In diesem Fall ist die Anzahl der Werte, bei denen die Luftfeuchtigkeit „hoch“ ist, gleich der Anzahl der Werte, bei denen die Luftfeuchtigkeit „normal“ ist.
- 0,985 ist die Entropie bei einer Luftfeuchtigkeit von „hoch“
- 0,59 ist die Entropie bei einer Luftfeuchtigkeit von „normal“
Wiederholen Sie dann die Berechnung für den Informationsgewinn für jedes Attribut in der obigen Tabelle und wählen Sie das Attribut mit dem höchsten Informationsgewinn als ersten Aufteilungspunkt im Decision Tree aus. In diesem Fall bietet „Outlook“ (Vorhersage) den größten Informationsgewinn. Von dort aus wird der Vorgang für jeden Teilbaum wiederholt.