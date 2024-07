Für diesen Datensatz beträgt der Entropiewert 0,94. Dieser Wert kann berechnet werden, indem der Anteil der Tage ermittelt wird, an denen „Tennis spielen" „Ja" ist, also 9/14, und der Anteil der Tage, an denen „Tennis spielen" „Nein" ist, also 5/14. Dann können diese Werte in die obenstehende Entropieformel eingesetzt werden.

Entropie (Tennis) = -(9/14) log2(9/14) – (5/14) log2 (5/14) = 0,94

Wir können dann den Informationsgewinn für jedes der Attribute einzeln berechnen. Der Informationsgewinn für das Attribut „Luftfeuchtigkeit" wäre beispielsweise der folgende:

Informationsgewinn (Tennis, Luftfeuchtigkeit) = (0,94)-(7/14)*(0,985) – (7/14)*(0,592) = 0,151

Um es also zusammenzufassen:

• 7/14 steht für die Zahl der Werte, bei denen die Luftfeuchtigkeit „hoch" ist, im Verhältnis zur Gesamtzahl der Luftfeuchtigkeitswerte. In diesem Fall ist die Anzahl der Werte, bei denen die Luftfeuchtigkeit „hoch" ist, gleich der Anzahl der Werte, bei denen die Luftfeuchtigkeit „normal" ist.

• 0,985 ist die Entropie bei Luftfeuchtigkeit = „hoch"

• 0,59 ist die Entropie bei Luftfeuchtigkeit = „normal"

Wiederholen Sie dann die Berechnung des Informationsgewinns für jedes Attribut in der obenstehenden Tabelle und wählen Sie das Attribut mit dem höchsten Informationsgewinn als ersten Teilungspunkt im Entscheidungsbaum aus. In diesem Fall generiert „Outlook" (Wetteraussicht) den höchsten Informationsgewinn. Von diesem Startpunkt wird der Prozess für jeden Teilbaum wiederholt.

Gini-Unreinheit

Die Gini-Unreinheit ist die Wahrscheinlichkeit, zufällige Datenpunkte in einem Datensatz falsch zu klassifizieren, wenn sie basierend auf der Klassenverteilung des Datensatzes gekennzeichnet wurden. Ähnlich wie bei der Entropie ist, wenn der Satz S „rein" ist, d. h. zu einer Klasse gehört, die Unreinheit des Satzes gleich Null. Dies wird durch die folgende Formel angegeben: