Ein Decision Tree ist ein überwachter Lernalgorithmus ohne Parameter, der sowohl für Klassifizierungs- als auch Regressionsaufgaben verwendet wird. Er hat eine hierarchische Baumstruktur, die aus einem Stammknoten, Zweigen, inneren Knoten und Blattknoten besteht.
Wie Sie dem folgenden Diagramm entnehmen können, beginnt ein Decision Tree mit einem Stammknoten, der keine eingehenden Zweige hat. Die vom Stammknoten ausgehenden Zweige münden dann in die inneren Knoten, auch Entscheidungsknoten genannt. Basierend auf den verfügbaren Funktionen führen beide Knotentypen Auswertungen durch, um homogene Teilmengen zu bilden, die als Blattknoten oder Endknoten bezeichnet werden. Die Blattknoten stellen alle möglichen Ergebnisse innerhalb des Datensatzes dar.
Nehmen wir zum Beispiel an, Sie überlegen, ob Sie surfen gehen sollten oder nicht. In diesem Fall können Ihnen die folgenden Entscheidungsregeln helfen:
Diese Art von Flussdiagrammstruktur ermöglicht auch eine leicht verständliche Darstellung der Entscheidungsfindung. Verschiedene Gruppen in einem Unternehmen können also besser verstehen, warum eine Entscheidung getroffen wurde.
Beim Lernen mit Decision Trees wird eine „Teile und herrsche“-Strategie angewendet: Mit einer Greedy-Suche (auch „gierige“ Suche genannt) werden die optimalen Trennpunkte innerhalb eines Baums ermittelt. Dieser Aufteilungsprozess wird dann in einer rekursiven Top-Down-Methode wiederholt, bis alle oder die Mehrheit der Datensätze unter bestimmten Klassenbezeichnungen klassifiziert wurden.
Ob alle Datenpunkte als homogene Mengen klassifiziert werden, hängt weitgehend von der Komplexität des Decision Trees ab. Kleinere Bäume sind eher in der Lage, reine Blattknoten zu erreichen, d. h. Datenpunkte in einer einzelnen Klasse. Je größer ein Baum jedoch wird, desto schwieriger wird es, diese Reinheit aufrechtzuerhalten, und in der Regel fallen dann zu wenige Daten in einen bestimmten Teilbaum. In dem Fall spricht man von Datenfragmentierung, die häufig zu Überanpassung führt.
Daher werden in Decision Trees kleine Bäume bevorzugt, was mit dem Prinzip der Sparsamkeit in Ockhams Rasiermesser übereinstimmt, d. h. „Entitäten sollten nicht über das Notwendige hinaus vervielfacht werden“. Anders ausgedrückt: Decision Trees sollten nur dann komplexer werden, wenn es notwendig ist, da die einfachste Erklärung oft die beste ist. Um die Komplexität zu reduzieren und eine Überanpassung zu verhindern, wird in der Regel ein Beschneiden („Pruning“) durchgeführt. Dabei werden Zweige entfernt, die sich an Merkmalen mit geringer Bedeutung aufteilen. Die Passform des Modells kann dann durch den Prozess der Kreuzvalidierung bewertet werden.
Eine weitere Möglichkeit, die Genauigkeit von Decision Trees zu erhalten, ist die Bildung eines Ensembles mithilfe eines Random-Forest-Algorithmus. Dieser Klassifikator liefert genauere Ergebnisse, insbesondere, wenn die einzelnen Bäume nicht miteinander korrelieren.
Der in den 1960er Jahren entwickelte Algorithmus von Hunt modelliert das menschliche Lernen in der Psychologie. Er bildet die Grundlage vieler beliebter Decision-Tree-Algorithmen, wie z. B. der folgenden:
- ID3: Ross Quinlan wird die Entwicklung von ID3 zugeschrieben, was für „Iterative Dichotomiser 3“ steht. Dieser Algorithmus nutzt Entropie und Informationsgewinn als Metriken zur Bewertung von Kandidatenaufteilungen. Einige von Quinlans Forschungsarbeiten von 1986 zu diesem Algorithmus finden Sie hier.
– C4.5: Dieser Algorithmus gilt als eine spätere Iteration von ID3 und wurde ebenfalls von Quinlan entwickelt. Er kann mit Informationsgewinn oder Gewinnverhältnissen Trennpunkte innerhalb der Decision Trees bewerten.
– CART: Der Begriff CART ist eine Abkürzung für „Classification and Regression Trees“ und wurde von Leo Breiman eingeführt. Dieser Algorithmus verwendet in der Regel die Gini-Verunreinigung, um das ideale Attribut für die Aufteilung zu ermitteln. Die Gini-Verunreinigung misst, wie oft ein zufällig ausgewähltes Attribut falsch klassifiziert wird. Bei der Bewertung mit der Gini-Verunreinigung ist ein niedrigerer Wert idealer.
Es gibt zwar mehrere Möglichkeiten, das beste Attribut an jedem Knoten auszuwählen, aber die beiden Methoden des Informationsgewinns und der Gini-Verunreinigung sind beliebte Aufteilungskriterien für Decision-Tree-Modelle. Sie helfen bei der Bewertung der Qualität jeder Testbedingung und wie gut Proben in eine Klasse eingeteilt werden können.
Um den Begriff Informationsgewinn zu erklären, muss vorher der Begriff Entropie erörtert werden. Entropie ist ein Konzept aus der Informationstheorie und misst die Verunreinigung der Stichprobenwerte. Sie wird durch die folgende Formel definiert, wobei:
Entropiewerte können zwischen 0 und 1 liegen. Wenn alle Proben im Datensatz S zu einer Klasse gehören, ist die Entropie gleich Null. Wenn die Hälfte der Proben einer Klasse zugeordnet wird und die andere Hälfte einer anderen Klasse, ist die Entropie mit 1 am höchsten. Um das beste Merkmal für die Aufteilung auszuwählen und den optimalen Decision Tree zu finden, sollte das Attribut mit der geringsten Entropie verwendet werden.
Der Informationsgewinn stellt die Differenz der Entropie vor und nach einer Aufteilung bei einem bestimmten Attribut dar. Das Attribut mit dem höchsten Informationsgewinn führt zur besten Aufteilung, da es die Trainingsdaten am besten gemäß seiner Zielklassifizierung gruppieren kann. Der Informationsgewinn wird in der Regel mit der folgenden Formel dargestellt,
wobei gilt:
Folgendes Beispiel verdeutlicht diese Konzepte. Stellen Sie sich vor, wir haben den folgenden, zufällig ausgewählten Datensatz:
Für diesen Datensatz beträgt die Entropie 0,94. Dies lässt sich berechnen, indem man den Anteil der Tage ermittelt, an denen „Tennis spielen“ „Ja“ ist, was 9/14 entspricht, und den Anteil der Tage, an denen „Tennis spielen“ „Nein“ ist, was 5/14 entspricht. Dann können diese Werte in die obige Entropieformel eingesetzt werden.
Entropie (Tennis) = -(9/14) log2(9/14) – (5/14) log2 (5/14) = 0,94
Wir können dann den Informationsgewinn für jedes der Attribute einzeln berechnen. Zum Beispiel wäre der Informationsgewinn für das Attribut „Luftfeuchtigkeit“ wie folgt:
Gewinn (Tennis, Luftfeuchtigkeit) = (0,94) – (7/14)*(0,985) – (7/14)*(0,592) = 0,151
Zusammenfassend:
- 7/14 stellt den Anteil der Werte dar, bei denen die Luftfeuchtigkeit „hoch“ ist, im Vergleich zur Gesamtzahl der Luftfeuchtigkeitswerte. In diesem Fall ist die Anzahl der Werte, bei denen die Luftfeuchtigkeit „hoch“ ist, gleich der Anzahl der Werte, bei denen die Luftfeuchtigkeit „normal“ ist.
- 0,985 ist die Entropie bei einer Luftfeuchtigkeit von „hoch“
- 0,59 ist die Entropie bei einer Luftfeuchtigkeit von „normal“
Wiederholen Sie dann die Berechnung für den Informationsgewinn für jedes Attribut in der obigen Tabelle und wählen Sie das Attribut mit dem höchsten Informationsgewinn als ersten Aufteilungspunkt im Decision Tree aus. In diesem Fall bietet „Outlook“ (Vorhersage) den größten Informationsgewinn. Von dort aus wird der Vorgang für jeden Teilbaum wiederholt.
Die Gini-Verunreinigung ist die Wahrscheinlichkeit, dass zufällige Datenpunkte im Datensatz falsch klassifiziert werden, wenn sie auf der Grundlage der Klassenverteilung des Datensatzes gekennzeichnet würden. Ähnlich wie bei der Entropie ist die Verunreinigung null, wenn die Menge S rein ist – d. h. zu einer Klasse gehört. Dies wird durch die folgende Formel bestimmt:
Während Decision Trees für eine Vielzahl von Anwendungsfällen eingesetzt werden können, übertreffen andere Algorithmen in der Regel diejenigen für Decision Trees. Allerdings sind Decision Trees besonders nützlich für Data Mining und Aufgaben zur Wissensentdeckung. Lassen Sie uns im Folgenden die Hauptvorteile und Herausforderungen der Verwendung von Decision Trees untersuchen:
IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.
Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.
Entdecken Sie beaufsichtigte Lernansätze wie Support Vector Machines und Wahrscheinlichkeitsklassifikatoren.
Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.
Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.
Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.