Entscheidungsbaummodelle

Mithilfe von Entscheidungsbaummodellen können Sie Klassifizierungssysteme entwickeln, die zukünftige Beobachtungen basierend auf einer Reihe von Entscheidungsregeln vorhersagen oder klassifizieren. Wenn die Daten in Klassen aufgeteilt sind, die Sie interessieren (z. B. Darlehen mit hohem Risiko im Gegensatz zu Darlehen mit niedrigem Risiko, Abonnenten gegenüber Personen ohne Abonnement, Wähler im Gegensatz zu Nichtwählern oder Bakterienarten), können Sie mit diesen Daten Regeln erstellen, die Sie zur Klassifizierung alter oder neuer Fälle mit maximaler Genauigkeit verwenden können. So können Sie z. B. einen Baum erstellen, der das Kreditrisiko oder die Kaufabsicht basierend auf Alter und anderen Faktoren klassifiziert.

Dieser Ansatz, der manchmal als Regelinduktion bezeichnet wird, hat mehrere Vorteile. Zunächst wird die Argumentationskette hinter dem Modell deutlich, wenn Sie durch die Struktur blättern. Dies steht im Gegensatz zu anderen Black Box-Modellierungsmethoden, bei denen sich die interne Logik schwer ausarbeiten lässt.

Zudem berücksichtigt der Prozess in seiner Regel automatisch nur die Attribute, die im Entscheidungsfindungsprozess wirklich von Bedeutung sind. Attribute, die nicht zur Genauigkeit des Baums beitragen, werden ignoriert. Dies kann zu sehr hilfreichen Informationen zu den Daten führen und kann dazu verwendet werden, die Daten auf die relevanten Felder zu reduzieren, bevor ein anderes Verfahren zum Maschinenlernen trainiert wird, z. B. ein neuronales Netz.

Entscheidungsbaum-Modellnuggets können in eine Zusammenstellung von IF-THEN-Regeln (ein Regelset) konvertiert werden, die in vielen Fällen die Informationen in einer verständlicheren Form anzeigen. Die Darstellung des Entscheidungsbaums ist nützlich, wenn Sie sehen möchten, wie Attribute in den Daten die Population in Untergruppen, die für das Problem relevant sind, aufteilen oder trennen können. Die Tree-AS-Knotenausgabe unterscheidet sich von anderen Entscheidungsbaumknoten, da sie eine Liste von Regeln direkt in das Nugget einschließt, ohne dass ein Regelset erstellt werden muss. Die Regelsetdarstellung ist dann nützlich, wenn Sie sehen möchten, in welchem Zusammenhang bestimmte Elementgruppen mit einer bestimmten Schlussfolgerung stehen. Die folgende Regel stellt beispielsweise eine Profil für eine Gruppe von Autos bereit, die einen Kauf wert ist:

IF tested = 'yes'
AND mileage = 'low'
THEN -> 'BUY'.

Baumerstellungsalgorithmus

Mehrere Algorithmen sind für die Durchführung der Klassifizierungs- und Segmentierungsanalyse verfügbar. Diese Algorithmen führen alle im Grunde dieselben Operationen durch. Sie prüfen alle Felder Ihres Datasets, um das Feld zu finden, das die beste Klassifizierung oder Vorhersage liefert, indem sie die Daten in Untergruppen aufteilen. Der Vorgang wird rekursiv angewendet, wobei die Untergruppen in immer kleinere Einheiten aufgeteilt werden, bis der Baum erstellt ist (wie von bestimmten Stoppkriterien definiert). Die bei der Baumerstellung verwendeten Ziel- und Eingabefelder können je nach verwendetem Algorithmus stetig (numerischer Bereich) oder kategorial sein. Wenn ein stetiges Ziel verwendet wird, wird ein Regressionsbaum generiert; wenn ein kategoriales Ziel verwendet wird, wird ein Klassifizierungsbaum generiert.

Der Knoten für Klassifizierungs- und Regressions-Bäume (C&RT-Bäume) erstellt einen Entscheidungsbaum, mit dem Sie zukünftige Beobachtungen vorhersagen oder klassifizieren können. Bei dieser Methode wird eine rekursive Partitionierung verwendet, um die Trainingsdatensätze in Segmente aufzuteilen. Dabei wird bei jedem Schritt die Unreinheit verringert und ein Knoten im Baum wird als "rein" betrachtet, wenn 100 % der Fälle in eine bestimmte Kategorie des Zielfelds fallen. Ziel- und Eingabefelder können numerische Bereiche oder kategorial (nominal, ordinal oder Flags) sein. Alle Aufteilungen sind binär (nur zwei Untergruppen).

Der CHAID-Knoten erzeugt Entscheidungsbäume unter Verwendung von Chi-Quadrat-Statistiken zur Ermittlung optimaler Aufteilungen. Im Gegensatz zu den Knoten vom Typ "C&RT-Baum" und "QUEST" kann CHAID nicht binäre Bäume generieren, d. h. Bäume mit Aufteilungen mit mehr als zwei Verzweigungen. Ziel- und Eingabefelder können in einem numerischen Bereich (stetig) oder kategorial sein. Exhaustive CHAID ist eine Änderung von CHAID, die noch gründlicher vorgeht, indem sie alle möglichen Aufteilungen untersucht, allerdings mehr Rechenzeit beansprucht.

Der QUEST-Knoten bietet eine binäre Klassifizierungsmethode zum Erstellen von Entscheidungsbäumen, die dazu dient, die für große C&R-Baumanalysen erforderliche Verarbeitungszeit zu verkürzen. Gleichzeitig soll die in den Klassifizierungsbaummodellen festgestellte Tendenz verringert werden, die darin besteht, dass Eingaben bevorzugt werden, die mehr Aufteilungen erlauben. Eingabefelder können stetig (numerische Bereiche) sein, das Zielfeld muss aber kategorial sein. Alle Aufteilungen sind binär.

Der C5.0-Knoten erstellt entweder einen Entscheidungsbaum oder ein Regelset. Das Modell teilt die Stichprobe auf der Basis des Felds auf, das auf der jeweiligen Ebene den maximalen Informationsgewinn liefert. Das Zielfeld muss kategorial sein. Es sind mehrere Aufteilungen in mehr als zwei Untergruppen zulässig.

Der Tree-AS-Knoten ähnelt dem vorhandenen CHAID-Knoten. Der Tree-AS-Knoten ist jedoch für die Verarbeitung von Big Data zur Erstellung eines einzelnen Baums konzipiert und zeigt das resultierende Modell im Ausgabeviewer an, der in SPSS® Modeler Version 17 hinzugefügt wurde. Der Knoten generiert einen Entscheidungsbaum unter Verwendung von Chi-Quadrat-Statistiken (CHAID) zum Identifizieren optimaler Aufteilungen. Durch diese Verwendung von CHAID können nicht binäre Bäume generiert werden, d. h., einige Aufteilungen können mehr als zwei Verzweigungen haben. Ziel- und Eingabefelder können in einem numerischen Bereich (stetig) oder kategorial sein. Exhaustive CHAID ist eine Änderung von CHAID, die noch gründlicher vorgeht, indem sie alle möglichen Aufteilungen untersucht, allerdings mehr Rechenzeit beansprucht.

Der Random Trees-Knoten ähnelt dem vorhandenen C & RT-Knoten. Der Random Trees-Knoten ist jedoch so konzipiert, dass er große Datenmengen verarbeitet, um einen einzelnen Baum zu erstellen, und zeigt das resultierende Modell im Ausgabeviewer an, der in SPSS Modeler Version 17 hinzugefügt wurde. Der Random Trees-Knoten generiert einen Entscheidungsbaum, mit dem Sie zukünftige Beobachtungen vorhersagen oder klassifizieren können. Bei dieser Methode wird eine rekursive Partitionierung verwendet, um die Trainingsdatensätze in Segmente aufzuteilen. Dabei wird bei jedem Schritt die Unreinheit verringert. Ein Knoten im Baum wird als rein betrachtet, wenn 100 % der Fälle im Knoten in eine bestimmte Kategorie des Zielfelds fallen. Ziel- und Eingabefelder können numerische Bereiche oder kategorial (nominal, ordinal oder Flags) sein. Alle Aufteilungen sind binär (nur zwei Untergruppen).

Allgemeine Verwendung der baumbasierten Analyse

Im Folgenden werden einige allgemeine Anwendungsbereiche der baumbasierten Analyse erläutert:

Segmentierung: Geben Sie Personen an, die wahrscheinlich Mitglieder einer bestimmten Klasse sind.

Schichtung: Ordnen Sie Fälle einer von mehreren Kategorien, wie z. B. hoch-, mittel-und risikoarmen Gruppen, zu.

Vorhersage: Erstellen Sie Regeln und verwenden Sie sie, um zukünftige Ereignisse vorherzusagen. Vorhersage kann auch den Versuch bezeichnen, Vorhersageattribute Werten einer stetigen Variablen zuzuordnen.

Datenreduktion und variables Screening: Wählen Sie eine nützliche Untergruppe von Prädiktoren aus einer großen Gruppe von Variablen aus, die zum Erstellen eines formalen parametrischen Modells verwendet werden sollen.

Interaktionskennung: Identifizieren Sie Beziehungen, die nur für bestimmte Untergruppen gelten, und geben Sie diese in einem formalen parametrischen Modell an.

Kategoriezusammenfügung und Verbindung kontinuierliche Variablen: Ändern Sie den Code der Gruppen-Prädiktorkategorien und der kontinuierlichen Variablen mit minimalem Informationsverlust.