Erstellen von Entscheidungsbäumen

Mit der Prozedur "Entscheidungsbaum" wird ein baumbasiertes Klassifizierungsmodell erstellt. Die Fälle werden in Gruppen klassifiziert oder es werden Werte für eine abhängige Variable (Zielvariable) auf der Grundlage der Werte von unabhängigen Variablen (Prädiktorvariablen) vorhergesagt. Die Prozedur umfasst Validierungstools für die explorative und die bestätigende Klassifikationsanalyse.

Die Prozedur eignet sich für folgende Situationen:

Segmentierung. Ermitteln Sie Personen, die wahrscheinlich zu einer bestimmten Gruppe gehören.

Schichtung. Weisen Sie Fälle einer von mehreren Kategorien zu, z. B. Gruppen mit hohem, mittlerem oder niedrigem Risiko.

Vorhersage. Erstellen Sie Regeln und lassen Sie damit zukünftige Ereignisse voraussagen, z. B. die Wahrscheinlichkeit, dass eine Person mit dem Darlehen in Bezug gerät, oder den potenziellen Wiederverkaufswert eines Autos oder Hauses.

Dimensionsreduktion und Variablenscreening. Wählen Sie ein geeignetes Subset an Prädiktoren aus einer Vielzahl von Variablen aus und bauen Sie damit ein formales parametrisches Modell auf.

Erkennen von Interaktionen. Ermitteln Sie Beziehungen, die nur für bestimmte Untergruppen gelten, und halten Sie diese in einem formalen parametrischen Modell fest.

Zusammenführung von Kategorien und Diskretisierung stetiger Variablen. Nehmen Sie die Umcodierung der Prädiktorkategorien und der stetigen Variablen bei minimalem Datenverlust vor.

Beispiel. Eine Bank möchte die Kreditantragsteller danach kategorisieren, ob sie ein annehmbares Kreditrisiko darstellen oder nicht. Auf der Grundlage verschiedener Faktoren (z. B. bekanntes Kreditrating bisheriger Kunden) können Sie ein Modell aufbauen, mit dem Sie vorhersagen, ob zukünftige Kunden mit ihren Darlehen in Verzug geraten würden.

Eine baumbasierte Analyse bietet einige attraktive Möglichkeiten:

  • Sie können homogene Gruppen mit hohem oder niedrigem Risiko erkennen.
  • Regeln für Vorhersagen zu individuellen Fällen können leichter aufgestellt werden.

Erläuterung der Daten

Daten. Die abhängigen und die unabhängigen Variablen können wie folgt gestaltet sein:

  • Nominell. Eine Variable kann als nominal behandelt werden, wenn ihre Werte Kategorien darstellen, die sich nicht in eine natürliche Reihenfolge bringen lassen, z. B. die Firmenabteilung, in der eine Person arbeitet. Beispiele für nominale Variablen sind Region, Postleitzahl oder Religionszugehörigkeit.
  • Ordinal. Eine Variable kann als ordinal behandelt werden, wenn ihre Werte für Kategorien stehen, die eine natürliche Reihenfolge aufweisen (z. B. Grad der Zufriedenheit mit Kategorien von sehr unzufrieden bis sehr zufrieden). Ordinale Variablen treten beispielsweise bei Einstellungsmessungen (Zufriedenheit oder Vertrauen) und bei Präferenzbeurteilungen auf.
  • Nachkommastellen. Eine Variable kann als metrisch (stetig) behandelt werden, wenn ihre Werte geordnete Kategorien mit einer sinnvollen Metrik darstellen, sodass man sinnvolle Aussagen über die Abstände zwischen den Werten machen kann. Metrische Variablen sind beispielsweise Alter (in Jahren) oder Einkommen (in Geldeinheiten).

Häufigkeitsgewichtungen Wenn die Gewichtung aktiv ist, werden die Häufigkeitsgewichtungen auf die nächstliegende Ganzzahl gerundet. Fälle mit einer Gewichtung unter 0,5 erhalten einen Gewichtungswert von 0 und werden daher aus der Analyse ausgeschlossen.

Annahmen. Bei dieser Prozedur wird angenommen, dass allen Analysevariablen das entsprechende Messniveau zugewiesen wurde. Bei einigen Funktionen wird vorausgesetzt, dass eine Wertbeschriftung für alle Werte der in der Analyse berücksichtigten abhängigen Variablen definiert wurde.

  • Messniveau. Das Messniveau beeinflusst die Baumberechnungen. Sämtlichen Variablen sollte daher das geeignete Messniveau zugewiesen werden. Standardmäßig wird angenommen, dass numerische Variablen metrisch und Zeichenfolgevariablen nominal sind; dies spiegelt gegebenenfalls nicht das tatsächliche Messniveau wider. Der Variablentyp ist durch ein Symbol neben der jeweiligen Variablen in der Variablenliste gekennzeichnet.
Tabelle 1. Messniveausymbole
Symbol Messniveau
Symbol für metrische Variable
Skala
Symbol für nominale Variable
Nominal
Symbol für ordinale Variable
Ordinalzahl

Sie können das Messniveau für eine Variable vorübergehend ändern. Klicken Sie hierzu mit der rechten Maustaste in der Liste der Quellenvariablen auf die entsprechende Variable und wählen Sie das gewünschte Messniveau im Popup-Menü.

  • Wertbeschriftungen. In den Dialogfeldern für diese Prozedur wird angenommen, dass entweder alle der nicht fehlenden Werte einer kategorialen (nominalen, ordinalen) abhängigen Variablen über definierte Wertbeschriftungen verfügen oder keiner dieser Werte. Einige Funktionen sind nicht verfügbar, wenn nicht mindestens zwei nicht fehlende Werte der kategorialen abhängigen Variablen Wertbeschriftungen aufweisen. Wenn für mindestens zwei nicht fehlende Werte Wertbeschriftungen definiert sind, werden alle Fälle mit anderen Werten, die keine Wertbeschriftungen aufweisen, aus der Analyse ausgeschlossen.

Mit Variableneigenschaften definieren können Sie sowohl das Messniveau als auch die Wertbeschriftungen definieren.

So erhalten Sie Entscheidungsbäume:

Für diese Funktion ist die Option "Decision Trees" erforderlich.

  1. Wählen Sie in den Menüs Folgendes aus:

    Analysieren > Klassifizieren > Baumstruktur ...

  2. Wählen Sie eine abhängige Variable aus.
  3. Wählen Sie mindestens eine unabhängige Variable aus.
  4. Wählen Sie eine Aufbaumethode aus.

Die folgenden Optionen sind verfügbar:

  • Ändern Sie das Messniveau für eine Variable in der Liste der Quellenvariablen.
  • Lassen Sie die erste Variable aus der Liste der unabhängigen Variablen als erste Teilungsvariable aufnehmen.
  • Wählen Sie eine Einflussvariable aus, mit der definiert wird, wie viel Einfluss ein Fall auf den Aufbauprozess des Baums hat. Fälle mit niedrigeren Einflusswerten wirken sich weniger stark aus, Fälle mit höheren Werten entsprechend stärker. Die Einflussvariablen müssen positiv sein.
  • Validieren Sie den Baum.
  • Passen Sie die Kriterien für den Aufbau des Baums an.
  • Speichern Sie die Endknotennummern, die vorhergesagten Werte und die vorhergesagten Wahrscheinlichkeiten als Variablen.
  • Speichern Sie das Modell im XML-Format (PMML).

Felder mit unbekanntem Messniveau

Der Messniveau-Alert wird angezeigt, wenn das Messniveau für mindestens eine Variable (ein Feld) im Dataset unbekannt ist. Da sich das Messniveau auf die Berechnung der Ergebnisse für diese Prozedur auswirkt, müssen alle Variablen ein definiertes Messniveau aufweisen.

Scandaten. Liest die Daten im aktiven Dataset und weist allen Feldern, deren Messniveau zurzeit nicht bekannt ist, das Standardmessniveau zu. Bei großen Datasets kann dieser Vorgang einige Zeit in Anspruch nehmen.

Manuell zuweisen. Öffnet ein Dialogfeld, in dem alle Felder mit unbekanntem Messniveau aufgeführt werden. Mit diesem Dialogfeld können Sie diesen Feldern ein Messniveau zuweisen. Außerdem können Sie in der Variablenansicht des Dateneditors ein Messniveau zuweisen.

Da das Messniveau für diese Prozedur bedeutsam ist, können Sie erst dann auf das Dialogfeld zur Ausführung dieser Prozedur zugreifen, wenn für alle Felder ein Messniveau definiert wurde.

Ändern des Messniveaus

  1. Klicken Sie mit der rechten Maustaste auf eine Variable in der Liste der Quellenvariablen.
  2. Wählen Sie ein Messniveau im Popup-Menü aus.

Das Messniveau wird vorübergehend für die Dauer der Prozedur "Entscheidungsbaum" geändert.

Informationen zum dauerhaften Ändern des Messniveaus für eine Variable finden Sie unter Messniveau für Variablen.

Aufbaumethoden

Die folgenden Aufbaumethoden sind verfügbar:

CHAID Steht für "Chi-squared Automatic Interaction Detection", d. h. automatische Erkennung von Interaktionen mittels Chi-Quadrat-Tests. In jedem Schritt bestimmt das CHAID-Verfahren diejenige unabhängige Variable (Prädiktor), die den stärksten Zusammenhang mit der abhängigen Variablen aufweist. Die Kategorien der einzelnen Prädiktoren werden zusammengeführt, wenn sie im Hinblick auf die abhängige Variable nicht signifikant unterschiedlich sind.

Umfassendes CHAID. Eine Abwandlung von CHAID, die für jede Prädiktorvariable alle möglichen Aufteilungen untersucht.

CRT. Steht für "Classification and Regression Trees", d. h. Klassifikations- und Regressionsbäume. CRT unterteilt die Daten in Segmente, die im Hinblick auf die abhängige Variable so homogen wie möglich sind. Ein Endknoten, in dem alle Fälle denselben Wert der abhängigen Variablen haben, ist ein homogener ("reiner") Knoten.

QUEST. Steht für Quick, Unbiased, Efficient Statistical Tree, d. h. schneller, unverzerrter, effizienter statistischer Baum. Dabei handelt es sich um ein schnelles Verfahren, das die in anderen Verfahren auftretende Verzerrung zugunsten von Prädiktoren mit vielen Kategorien vermeidet. QUEST kann nur dann gewählt werden, wenn die abhängige Variable nominal ist.

Jede Methode hat ihre Vorteile und Einschränkungen:

Tabelle 2. Merkmale der Aufbaumethode
Funktion CHAID* CRT QUEST
Chi-Quadrat-basiert** X    
Surrogate für unabhängige Variablen (Prädiktorvariablen)   X X
Beschneiden des Baums   X X
Aufteilen mehrdimensionaler Knoten X    
Aufteilen binärer Knoten   X X
Einflussvariablen X X  
A-priori-Wahrscheinlichkeiten   X X
Fehlklassifizierungskosten X X X
Schnelle Berechnung X   X

*Mit Exhaustive CHAID.

**Bei QUEST wird auch ein Chi-Quadrat-Maß für nominale unabhängige Variablen verwendet.