Erstellen des Streams

Um einen Stream zum Erzeugen eines Modells zu erstellen, sind mindestens die folgenden drei Elemente erforderlich:
- Ein Quellenknoten, der Daten aus einer externen Quelle einliest, in diesem Fall eine IBM® SPSS Statistics-Datendatei.
- Ein Quellen- oder Typknoten, der Feldeigenschaften wie das Messniveau (die Daten, die das Feld enthält) und die Rolle der einzelnen Felder als Ziel oder Eingabe in der Modellierung angibt.
- Ein Modellierungsknoten, der bei Ausführung des Streams ein Modellnugget erstellt.
In diesem Beispiel verwenden wir einen CHAID-Modellierungsknoten. CHAID (Chi-squared Automatic Interaction Detection) ist eine Klassifizierungsmethode für die Erstellung von Entscheidungsbäumen mit bestimmten Statistiktypen namens Chi-Quadrat-Statistiken zur Identifizierung der optimalen Splits.
Wenn Messniveaus im Quellenknoten angegeben sind, kann auf den separaten Typknoten verzichtet werden. Hinsichtlich der Funktion ist das Ergebnis dasselbe.
Dieser Stream weist außerdem Tabellen- und Analyseknoten auf, mit denen die Scoring-Ergebnisse angezeigt werden, nachdem das Modellnugget erstellt und in den Stream aufgenommen wurde.
Der Quellenknoten für Statistikdateien liest Daten im IBM SPSS Statistics-Format aus der Datendatei tree_credit.sav ein, die im Ordner Demos installiert wurde. (Eine spezielle Variable mit der Bezeichnung $CLEO_DEMOS dient zur Referenzierung dieses Ordners in der aktuellen IBM SPSS Modeler-Installation. Dadurch wird sichergestellt, dass der Pfad gültig ist, unabhängig vom aktuellen Installationsordner bzw. der jeweiligen Version.)

Der Typknoten gibt das Messniveau für die einzelnen Felder an. Das Messniveau ist eine Kategorie, die den Datentyp für das Feld anzeigt. Unsere Quellendatendatei verwendet drei verschiedene Messniveaus.
Ein Feld des Typs Stetig (z. B. das Feld Alter) enthält stetige numerische Werte, während ein Feld des Typs Nominal (z. B. das Feld Kreditrating) zwei oder mehr bestimmte Werte enthält, z. B. Schlecht, Gut oder Keine früheren Schulden. Ein Feld des Typs Ordinal (z. B. Einkommen in Kategorien) beschreibt Daten mit mehreren unterschiedlichen Werten, die eine natürliche Reihenfolge aufweisen - in diesem Fall Niedrig, Mittel und Hoch.

Der Typknoten legt für jedes Feld außerdem die Rolle fest, die jedes Feld bei der Modellierung spielt. Für das Feld Kreditrating, das angibt, ob ein bestimmter Kunde seinen Kreditverpflichtungen nicht nachgekommen ist, ist die Rolle als Ziel festgelegt. Hierbei handelt es sich also um das Ziel oder das Feld, für das wir den Wert vorhersagen möchten.
Für die anderen Felder ist die Rolle auf Eingabe eingestellt. Eingabefelder werden manchmal auch als Prädiktoren bezeichnet oder als Felder, mit deren Werten der Modellierungsalgorithmus den Wert des Zielfelds vorhersagt.
Der CHAID-Modellierungsknoten generiert das Modell.
Auf der Registerkarte "Felder" im Modellierungsknoten wird die Option Vordefinierte Rollen verwenden ausgewählt. Dies bedeutet, dass die im Typknoten angegebenen Ziele und Eingaben verwendet werden sollen. Wir können die Feldrollen hier ändern, doch in diesem Beispiel belassen wir sie unverändert.
- Klicken Sie auf die Registerkarte "Erstellungsoptionen".
Abbildung 4. CHAID-Modellierungsknoten, Registerkarte "Felder" 
Hier finden Sie einige Optionen, über die Sie die Art des aufzubauenden Modells festlegen können.
Da wir ein komplett neues Modell möchten, verwenden wir die Standardoption Neues Modell aufbauen.
Außerdem möchten wir nur ein einzelnes Standardentscheidungsbaummodell ohne Erweiterungen, weshalb wir auf die Standardzieloption Einzelnen Baum aufbauen zurückgreifen.
Sie können optional eine interaktive Modellierungssitzung starten, mit der Sie eine Feinabstimmung des Modells vornehmen können. Im vorliegenden Beispiel wird jedoch einfach ein Modell mit der Standardmoduseinstellung Modell erzeugen generiert.
Abbildung 5. CHAID-Modellierungsknoten, Registerkarte "Erstellungsoptionen" 
Für dieses Beispiel möchten wir einen einfach strukturierten Baum verwenden und begrenzen deshalb die Baumerweiterung, indem wir die minimale Anzahl der Fälle für über- und untergeordnete Knoten erhöhen.
- Wählen Sie auf der Registerkarte "Erstellungsoptionen" im linken Navigationsbereich Stoppregeln aus.
- Wählen Sie die Option Absolutwert verwenden aus.
- Legen Sie für Mindestanzahl der Datensätze in übergeordneter Verzweigung den Wert 400 fest.
- Legen Sie für Mindestanzahl der Datensätze in untergeordneter Verzweigung den Wert 200 fest.

Wir können in diesem Beispiel alle anderen Standardoptionen verwenden. Klicken Sie daher auf Ausführen, um das Modell zu erstellen. (Alternativ können Sie mit der rechten Maustaste auf den Knoten klicken und im Kontextmenü Ausführen auswählen oder Sie können den Knoten auswählen und Ausführen im Menü "Tools" auswählen.)