Kündigungsrate im Telekommunikationsbereich vorhersagen
In diesem Tutorial wird ein logistisches Regressionsmodell erstellt, eine statistische Methode zur Klassifizierung von Datensätzen auf der Grundlage von Werten in Eingabefeldern. Es ist analog zur linearen Regression, verwendet jedoch ein kategorisches Zielfeld anstelle eines numerischen Feldes.
Nehmen wir beispielsweise an, dass ein Telekommunikationsanbieter besorgt ist über die Anzahl der Kunden, die er an Wettbewerber verliert. Wenn Daten über die Servicenutzung verwendet werden können, um zu prognostizieren, welche Kunden mit hoher Wahrscheinlichkeit zu einem anderen Anbieter wechseln, können die Angebote entsprechend angepasst werden, um so viele Kunden wie möglich zu halten.
Vorschau des Tutorials
Sehen Sie sich dieses Video an, um einen Überblick über die Schritte in diesem Tutorial zu erhalten. Es kann geringfügige Unterschiede in der Benutzeroberfläche geben, die im Video gezeigt wird. Das Video soll als Ergänzung zum schriftlichen Tutorial dienen. Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Aufgaben in dieser Dokumentation.
Probieren Sie das Tutorial aus
In diesem Tutorial werden Sie folgende Aufgaben erledigen:
Beispiel für Modellierungsablauf und Datensatz
Dieses Tutorial verwendet den Ablauf „Telecommunications Churn“ im Beispielprojekt. Die verwendete Datendatei ist telco.csv. Das folgende Bild zeigt den Beispielablauf des Modellierers.

Dieses Beispiel konzentriert sich auf die Verwendung von Nutzungsdaten zur Vorhersage des Kundenverlusts (Abwanderung). Da das Ziel zwei verschiedene Kategorien aufweist, wird ein binomiales Modell verwendet. Wenn das Ziel mehrere Kategorien hat, kann stattdessen ein multinomiales Modell erstellt werden.
Das folgende Bild zeigt den mit diesem Modellierungsablauf verwendeten Datensatz.

Aufgabe 1: Öffnen Sie das Beispielprojekt.
Das Beispielprojekt enthält mehrere Datensätze und Beispiel-Modellierungsabläufe. Wenn Sie das Beispielprojekt noch nicht haben, lesen Sie den Abschnitt „Tutorials“, um das Beispielprojekt zu erstellen. Befolgen Sie dann diese Schritte, um das Beispielprojekt zu öffnen:
- Wählen Sie im Navig ationsmenü watsonx
„Projekte“ > „Alle Projekte“ aus.
- Klicken Sie auf „ SPSS Modeler -Projekt “.
- Klicken Sie auf die Registerkarte „Assets“, um die Datensätze und Modeller-Abläufe anzuzeigen.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt die Registerkarte „Assets“ des Projekts. Sie können nun mit dem Beispielmodellierungsablauf dieses Tutorials arbeiten.

Aufgabe 2: Untersuchen Sie den Knoten „Datenbestand und Typ“
Die Telekommunikations-Abwanderung umfasst mehrere Knotenpunkte. Befolgen Sie diese Schritte, um die Knoten „Data Asset“ und „Type“ zu überprüfen:
- Öffnen Sie auf der Registerkarte „Assets“ den Modellierungsablauf „Telecommunication Churn“ und warten Sie, bis die Arbeitsfläche geladen ist.
- Doppelklicken Sie auf den telco.csv Knoten. Dieser Knoten ist ein Daten-Asset -Knoten, der auf die telco.csv Datei im Projekt verweist.
- Überprüfen Sie die Eigenschaften des Dateiformats.
- Optional: Klicken Sie auf „Datenvorschau“, um den vollständigen Datensatz anzuzeigen.
- Doppelklicken Sie auf den Knoten „Typ “. Dieser Knoten legt Feldeigenschaften fest, wie beispielsweise die Messstufe (die Art der Daten, die das Feld enthält) und die Rolle jedes Feldes als Ziel oder Eingabe bei der Modellierung. Stellen Sie sicher, dass alle Messstufen korrekt eingestellt sind. Beispielsweise können die meisten
1.0Felder mit den Werten0.0und als Flags betrachtet werden, aber bestimmte Felder, wie z. B. das Geschlecht, lassen sich genauer als nominale Felder mit zwei Werten betrachten.Beachten Sie, dass als Flag mit einerAbb. 3 Messniveaus 
churnZiel rolle festgelegt ist. Die Rolle für alle anderen Felder ist auf „Eingabe“ gesetzt. - Doppelklicken Sie auf den Modellierungsknoten „Churn (Feature Selection)“, um dessen Eigenschaften anzuzeigen. Sie können einen Feature Selection -Knoten verwenden, um Prädiktoren oder Daten zu entfernen, die keine nützlichen Informationen über die Beziehung zwischen Prädiktor und Ziel hinzufügen.
- Bewegen Sie den Mauszeiger über den Knoten „Churn (Feature Selection) “ und klicken Sie auf das Symbol
„Ausführen“.
- Klicken Sie im Bereich „Ausgaben und Modelle “ auf das erste Modell in der Liste mit dem Namen „churn“, um die Modelldetails anzuzeigen.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt die Modelldetails. Sie können nun den Filter knoten überprüfen.

Aufgabe 3: Überprüfen Sie den Filterknoten.
Nur einige der Daten in der telco.csv Datendatei sind für die Vorhersage der Abwanderung nützlich. Mit dem Filter können Sie genau die Daten auswählen, die als wichtig für die Verwendung als Prädiktor angesehen werden (die Felder, die im zuvor generierten Modell als „Wichtig“ markiert sind). Befolgen Sie diese Schritte, um den Filter knoten anzuzeigen und zu überprüfen:
- Doppelklicken Sie auf den Knoten „Wichtige Funktionen (Filter)“, um dessen Eigenschaften anzuzeigen.
- Beachten Sie, dass dieser Knoten nur ausgewählte Felder herausfiltert:
tenure,age,addressincome,ed,,employ, und weitere. Andere Bereiche sind von dieser Analyse ausgeschlossen.Abbildung 4. Filterknoten Wichtige Funktionen 
- Klicken Sie auf „Abbrechen “.
- Beachten Sie, dass dieser Knoten nur ausgewählte Felder herausfiltert:
- Doppelklicken Sie auf den Ausgangsknoten „28 Felder (Datenprüfung)“ nach dem Filter knoten.
- Bewegen Sie den Mauszeiger über den Knoten „Datenprüfung“ und klicken Sie auf das Symbol
„Ausführen“.
- Klicken Sie im Bereich „Ausgaben und Modelle “ auf die Ergebnisse mit dem Namen „Datenprüfung“, um die Ausgabe anzuzeigen.
- Sehen Sie sich die Spalte „% Complete“ (Fertigstellungsgrad) an, anhand derer Sie Felder mit großen Mengen fehlender Daten identifizieren können. Im vorliegenden Fall müssen Sie
lediglich das Feld
logtollbearbeiten, das zu weniger als 50 % vollständig ist.Abbildung 5. 28 Felder ausgeben 
- Schließen Sie die Ausgabe.
- Bewegen Sie den Mauszeiger über den Knoten „Datenprüfung“ und klicken Sie auf das Symbol
- Doppelklicken Sie auf den Superknoten „Imputation fehlender Werte “.
- Klicken Sie auf „Superknoten anzeigen “.
- Doppelklicken Sie auf den Knoten „Fill logtoll (Filler) “.Füllknoten werden verwendet, um Feldwerte zu ersetzen und den Speicher zu ändern. Sie können auswählen, dass die Werte auf der Grundlage einer angegebenen CLEM-Bedingung ersetzt werden sollen, beispielsweise
@BLANK(FIELD). Alternativ können Sie auswählen, dass alle Leerstellen oder Nullwerte mit einem bestimmten Wert ersetzt werden sollen. Füllknoten werden häufig zusammen mit dem Typ -Knoten verwendet, um fehlende Werte zu ersetzen.Im Abschnitt „Felder ausfüllen “ können Sie die Felder aus dem Datensatz angeben, deren Werte überprüft und ersetzt werden sollen. In diesem Fall wird dielogtollSpalte zusammen mit einer Option für Leerzeichen und Nullwerte im Abschnitt „Ersetzen“ angegeben.Abbildung 6. Superknoten für die Imputation fehlender Werte mit Füllereigenschaften 
- Klicken Sie auf „Zurück zum vorherigen Ablauf “.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den Ablauf. Sie können nun mit dem Aufbau des Modells beginnen.

Aufgabe 4: Erstellen Sie das Modell.
Sie erstellen ein Modell, das den Knoten „Logistic“ verwendet. Befolgen Sie diese Schritte, um das Modell zu erstellen:
- Doppelklicken Sie auf den Knoten „Churn (Logistic) “ nach dem Superknoten „Missing Value Imputation“, um dessen Eigenschaften anzuzeigen.
- Wählen Sie im Abschnitt „Modell-Einstellungen“ das Binomial verfahren aus.
- Ein Binomialmodell wird verwendet, wenn das Zielfeld ein Flag- oder Nominalfeld mit zwei diskreten Werten ist.
- Ein multinomiales Modell wird verwendet, wenn das Zielfeld ein nominales Feld mit mehr als zwei Werten ist.
- Wählen Sie als Nächstes die Methode „Forwards Stepwise“ aus.
- Wählen Sie im Abschnitt „Expertenoptionen“ den Expertenmodus aus.
- Klicken Sie auf „Ausgabe “. Wählen Sie Bei jedem Schritt,
Iterationsverlauf und Parameterschätzungen
aus und klicken Sie anschließend auf OK.
Abbildung 7. Optionen für Logistikknoten 
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den Ablauf. Sie können nun das Modell generieren.

Aufgabe 5: Erstellen Sie das Modell.
Befolgen Sie diese Schritte, um ein Modell-Nugget aus dem Logistic -Knoten zu generieren:
- Bewegen Sie den Mauszeiger über den Knoten „Churn (Logistic) “ und klicken Sie auf das Symbol
„Ausführen“.
- Klicken Sie im Bereich „Ausgaben und Modelle “ auf das Churn -Modell, um die Ergebnisse anzuzeigen.
Die Seite „Variablen in der Gleichung“ zeigt das Ziel (Abwanderung) und die vom Modell verwendeten Eingaben (Prädiktorfelder) an. Diese Felder werden anhand der Forwards Stepwise-Methode ausgewählt, nicht anhand der vollständigen Liste, die zur Prüfung vorgelegt wurde.
Um zu beurteilen, wie gut das Modell zu Ihren Daten passt, stehen Ihnen beim Erstellen des Ablaufs in den Einstellungen des Expertenknotens mehrere Diagnosefunktionen zur Verfügung.
Beachten Sie außerdem, dass diese Ergebnisse nur auf den Trainingsdaten beruhen. Um zu beurteilen, wie gut sich das Modell auf andere Daten in der realen Welt übertragen lässt, verwenden Sie einen Partition -Knoten, um eine Teilmenge von Datensätzen für Test- und Validierungszwecke zurückzuhalten.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt die Modellergebnisse.

Zusammenfassung
Dieses Beispiel zeigte, wie man Nutzungsdaten zur Vorhersage von Kundenverlusten (Churn) verwenden kann, indem man ein binomiales Modell erstellt, da das Ziel zwei unterschiedliche Kategorien hat.
Weitere Schritte
Sie können nun andere ausprobieren SPSS® Modeler Tutorials.