Prognostizierte Bandbreitennutzung

Dieses Tutorial enthält ein Beispiel für einen Analysten eines nationalen Breitbandanbieters, der die Nutzerabonnements prognostiziert, um die Bandbreitennutzung vorherzusagen. Sie benötigen Prognosen für jeden der lokalen Märkte, aus denen sich die nationale Abonnentenbasis zusammensetzt.

Vorschau des Tutorials

Video ansehen Sehen Sie sich dieses Video an, um einen Überblick über die Schritte in diesem Tutorial zu erhalten. Es kann geringfügige Unterschiede in der Benutzeroberfläche geben, die im Video gezeigt wird. Das Video soll als Ergänzung zum schriftlichen Tutorial dienen. Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Aufgaben in dieser Dokumentation.

Probieren Sie das Tutorial aus

In diesem Tutorial werden Sie folgende Aufgaben ausführen:

Aufgabe 1: Öffnen Sie das Beispielprojekt.
Aufgabe 2: Untersuchen Sie die Datenressourcen- und Filterknoten.
Aufgabe 3: Visualisieren Sie die Daten
Aufgabe 4: Legen Sie die Termine fest.
Aufgabe 5: Ziele definieren
Aufgabe 6: Zeitintervalle festlegen
Aufgabe 7: Erstellen Sie das Modell.
Aufgabe 8: Untersuchen Sie das Modell.

Beispiel für Modellierungsablauf und Datensatz

Dieses Tutorial verwendet den Ablauf „Prognose der Bandbreitennutzung“ im Beispielprojekt. Sie verwenden Zeitreihenmodellierung, um Prognosen für die nächsten drei Monate für mehrere lokale Märkte zu erstellen. Die verwendete Datendatei ist broadband_1.csv. Das folgende Bild zeigt den Beispielablauf des Modellierers.

Prognose des Bandbreitennutzungsmodells — Abb. 1. Beispiel für einen Modellierungsablauf

In können Sie mehrere Zeitreihenmodelle SPSS® Modeler in einem einzigen Vorgang erstellen. Die Datei „ broadband_1.csv “ enthält monatliche Nutzungsdaten für jeden der 85 lokalen Märkte. Für dieses Beispiel werden nur die ersten fünf Reihen verwendet; für jede dieser fünf Reihen wird ein separates Modell erstellt, zusätzlich zu einer Gesamtsumme.

Außerdem enthält die Datei ein Datumsfeld, in dem für jeden Datensatz Monat und Jahr angegeben sind. Dieses Feld wird zum Beschriften von Datensätzen verwendet. Das Datumsfeld wird SPSS Modeler als Zeichenfolge eingelesen, aber um das Feld in zu verwenden, SPSS Modeler konvertieren Sie den Speichertyp mithilfe eines Füll knotens in das numerische Datumsformat.

Der Knoten „Zeitreihen“ erfordert, dass jede Reihe in einer separaten Spalte mit einer Zeile für jedes Intervall steht. SPSS Modeler bietet Methoden zur Umwandlung von Daten in dieses Format, falls erforderlich.

Das folgende Bild zeigt den Beispieldatensatz.

Dataset — Abbildung 2: Beispieldatensatz

Aufgabe 1: Öffnen Sie das Beispielprojekt.

Das Beispielprojekt enthält mehrere Datensätze und Beispiel-Modellierungsabläufe. Wenn Sie das Beispielprojekt noch nicht haben, lesen Sie den Abschnitt „Tutorials“, um das Beispielprojekt zu erstellen. Befolgen Sie dann diese Schritte, um das Beispielprojekt zu öffnen:

Wählen Sie im Navig ationsmenü watsonx„Projekte“ > „Alle Projekte“ aus.
Klicken Sie auf „ SPSS Modeler -Projekt “.
Klicken Sie auf die Registerkarte „Assets“, um die Datensätze und Modeller-Abläufe anzuzeigen.

Überprüfen Sie Ihren Fortschritt

Das folgende Bild zeigt die Registerkarte „Assets“ des Projekts. Sie können nun mit dem Beispielmodellierungsablauf dieses Tutorials arbeiten.

Beispielprojekt

Zurück zum Anfang

Aufgabe 2: Untersuchen Sie die Datenressourcen- und Filterknoten.

Der Modellierungsablauf für die Prognose der Bandbreitennutzung umfasst mehrere Knoten. Befolgen Sie diese Schritte, um die Knoten „Data Asset“ und „Filter“ zu überprüfen:

Öffnen Sie auf der Registerkarte „Assets“ den Modeller-Ablauf „Forecasting Bandwidth Utilization“ (Prognose der Bandbreitennutzung) und warten Sie, bis die Arbeitsfläche geladen ist.
Doppelklicken Sie auf den broadband_1.csv Knoten. Dieser Knoten ist ein Daten-Asset -Knoten, der auf die broadband_1.csv Datei im Projekt verweist.
Überprüfen Sie die Eigenschaften des Dateiformats.
Optional: Klicken Sie auf „Datenvorschau“, um den vollständigen Datensatz anzuzeigen.
Doppelklicken Sie auf den Filter knoten. Beachten Sie, dass dieser Knoten die Felder Market_6 Market_85 bis sowie die Felder MONTH_ YEAR_ und herausfiltert.
Optional: Klicken Sie auf „Datenvorschau“, um den gefilterten Datensatz anzuzeigen.

Checkpoint-Symbol Überprüfen Sie Ihren Fortschritt

Das folgende Bild zeigt den Filter knoten. Sie sind nun bereit, die Daten zu visualisieren.

Zurück zum Anfang

Aufgabe 3: Visualisieren Sie die Daten

Es ist immer eine gute Idee, Ihre Daten zu visualisieren, bevor Sie ein Modell erstellen. Weisen die Daten saisonale Schwankungen auf? Obwohl automatisch das beste saisonale oder SPSS Modeler nicht-saisonale Modell für jede Reihe finden kann, erhalten Sie oft schnellere Ergebnisse, wenn Sie die Suche auf nicht-saisonale Modelle beschränken, wenn Ihre Daten keine Saisonalität aufweisen. Ohne die Daten für jeden einzelnen lokalen Markt zu untersuchen, können Sie sich ein grobes Bild vom Vorhandensein oder Fehlen saisonaler Schwankungen machen, indem Sie die Gesamtzahl der Abonnenten über alle fünf Märkte hinweg grafisch darstellen. Befolgen Sie diese Schritte, um die Daten zu visualisieren:

Doppelklicken Sie auf den Knoten [ Market_1 Market_2 Market_3 Market_4 Market_5 ]. Das folgende Bild zeigt die Eigenschaften dieses Zeitdiagramm -Knotens.
Abb. 3 Die Gesamtzahl der Abonnenten darstellen
Zeichnen Sie die gesamten Abonnementdaten grafisch auf, indem Sie das Total Feld zur Serien liste hinzufügen.
1. Klicken Sie auf „Spalten hinzufügen “.
2. Wählen Sie das Feld „Gesamt“ aus.
3. Löschen Sie alle anderen Felder, die mit beginnen Market_.
4. Klicken Sie auf OK.
5. Löschen Sie die Optionen „Anzeige-Serie in separatem Fenster“ und „Normalisieren “.
6. Klicken Sie auf Speichern.
7. Bewegen Sie den Mauszeiger über den K noten „Zeitdiagramm“ und klicken Sie auf das Symbol „Ausführen“.
8. Klicken Sie im Bereich „Ausgaben und Modelle “ auf die Ausgabeergebnisse mit dem Namen [Gesamt], um das Diagramm anzuzeigen. Die Reihe weist einen gleichmäßigen Aufwärtstrend ohne Anzeichen saisonaler Schwankungen auf. Es mag einzelne Reihen mit saisonalen Schwankungen geben, aber offenbar sind saisonale Schwankungen im Allgemeinen kein herausragendes Merkmal der Daten.
  
  Abbildung 4. Gesamtabonnementdaten-Diagramm
Grafische Darstellung der Daten für alle Märkte. Überprüfen Sie jede Serie, bevor Sie saisonale Modelle ausschließen. Anschließend können Sie Reihen, die saisonale Schwankungen aufweisen, herausfiltern und separat modellieren.
1. Doppelklicken Sie auf den Knoten [Gesamt].
2. Wählen Sie das Feld „Gesamt“ aus und klicken Sie auf das Symbol „Löschen “.
3. Klicken Sie auf „Spalten hinzufügen “.
4. Wählen Sie alle Felder aus, die mit beginnen Market_.
5. Klicken Sie auf OK.
6. Löschen Sie die Optionen „Anzeige-Serie in separatem Fenster“ und „Normalisieren “.
7. Klicken Sie auf Speichern.
8. Bewegen Sie den Mauszeiger über den K noten „Zeitdiagramm“ und klicken Sie auf das Symbol „Ausführen“.
9. Klicken Sie im Bereich „Ausgaben und Modelle “ auf die Ausgabeergebnisse mit den Namen [ Market_1 Market_2 Market_3 Market_4 Market_5 ], um das Diagramm anzuzeigen. Die Untersuchung der einzelnen Märkte ergibt jeweils einen stetigen Aufwärtstrend. Obwohl einige Märkte etwas unbeständiger sind als andere, lassen die Ergebnisse keine saisonalen Schwankungen erkennen.
  
  Abbildung 5. Markt-Abonnementdaten-Diagramm

Checkpoint-Symbol Überprüfen Sie Ihren Fortschritt

Das folgende Bild zeigt den Ablauf. Sie können nun die Daten festlegen.

Zurück zum Anfang

Aufgabe 4: Legen Sie die Termine fest.

Füllknoten werden verwendet, um Feldwerte zu ersetzen und den Speicher zu ändern. Sie können auswählen, dass die Werte auf der Grundlage einer angegebenen CLEM-Bedingung ersetzt werden sollen, beispielsweise @BLANK(FIELD). Alternativ können Sie auswählen, dass alle Leerstellen oder Nullwerte mit einem bestimmten Wert ersetzt werden sollen. Füllknoten werden häufig zusammen mit dem Typ -Knoten verwendet, um fehlende Werte zu ersetzen. Befolgen Sie diese Schritte, um den Speichertyp des DATE_ Feldes auf das Datumsformat festzulegen:

Doppelklicken Sie auf den Filler -Knoten, um dessen Eigenschaften anzuzeigen.
Beachten Sie, dass DATE_ das Feld im Abschnitt „Felder ausfüllen“ aufgeführt ist. Dieser Abschnitt enthält die Felder aus dem Datensatz, deren Werte überprüft und ersetzt werden.
Überprüfen Sie, ob die Option „Ersetzen“ auf „Immer“ eingestellt ist. Das Standardverhalten besteht darin, Werte basierend auf einer Bedingung mithilfe der Ausdrücke „Bedingung“ und „Ersetzen durch“ zu ersetzen.
Überprüfen Sie, ob der Wert „Ersetzen durch“ auf to_date(DATE_)gesetzt ist. Da die Option „Ersetzen“ auf „Immer“ gesetzt ist, ist der Ausdruck „Ersetzen durch“ erforderlich. Dieser Ausdruck ändert den Speichertyp des DATE_ Feldes in das Datumsformat.
Klicken Sie auf „Datenvorschau“, um das ausgefüllte DATE_ Feld anzuzeigen.
Klicken Sie auf Speichern.

Checkpoint-Symbol Überprüfen Sie Ihren Fortschritt

Das folgende Bild zeigt den Füll knoten. Sie können nun die Ziele definieren.

Zurück zum Anfang

Aufgabe 5: Ziele definieren

Sie können Feldeigenschaften in einem Typ -Knoten festlegen. Befolgen Sie diese Schritte, um die Ziele im Knoten „Typ“ zu definieren:

Doppelklicken Sie auf den Knoten „Typ“, um dessen Eigenschaften anzuzeigen.
Klicken Sie auf „Werte lesen“, um die Werte aus Ihrer Datenquelle zu lesen und die Feldmessungstypen festzulegen.
Die Rolle teilt den Modellierungsknoten mit, ob Felder für einen maschinellen Lernprozess Eingabefelder (Prädiktorfelder) oder Zielfelder (vorhergesagte Felder) sind. Beide und Keine sind ebenfalls verfügbare Rollen, ebenso wie Partition, die ein Feld bezeichnet, das zur Aufteilung von Datensätzen in separate Stichproben für Training, Test und Validierung verwendet wird. Der Wert „Split“ gibt an, dass für jeden möglichen Wert des Feldes separate Modelle erstellt werden.
Setzen Sie für das DATE_ Feld die Rolle auf „Keine “.
Für alle anderen Felder (die Market_n Felder plus das Total Feld) legen Sie die Rolle auf „Ziel“ fest.
Klicken Sie auf Speichern.

Checkpoint-Symbol Überprüfen Sie Ihren Fortschritt

Das folgende Bild zeigt den Knoten „Typ “. Sie können nun die Zeitintervalle einstellen.

Zurück zum Anfang

Aufgabe 6: Zeitintervalle festlegen

Im Knoten „Zeitreihen “ können Sie die Beobachtungen definieren, die ein Datums-/Zeitfeld mit dem entsprechenden Zeitintervall verwenden. Befolgen Sie diese Schritte, um die Zeitintervalle im Knoten „Zeitreihen“ festzulegen:

Doppelklicken Sie auf den Knoten „Zeitreihen (6 Felder)“, um dessen Eigenschaften anzuzeigen.
Erweitern Sie den Abschnitt „Beobachtungen und Zeitintervall “. Die folgenden Optionen stehen zur Verfügung:
- Beobachtungen, die durch ein Datums-/Zeitfeld angegeben werden: Sie können festlegen, dass die Beobachtungen durch ein Datums-, Zeit- oder Zeitstempelfeld definiert werden. Wählen Sie zusätzlich zu dem Feld, das die Beobachtungen definiert, das geeignete Zeitintervall aus, das die Beobachtungen beschreibt. Je nach dem festgelegten Zeitintervall können Sie auch andere Einstellungen vornehmen, wie beispielsweise das Intervall zwischen den Beobachtungen (Inkrement) oder die Anzahl der Tage pro Woche.
- Beobachtungen, die als Perioden oder zyklische Perioden definiert sind: Beobachtungen werden durch ein oder mehrere ganzzahlige Felder definiert, die Perioden oder sich wiederholende Zyklen von Perioden bis zu einer beliebigen Anzahl von Zyklusebenen darstellen. Mit dieser Struktur können Sie eine Reihe von Beobachtungen beschreiben, die nicht in eines der Standardzeitintervalle passen. Beispielsweise kann ein Geschäftsjahr mit nur 10 Monaten mit einem Zyklusfeld, das Jahre darstellt, und einem Periodenfeld, das Monate darstellt, beschrieben werden, wobei die Länge eines Zyklus 10 beträgt.
1. Überprüfen Sie, ob im Feld DATE_ „Zeit/Datum“ ausgewählt ist.
2. Überprüfen Sie, ob im Feld Months „Zeitintervall“ ausgewählt ist.
Erweitern Sie den Abschnitt „Modelloptionen “.
1. Wählen Sie das Feld „Datensätze in die Zukunft verlängern“ aus. Dieses Feld legt die Anzahl der Intervalle fest, die über das Ende des Schätzungszeitraums hinaus prognostiziert werden sollen. Das Zeitintervall ist in diesem Fall das Zeitintervall der Analyse. Wenn Prognosen angefordert werden, werden für alle Eingabereihen, die nicht auch Ziele sind, automatisch autoregressive Modelle erstellt. Diese Modelle werden dann verwendet, um Werte für diese Eingabereihen im Prognosezeitraum zu generieren.
2. Geben 3 Sie die Anzahl der Zeitintervalle ein.

Checkpoint-Symbol Überprüfen Sie Ihren Fortschritt

Das folgende Bild zeigt den Knoten „Typ “. Sie sind nun bereit, das Modell zu erstellen.

Zurück zum Anfang

Aufgabe 7: Erstellen Sie das Modell.

Mit dem Knoten „Zeitreihen“ können Sie exponentielle Glättungs-, univariate autoregressive integrierte gleitende Durchschnitts- (ARIMA) oder multivariate ARIMA-Modelle (oder Übertragungsfunktionen) für Zeitreihen schätzen und erstellen und auf der Grundlage der Zeitreihendaten Prognosen erstellen.

Aufgabe 7a: Modelloptionen festlegen

Befolgen Sie diese Schritte, um die Modelloptionen im Knoten „Zeitreihen“ festzulegen:

Zeigen Sie die Knoteneigenschaften der Zeitreihe (6 Felder) an und geben Sie die Ziele und Kandidaten-Eingaben an.
1. Überprüfen Sie, ob die Tabelle „Ziele“ alle fünf Marktfelder und das Total Feld enthält.
2. Überprüfen Sie, ob die Tabelle „Kandidateneingaben“ alle fünf Marktfelder enthält.
Erweitern Sie den Abschnitt „Build-Optionen – Allgemein “. Die folgenden Optionen stehen zur Verfügung:
- Exponentielles Glätten ist eine Vorhersagemethode, bei der gewichtete Werte aus früheren Beobachtungen der Zeitreihe verwendet werden, um zukünftige Werte vorherzusagen. An sich beruht das exponentielle Glätten nicht auf einem theoretischen Verständnis der Daten. Es wird jeweils ein Punkt vorhergesagt und diese Vorhersagen werden angepasst, wenn neue Daten eingehen. Das Verfahren eignet sich für Vorhersagen, die einen Trend, Saisonalität oder beides aufweisen. Dabei können Sie zwischen verschiedenen Modellen mit exponentiellem Glätten wählen, die sich hinsichtlich der Behandlung von Trends und Saisonalität unterscheiden.
- ARIMA-Modelle bieten feinere Methoden für die Modellierung von Trend- und saisonalen Komponenten als die Modelle mit exponentiellem Glätten und weisen insbesondere den zusätzlichen Vorteil auf, dass unabhängige Variablen (Prädiktorvariablen) in das Modell integriert werden können. Dieser Ansatz beinhaltet die explizite Angabe von autoregressiven und gleitenden Durchschnittsordnungen zusammen mit dem Differenzierungsgrad. Sie können Prädiktorvariablen einschließen und Transferfunktionen für bestimmte oder alle dieser Variablen definieren und die automatische Erkennung von Ausreißern oder einer bestimmten Gruppe von Ausreißern festlegen.
- Expert Modeler versucht, automatisch das am besten passende ARIMA- oder exponentielle Glättungsmodell für eine oder mehrere Zielvariablen zu identifizieren und zu schätzen, wodurch die Notwendigkeit entfällt, durch Ausprobieren ein geeignetes Modell zu finden. Im Zweifelsfall sollte die Option Expert Modeler verwendet werden.
1. Überprüfen Sie, ob die Methode „Expert Modeler“ ausgewählt ist. Mit dieser Methode kann der Expert Modeler für jede Zeitreihe das am besten geeignete Modell auswählen.
2. Überprüfen Sie, ob im Feld „Modelltyp“ die Option „Alle Modelle“ ausgewählt ist. Diese Option berücksichtigt sowohl ARIMA- als auch exponentielle Glättungsmodelle.
3. Überprüfen Sie, ob das Feld „Expert Model considers seasonal modes“ (Expertenmodell berücksichtigt saisonale Muster) ausgewählt ist. Wenn diese Option ausgewählt ist, berücksichtigt der Expert Modeler sowohl saisonale als auch nicht-saisonale Modelle.
Das folgende Bild zeigt die Build-Optionen – allgemeine Einstellungen.
Klicken Sie auf Speichern.
Bewegen Sie den Mauszeiger über den Knoten „Zeitreihen (6 Felder)“ und klicken Sie auf das Symbol „Ausführen“.

Aufgabe 7b: Modellausgabe anzeigen

Befolgen Sie diese Schritte, um die Modellausgabe in Tabellenform anzuzeigen:

Bewegen Sie den Mauszeiger über den Tabellen knoten, der mit dem Modell-Nugget verbunden ist, und klicken Sie auf das Symbol „Ausführen“.

Klicken Sie im Bereich „Ausgaben und Modelle “ auf die Ausgabeergebnisse mit dem Namen „Tabelle“, um die Tabellenausgabe anzuzeigen.

Beachten Sie die drei neuen Zeilen, die am Ende der ursprünglichen Daten angehängt wurden. Diese Zeilen beziehen sich auf den Prognosezeitraum, in diesem Fall Januar bis März 2004.

Abbildung 6. Tabellenausgabe mit prognostizierten Zeilen

Sie sehen mehrere neue Spalten. Der Knoten „Zeitreihen“ hat $TS- Spalten hinzugefügt. Die Spalten enthalten folgende Angaben für jede Zeile (d. h. für jedes Intervall in den Zeitreihendaten):

Tabelle 1. Generierte Spalten im Zeitreihenmodell
Spalte	Beschreibung
$TS-Spaltenname	Die Daten des generierten Modells für die einzelnen Spalten der ursprünglichen Daten.
$TSLCI-Spaltenname	Der untere Wert des Konfidenzintervalls für die einzelnen Spalten der Daten des generierten Modells.
$TSUCI-Spaltenname	Der obere Wert des Konfidenzintervalls für die einzelnen Spalten der Daten des generierten Modells.
$TS-Total	Der Gesamtwert der $TS-Spaltenname-Werte für die betreffende Zeile.
$TSLCI-Total	Der Gesamtwert der $TSLCI-Spaltenname-Werte für die betreffende Zeile.
$TSUCI-Total	Der Gesamtwert der $TSUCI-Spaltenname-Werte für die betreffende Zeile.

Die wichtigsten Spalten für die Vorhersageoperation sind die Spalten $TS-Market_n, $TSLCI-Market_n und $TSUCI-Market_n. Insbesondere enthalten diese Spalten in den letzten drei Zeilen die Vorhersagedaten für die Benutzerabonnements und die Konfidenzintervalle für die einzelnen lokalen Märkte.

Checkpoint-Symbol Überprüfen Sie Ihren Fortschritt

Das folgende Bild zeigt die Ausgabetabelle. Sie können nun das Modell untersuchen.

Tabellenausgabe mit zusätzlichen Spalten

Zurück zum Anfang

Aufgabe 8: Untersuchen Sie das Modell.

Nun können Sie die Modellinformationen und die Vorhersageergebnisse untersuchen.

Aufgabe 8a: Modellinformationen anzeigen

Befolgen Sie diese Schritte, um die Modellinformationen anzuzeigen:

Bewegen Sie den Mauszeiger über das Zeit reihenmodell-Nugget, klicken Sie auf das Über laufmenü und wählen Sie „Modell anzeigen “.
Klicken Sie in der Spalte TARGET auf Market_2.
1. Klicken Sie auf „Modellinformationen “. In der Zeile Anzahl der Prädiktoren wird angezeigt, wie viele Felder als Prädiktoren für die einzelnen Ziele verwendet wurden.
  Die übrigen Zeilen in den Tabellen mit den Modellinformationen enthalten verschiedene Maße für die Anpassungsgüte für die einzelnen Modelle. Mit R-Quadrat für stationären Teil wird gemessen, inwieweit ein Modell besser als das Basismodell ist. Das endgültige Modell lautet ARIMA(p,d,q)(P,D,Q), das Basismodell ARIMA(0,d,0)(0,D,0). Wenn das endgültige Modell ein exponentielles Glättungsmodell ist, dann ist d für das Brown- und Holt-Modell gleich 2 und für andere Modelle gleich 1, und D ist gleich 1, wenn die Saisonlänge größer als 1 ist, andernfalls ist D gleich 0. Ein negativer stationärer R-Quadrat-Wert bedeutet, dass das betrachtete Modell schlechter ist als das Basismodell. Ein stationäres R-Quadrat von Null bedeutet, dass das Modell genauso gut oder schlecht ist wie das Basismodell, und ein positives stationäres R-Quadrat bedeutet, dass das Modell besser ist als das Basismodell.
  
  Die Zeilen Statistik und df sowie die Signifikanz unter Parameterschätzungen beziehen sich auf die Ljung-Box-Statistik, einen Test der Zufälligkeit der Restfehler im Modell. Je zufälliger die Fehler, desto besser ist das Modell voraussichtlich. Die Statistik ist die Ljung-Box-Statistik selbst, während df (Freiheitsgrade) die Anzahl der Modellparameter angibt, die bei der Schätzung eines bestimmten Ziels variiert werden können.
  
  Die Zeile Signifikanz enthält den Signifikanzwert der Ljung-Box-Statistik, der ein weiteres Anzeichen dafür darstellt, ob das Modell korrekt angegeben wurde. Ein Signifikanzwert von unter 0,05 bedeutet, dass die Restfehler nicht zufällig sind, was darauf hinweist, dass es in der beobachteten Zeitreihe eine Struktur gibt, die sich nicht durch das Modell erklären lässt.
  
  Unter Berücksichtigung sowohl der stationären R-Quadrat-Werte als auch der Signifikanzwerte sind die vom Expert Market_4 Modeler für Market_3, und ausgewählten Modelle akzeptabel. Die Sign ifikanzwerte für Market_1, Market_2und Market_5 sind alle kleiner als 0.05, was darauf hindeutet, dass einige Experimente mit besser passenden Modellen für diese Märkte erforderlich sein könnten.
  
  Das Display zeigt mehrere Anpassungsgüte-Maße an. Der Wert R-Quadrat ist eine Schätzung der Gesamtvariation in der Zeitreihe, die durch das Modell erklärt werden kann. Da der Maximalwert für diese Statistik 1.0 beträgt, sind Ihre Modelle in dieser Hinsicht in Ordnung.
  
  RMSE ist der quadratische Mittelwertfehler, ein Maß dafür, wie stark die tatsächlichen Werte einer Reihe von den vom Modell vorhergesagten Werten abweichen, und wird in denselben Einheiten ausgedrückt, die auch für die Reihe selbst verwendet werden. Da es sich bei diesem Fehler um eine Fehlermessung handelt, sollte dieser Wert so niedrig wie möglich sein. Auf den ersten Blick sind die Modelle für Market_2 und Market_3, obwohl sie nach den bisher vorgestellten Statistiken noch akzeptabel sind, weniger erfolgreich als die Modelle für die anderen drei Märkte.
  
  Zu diesen zusätzlichen Maßen für die Anpassungsgüte gehören der mittlere absolute Fehler in Prozent (MAPE) sowie der zugehörige maximale Wert (MAXAPE). Der absolute Fehler in Prozent ist ein Maß dafür, wie stark eine Zielzeitreihe von dem vom Modell vorhergesagten Niveau abweicht. Dieses Maß wird als Prozentwert angegeben. Wenn Sie den mittleren und maximalen Prozentsatz modellübergreifend untersuchen, erhalten Sie einen Hinweis auf die Unsicherheit in Ihren Vorhersagen.
  
  Der MAPE -Wert zeigt, dass alle Modelle eine mittlere Unsicherheit von etwa 1 % aufweisen, was gering ist. Der MAXAPE-Wert gibt den maximalen absoluten Fehler in Prozent an und kann zur Erstellung eines Worst-Case-Szenarios für Ihre Vorhersagen herangezogen werden. Es zeigt sich, dass der größte prozentuale Fehler für die meisten Modelle im Bereich von etwa 1.8 % bis 3.7 % liegt, also wiederum niedrige Werte, wobei nur mit fast Market_4 7 % höher liegt.
  
  Der MAE-Wert (Mean Absolute Error, mittlerer absoluter Fehler) gibt den Mittelwert der absoluten Werte der Vorhersagefehler an. Wie der RMSE -Wert wird auch dieser Wert in denselben Einheiten ausgedrückt, die für die Reihe selbst verwendet werden. MAXAE zeigt den größten Prognosefehler in denselben Einheiten und gibt das Worst-Case-Szenario für die Prognosen an.
  
  So interessant diese absoluten Werte sein mögen, sind doch die Fehlerwerte in Prozent (MAPE und MAXAPE) in diesem Fall nützlicher, da die Zielzeitreihen auf Abonnentenzahlen für unterschiedlich große Märkte beruhen.
  
  Stellen die Werte MAPE und MAXAPE einen Grad an Unsicherheit dar, der bei den Modellen akzeptabel ist? Sie sind sehr niedrig. In dieser Situation kommt der Geschäftssinn ins Spiel, da sich das akzeptable Risiko von Problem zu Problem ändert. Sie gehen davon aus, dass die Anpassungsgüte-Statistiken innerhalb akzeptabler Grenzen liegen, also fahren Sie fort und betrachten Sie die Restfehler.
  
  Eine Untersuchung der Autokorrelationsfunktion (ACF) und der partiellen Autokorrelationsfunktion (PACF) für die Modellresiduen bietet quantitativere Einblicke in die Modelle als die bloße Betrachtung von Statistiken für die Anpassungsgüte.
  
  Ein gut spezifiziertes Zeitreihenmodell erfasst alle nicht zufälligen Schwankungen, einschließlich saisonaler Schwankungen, Trends, zyklischer und anderer wichtiger Faktoren. Wenn dies der Fall ist, sollten etwaige Fehler nicht im Laufe der Zeit mit sich selbst korreliert sein (Autokorrelation). Eine signifikante Struktur in einer der beiden Autokorrelationsfunktionen könnte darauf hindeuten, dass das zugrunde liegende Modell unvollständig ist.
2. Schließen Sie das Market_2 Fenster.
Klicken Sie auf das Market_4 Modell.
1. Klicken Sie auf „Korrelogramm“, um die Werte der Autokorrelationsfunktion ( ACF ) und der partiellen Autokorrelationsfunktion ( PACF ) für die Restfehler im Modell anzuzeigen.
  
  Abbildung 7. Korrelogramm
  
  In diesen Diagrammen werden die ursprünglichen Werte der Fehlervariablen (unter BUILD OPTIONS – OUTPUT ) bis zum Standardwert von 24 Zeitperioden verzögert und mit dem ursprünglichen Wert verglichen, um eine mögliche Korrelation im Zeitverlauf festzustellen. Im Idealfall sollten sich die Balken, die alle Verzögerungen von ACF und PACF darstellen, innerhalb des schattierten Bereichs befinden. In der Praxis kann es jedoch zu Verzögerungen kommen, die über den schattierten Bereich hinausgehen. Diese Situation kann beispielsweise auftreten, wenn größere Verzögerungen in das Modell aufgenommen werden sollen, um Rechenzeit zu sparen. Manche Verschiebungen sind nicht signifikant und werden aus dem Modell entfernt. Wenn Sie das Modell noch weiter verbessern möchten und es Ihnen nicht wichtig ist, ob diese Verschiebungen redundant sind oder nicht, dienen Ihnen diese Plots als Hinweis darauf, inwieweit Verschiebungen als potenzielle Prädiktoren herangezogen werden können.
  
  Sollte diese Situation eintreten, müssen Sie den unteren ( PACF- )Plot überprüfen, um zu sehen, ob die Struktur dort bestätigt wird. Der PACF-Plot untersucht Korrelationen unter Kontrolle der Zeitreihenwerte an den Zwischenzeitpunkten.
  
  Die Werte für Market_4 liegen alle innerhalb des schattierten Bereichs, sodass Sie fortfahren und die Werte für die anderen Märkte überprüfen können.
2. Schließen Sie das Market_4 Fenster.
Öffnen Sie das Korrelogramm für alle anderen Märkte und den Gesamtwert.
Die Werte für die anderen Märkte liegen alle teilweise außerhalb des schattierten Bereichs, was Ihre frühere Vermutung aufgrund der Sign ifikanzwerte bestätigt. Sie müssen irgendwann mit verschiedenen Modellen für diese Märkte experimentieren, um zu sehen, ob Sie eine bessere Passform erzielen können, aber für den Rest dieses Beispiels konzentrieren Sie sich darauf, was Sie sonst noch aus dem Market_4 Modell lernen können.
Schließen Sie die Modellfenster, um zu Ihrer Flow-Arbeitsfläche zurückzukehren.

Aufgabe 8b: Visualisieren Sie die Vorhersagen.

Befolgen Sie diese Schritte, um die Vorhersagen zu visualisieren:

Ist-Werte vs. Prognosen

Doppelklicken Sie auf den Knoten „Zeitdiagramm“, der mit dem Modell-Nugget „Zeitreihen“ verbunden ist.
Option „Display-Serie in separatem Fenster löschen“
Löschen Sie in der Serien liste alle Felder außer den Feldern Market_4$TS-Market_4 und.
Klicken Sie auf Speichern.
Bewegen Sie den Mauszeiger über den Knoten „Time Plot“ [ Market_4 $TS-Market_4 $TSLCI-Market_4 $TSUCI-Market_4 ] und klicken Sie auf das Symbol „Ausführen“.
Klicken Sie im Bereich „Ausgaben und Modelle “ auf die Ausgabeergebnisse mit den Namen [ Market_4 $TS-Market_4 $TSLCI-Market_4 $TSUCI-Market_4 ], um das Diagramm anzuzeigen. Beachten Sie, wie die Vorhersagelinie ($TS-Market_4) über das Ende der Ist-Daten hinausgeht. Es liegt nun eine Vorhersage der erwarteten Nachfrage für die nächsten drei Monate in diesem Markt vor. Die Linien für die tatsächlichen und prognostizierten Daten über die gesamte Zeitreihe liegen im Diagramm sehr nahe beieinander, was darauf hindeutet, dass dieses Modell für diese bestimmte Zeitreihe zuverlässig ist.

Abbildung 8. Zeitdiagramm der Ist-Daten und der vorhergesagten Daten für Market_4

Zeichnen Sie das Konfidenzintervall auf.

Doppelklicken Sie auf den Knoten „Time Plot“ [ Market_4 $TS-Market_4 $TSLCI-Market_4 $TSUCI-Market_4 ]. Sie verfügen über ein zuverlässiges Modell für den betreffenden Markt, aber welche Fehlermarge weist die Vorhersage auf? Sie können einen Hinweis auf die Fehlerquote erhalten, indem Sie das Konfidenzintervall untersuchen.
Löschen Sie im Abschnitt „Serie“ die Felder Market_4 $TS-Market_4 und.
Klicken Sie auf „Spalten hinzufügen “.
1. Wählen Sie die Felder $TSLCI-Market_4 $TSUCI-Market_4 und aus.
2. Klicken Sie auf OK.
Klicken Sie auf Speichern.
Bewegen Sie den Mauszeiger über den Knoten „Time Plot“ [ Market_4 $TS-Market_4 $TSLCI-Market_4 $TSUCI-Market_4 ] und klicken Sie auf das Symbol „Ausführen“.
Klicken Sie im Bereich „Ausgaben und Modelle “ auf die Ausgabeergebnisse mit den Namen [ Market_4 $TS-Market_4 $TSLCI-Market_4 $TSUCI-Market_4 ], um das Diagramm anzuzeigen. Jetzt haben Sie dieselbe Grafik wie zuvor, jedoch mit den oberen ($TSUCI) und unteren ($TSLCI) Grenzen des Konfidenzintervalls. Beachten Sie, wie die Grenzen des Konfidenzintervalls über die Vorhersageperiode divergieren, was auf zunehmende Unsicherheit hindeutet, je weiter sich die Vorhersage in die Zukunft erstreckt. Mit jedem Zeitabschnitt verfügen Sie jedoch über weitere (in diesem Fall) monatliche Ist-Verbrauchsdaten, auf denen Sie Ihre Prognose aufbauen können. In einem realen Szenario könnten Sie die neuen Daten in den Ablauf einlesen und Ihr Modell erneut anwenden, da Sie nun wissen, dass es zuverlässig ist.

Abbildung 9. Zeitdiagramm, um Konfidenzintervall ergänzt
Schließen Sie das Grafikfenster.

Checkpoint-Symbol Überprüfen Sie Ihren Fortschritt

Das folgende Bild zeigt den abgeschlossenen Ablauf.

Zurück zum Anfang

Zusammenfassung

Dieses Beispiel hat Ihnen gezeigt, wie Sie mit dem Expert Modeler Prognosen für mehrere Zeitreihen erstellen können. In einem realen Szenario können Sie nun nicht standardisierte Zeitreihendaten in ein Format umwandeln, das für die Eingabe in einen Zeitreihen -Knoten geeignet ist.

Weitere Schritte

Sie können nun andere ausprobieren SPSS Modeler Tutorials.