Was ist ein Zeitreihenmodell?

Autoren

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

Was ist ein Zeitreihenmodell?

Ein Zeitreihenmodell ist ein Modell des maschinellen Lernens, das sequenzielle Zeitreihendaten analysieren und zukünftige Werte vorhersagen kann. Zeitreihen-Datensätze bestehen aus nach der Zeit geordneten Datenwerten, wobei die Zeit die unabhängige Variable ist. Die Zeitreihenanalyse ermöglicht das Forecasting zukünftiger Datenwerte auf der Grundlage früherer Werte in der Sequenz. 

Was ist Zeitreihenmodellierung?

Unter Zeitreihenmodellierung versteht man die Verwendung von Algorithmen des maschinellen Lernens und statistischen Methoden zur Analyse von Datenpunkten, die sich im Laufe eines bestimmten Zeitraums ändern. 

Zeitreihen-Datensätze unterscheiden sich von anderen Datensätzen dadurch, dass sie nicht aus unabhängigen, nicht zusammenhängenden Datenpunkten bestehen. Während viele Datensätze auf einzelnen Beobachtungen basieren, sind Zeitreihen-Datensätze mit Zeitstempeln gekennzeichnet und verfolgen Variablen im Laufe der Zeit, wodurch Abhängigkeiten zwischen Datenpunkten entstehen. Abhängigkeiten sind Beziehungen zwischen Datenpunkten, bei denen der Wert eines Datenpunkts den Wert eines anderen beeinflusst. 

Bei der univariaten Zeitreihenmodellierung ist die Zeit die einzige unabhängige Variable. Alle anderen Variablen hängen von den vorherigen Werten ab. Die multivariate Zeitreihenmodellierung führt mehr unabhängige Variablen ein, wie z. B. Wetterbedingungen oder demografische Informationen.

Die neuesten Tech-News – von Experten bestätigt

Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben sich angemeldet.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Schlüsselkonzepte für die Zeitreihenmodellierung

Viele der Kernkonzepte der Zeitreihenmodellierung sind zeitliche Funktionen: Aspekte der Daten, die sich auf die Zeit beziehen oder von ihr abgeleitet werden. Zu diesen Konzepten gehören: 

  • Autokorrelation

  • Saisonalität

  • Stationarität

Autokorrelation

Die Autokorrelation misst, inwieweit aktuelle Werte mit den vergangenen Werten historischer Daten in einer Zeitreihe übereinstimmen. Hohe Autokorrelation bedeutet, dass die aktuelle Iteration einer Zeitreihe eng mit verzögerten Versionen übereinstimmt. Autokorrelation erkennt, ob sich eine Zeitreihe wiederholt und kann auf Saisonalität hinweisen. 

Die Autokorrelation kann positiv oder negativ sein. Positive Autokorrelation bedeutet, dass hohe Werte zu höheren Werten und niedrige Werte zu niedrigeren Werten führen. Negative Autokorrelation ist das Gegenteil: Hohe Werte folgen niedrigen Werten und umgekehrt.

Saisonalität

Saisonalität ist ein Merkmal von Zeitreihendaten, bei dem es ein wiederkehrendes Muster gibt, das auf einem regelmäßigen Zeitintervall basiert, wie z. B. der Wechsel der Jahreszeiten. Zum Beispiel könnte eine E-Commerce-Plattform im Frühling und Sommer mehr Sonnenbrillen und im Herbst und Winter mehr Schals verkaufen. Haushalte verbrauchen in der Regel tagsüber mehr Strom als nachts. 

Zeitabhängige saisonale Schwankungen sind nützlich, wenn es darum geht, zukünftige Werte mit Hilfe von Forecasting-Modellen vorherzusagen. Tools zur Datenvisualisierung wie Diagramme und Grafiken stellen Saisonalität als eine sich wiederholende Fluktuation dar, oft in Form einer Sinuswelle. 

Bei der Analyse von Zeitreihendaten deckt der Dekompositionsprozess etwaige Saisonalitäten in den Daten sowie Trends und Rauschen auf. Trends sind langfristige Zunahmen oder Abnahmen von Datenwerten, während sich Rauschen auf zufällige Variationen bezieht, die nicht vorhersehbaren Mustern folgen. Rauschen ist oft auf Fehler und Sonderfälle zurückzuführen.

Stationarität

Eine stationäre Zeitreihe verfügt über statische statistische Eigenschaften, wie z. B. den Mittelwert und die Varianz. Bei Stationarität können Datenpunkte saisonal bedingt schwanken. Es gibt jedoch keinen größeren Trend. Eine Zeitreihe der heutigen jährlichen globalen Durchschnittstemperaturen wäre aufgrund der Auswirkungen des Klimawandels, der zu einem Temperaturanstieg führt, nicht stationär. 

Stationarität ist notwendig, damit die meisten Zeitreihenmodelle effektiv funktionieren. Der Dickey-Fuller-Test zeigt, ob ein Datensatz stationär ist. Zeitreihen-Datensätze ohne Stationarität können mit Techniken wie Differenzierung transformiert werden, um Trends zu entfernen und andere Muster wie Saisonalität und Autokorrelation zu isolieren.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Zeitreihenmodelle

Bei der Bewältigung einer Herausforderung im Bereich der Zeitreihenprognose kann der Data Scientist aus verschiedenen maschinellen Lernalgorithmen wählen. Je nach Art des Datensatzes sind manche besser geeignet als andere. Einstufige Modelle sagen den nächsten Punkt in einer Zeitreihe voraus, während mehrstufige Modelle mehrere Zeitreihenvorhersagen liefern. 

Zu den Zeitreihenmodelltypen gehören: 

  • Autoregressiver integrierter gleitender Durchschnitt (Autoregressive integrated moving average, ARIMA) 

  • Exponentielle Glättung

  • Generalisierte autoregressive bedingte Heteroskedastizität (Generalized autoregressive conditional heteroscedasticity, GARCH) 

  • Langes Kurzzeitgedächtnis (Long Short-Term Memory, LSTM) 

Metas Open-Source-Programm Prophet und Amazons DeepAR sind zwei weitere KI-Modelle, die für die Zeitreihenmodellierung entwickelt wurden. Es ist auch möglich, lineare Regressions-Modelle für Zeitreihen-Forecasting-Aufgaben anzupassen. Andere überwachte Lernmodelle wie XGBoost und Random Forest können für nichtlineare Zeitreihendaten angewendet werden.

Autoregressiver integrierter gleitender Durchschnitt (ARIMA)

Die ARIMA-Modellfamilie besteht aus zahlreichen modularen Bausteinmodellen, die alleine oder in verschiedenen Gruppierungen kombiniert betrieben werden können. ARIMA ist ein statistisches Modell, das zukünftige Werte auf der Grundlage vergangener Ereignisse vorhersagt und am besten mit stationären Zeitreihen funktioniert, die Saisonalität zeigen. Es zeichnet sich durch univariate Datensätze aus und kann auch für multivariate Anwendungsfälle angepasst werden. 

Zu den ARIMA-Konfigurationen gehören: 

  • Autoregression (AR): Autoregressive Modelle, die als AR(p) bezeichnet werden, prognostizieren zukünftige Werte einer Variablen auf der Grundlage vergangener Werte in einem stochastischen Begriff: einer, der nicht perfekt vorhersagbar ist. Der Parameter p gibt den Grad der Verzögerung oder die Anzahl der Datenpunkte an, die für eine Vorhersage verwendet werden. Ein p-Wert von 1 würde auf die vorherige Beobachtung in der Reihe zurückgehen. 

  • Gleitender Durchschnitt (Moving average, MA): Modelle mit gleitendem Durchschnitt, bezeichnet als MA(q), sagen zukünftige Werte auf der Grundlage vergangener Vorhersagefehler voraus. Der Parameter q ist die Anzahl der Fehler, die in der Vorhersage enthalten sind. Ein MA(1)-Modell würde einen früheren Fehler enthalten. 

  • Integration (I): Integrierte Modelle fügen eine Differenzierung (d) hinzu, um eine Zeitreihe stationär zu machen. Bei der Differenzierung werden Datenwerte durch die Differenz zwischen aktuellen und früheren Werten ersetzt und eine neue Reihe erstellt, um die Änderung der Werte darzustellen. Der Parameter d gibt an, wie oft die Datenpunkte voneinander unterschieden werden. 

  • Autoregressiver gleitender Durchschnitt (Autoregressive moving average, ARMA): ARMA-Modelle kombinieren Autoregression mit gleitenden Durchschnitten. ARMA-Modelle können stationäre Zeitreihen verarbeiten und werden als ARMA(p, q) bezeichnet. 

  • Autoregressiver integrierter gleitender Durchschnitt (Autoregressive Integrated Moving Average, ARIMA): ARIMA-Modelle, bezeichnet als ARIMA(p, d, q), fügen Differenzierung zu nichtstationären Zeitreihen hinzu. 

  • Saisonaler autoregressiver integrierter gleitender Durchschnitt (Seasonal autoregressive integrated moving average, SARIMA): SARIMA-Modelle fügen Saisonalität hinzu. Die Parameter für die Saisonalität werden in Großbuchstaben dargestellt und der Parameter m gibt die Dauer der Saison an. SARIMA-Modelle werden als SARIMA(p, d, q)(P, D, Q)m bezeichnet und benötigen eine große Menge an historischen Daten. 

  • SARIMA mit exogenen Variablen (SARIMAX): Komplexere Zeitreihendaten enthalten neben der Zeit auch Variablen. SARIMAX-Modelle beziehen externe Variablen ein, um ein differenzierteres Forecasting zu erstellen. 

  • Vektorautoregression (VAR): Während ARIMA am besten mit univariaten Aufgaben funktioniert, kann die Vektorautoregression (VAR) multivariate Datensätze verarbeiten. VAR-Modelle, einschließlich VARMA und VARMAX, können Vorhersagen für mehrere Zeitreihenmodelle gleichzeitig treffen.

Exponentielle Glättung

Exponentielle Glättungsmodelle reduzieren das Rauschen, indem sie älteren Beobachtungen in der Zeitreihe schrittweise weniger Gewichtung oder Bedeutung zuweisen. Neuere Beobachtungen werden als relevanter für zukünftige Vorhersagen angesehen. Zu den exponentiellen Glättungsmodellen gehören: 

  • Einfache exponentielle Glättung (Simple exponential smoothing, SES): Die grundlegendste Form der exponentiellen Glättung verändert den MA, um den aktuellen Beobachtungen mehr Gewicht zu verleihen. Im Vergleich zu einem einfachen gleitenden Durchschnittsmodell reduziert SES das Rauschen und erhält gleichzeitig mehr Details. 

  • Doppelte exponentielle Glättung (Double exponential smoothing, DES): Die zweimalige rekursive Anwendung der exponentiellen Glättung kann helfen, Trends entgegenzuwirken. DES verwendet die Parameter α als Datenglättungsfaktor und β als Trendglättungsfaktor. 

  • Dreifache exponentielle Glättung (Triple exponential smoothing, TES): Für Datensätze mit Trends und Saisonalität wendet TES – auch bekannt als Holt-Winters exponentielle Glättung (HWES) – die Glättung ein drittes Mal an. Der Parameter γ ist der saisonale Glättungsfaktor. 

  • TBATS: TBATS (trigonometrische, Box-Cox-, ARMA-, Trend- und saisonale Komponenten) ist ein spezielles exponentielles Glättungsmodell für Zeitreihen-Datensätze mit komplexer Saisonalität.

Generalisierte autoregressive bedingte Heteroskedastizität (GARCH)

GARCH ist ein spezielles Modell, das die Volatilität im Finanzsektor verfolgt. An der Börse ist die Volatilität beispielsweise der Grad und die Geschwindigkeit, mit der die Aktienkurse schwanken. Heteroskedastizität bedeutet, dass die Fehler in einem Regressionsmodell im Laufe der Zeit nicht die gleiche Varianz aufweisen. 

In der Data Science gelten Variablen als homoskedastisch, wenn ihre Varianzen identisch sind, und als heteroskedastisch, wenn sie es nicht sind.

Langes Kurzzeitgedächtnis (LSTM)

LSTM bringt die Leistungsfähigkeit neuronaler Deep-Learning-Netze in die Zeitreihenmodellierung. Ein LSTM-Modell ist ein rekurrentes neuronales Netz (RNN), das auf sequenzielle Daten spezialisiert ist, wie zum Beispiel eine Zeitreihe. LSTMs zeichnen sich durch die Erfassung weitreichender Abhängigkeiten aus: Beziehungen zwischen entfernten Datenpunkten in einer Sequenz. 

Da sie mehr Kontext speichern können als andere Modelltypen, eignen sich LSTM-Modelle gut für komplexe Anwendungen, wie die Verarbeitung natürlicher Sprache (NLP) und die Erkennung realer Sprache und Bilder. Sie erfordern große Mengen an Trainingsdaten und können in Python erstellt werden.

Metriken zur Modellierung von Zeitreihen

Benchmarking-Metriken, Tests und Validierungen helfen, wie bei vielen anderen Anwendungen für maschinelles Lernen, die Leistung des Modells zu optimieren. 

Zu den Metriken für die Zeitreihenmodellierung gehören: 

  • Mittlerer quadratischer Fehler (Mean Squared Error, MSE): Der Durchschnitt der Quadrate des Fehlers zu jedem Zeitstempel. 

  • Quadratwurzel des mittleren quadratischen Fehlers (Root mean squared error, RMSE): Die Quadratwurzel des MSE. 

  • Mittlerer absoluter Fehler (Mean absolute error (MAE): Der Mittelwert der Fehlerwerte für jede Beobachtung. 

  • Mittlerer absoluter prozentualer Fehler (MAPE): Drückt den MAE in Prozent aus und zeigt die Größe des Fehlers an. MAPE wird auch als mittlere absolute prozentuale Abweichung (MAPD) bezeichnet. MAPE ist eine gängige Verlustfunktion für Regressionprobleme.

Anwendungsfälle für die Zeitreihenmodellierung

Zeitreihenmodelle spielen eine wichtige Rolle bei der Analyse und helfen Data Scientists und Führungskräften gleichermaßen bei folgenden Aufgaben: 

  • Mustererkennung: Zeitreihenmodelle identifizieren wiederkehrende Schwankungen in Daten im Zeitverlauf, wie z. B. saisonale Veränderungen, längerfristige Zyklen und allgemeine Trends. In der Modebranche zum Beispiel steigen die T-Shirt-Verkäufe jedes Frühjahr und im Sommer saisonal an. Modetrends tauchen wieder auf und verblassen in Zyklen von mehreren Jahrzehnten – Oversize-Passformen sind heute so beliebt wie in den 1990er Jahren. 

  • Anomalieerkennung: Anomalien sind Datenpunkte, die von den übrigen Datenpunkten in einem Datensatz abweichen. Während gelegentliche Anomalien auf Rauschen zurückzuführen sind, können größere Mengen anomaler Daten auf unerwartete Veränderungen, Probleme in der Datenpipeline und Verbesserungsmöglichkeiten hinweisen. 

  • Trend-Forecasting: Basierend auf historischen Daten können Zeitreihenmodelle zukünftige Datenpunkte in der Reihe vorhersagen. Unternehmen können diese Vorhersagen nutzen, um bessere datengesteuerte Entscheidungen zu treffen.

Weiterführende Lösungen
Analysetools und -lösungen

Um erfolgreich zu sein, müssen Unternehmen Daten nutzen, um die Kundenbindung zu stärken, Geschäftsprozesse zu automatisieren und mit KI-gestützten Lösungen Innovationen zu schaffen.

Analyselösungen entdecken
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken
IBM Cognos Analytics

Wir stellen vor: Cognos Analytics 12.0, KI-gestützte Erkenntnisse für eine bessere Entscheidungsfindung.

Cognos Analytics erkunden
Machen Sie den nächsten Schritt

Um erfolgreich zu sein, müssen Unternehmen Daten nutzen, um die Kundenbindung zu stärken, Geschäftsprozesse zu automatisieren und mit KI-gestützten Lösungen Innovationen zu schaffen.

Analyselösungen entdecken Analyse-Services entdecken