Autokorrelation bietet Datenanalyse für Zeitreihendaten und Modellierung. Es wird häufig in der Ökonometrie, der Signalverarbeitung und der Nachfrageprognose eingesetzt.
Autokorrelation oder serielle Korrelation analysieren Zeitreihendaten, um nach Korrelationen von Werten an verschiedenen Punkten in einer Zeitreihe zu suchen. Diese wichtige Analysemethode misst, wie ein Wert mit sich selbst korreliert. Anstatt den Korrelationskoeffizienten zwischen verschiedenen Variablen zu berechnen, wie z. B. zwischen X1 und X2, berechnen wir den Grad der Korrelation einer Variable selbst in den einzelnen Zeitschritten des Datensatzes. Bei der Erstellung eines linearen Regressionsmodells ist eine der wichtigsten Annahmen, dass die Fehler bei der Vorhersage der unabhängigen Variablen in diesem Modell unabhängig sind. Bei der Arbeit mit Zeitreihendaten stoßen Sie häufig auf Fehler, die zeitabhängig sind. Das heißt, die Abhängigkeit in den Fehlern erscheint aufgrund einer zeitlichen Komponente. Über die Zeit korrelierte Fehlerterme werden als autokorrelierte Fehler bezeichnet. Diese Fehler verursachen Probleme bei einigen der gängigeren Methoden zur Erstellung einer linearen Regression, wie z. B. der gewöhnlichen Methode der kleinsten Quadrate. Der Weg, um diese Probleme zu lösen, besteht darin, die abhängige Variable auf sich selbst zu regressieren und dabei die durch einen Autokorrelationstest ermittelten Zeitverzögerungen zu verwenden. Die „Verzögerung“ ist einfach ein früherer Wert der abhängigen Variable.„ Wenn Sie über monatliche Daten verfügen und den kommenden Monat vorhersagen möchten, können Sie die Werte der beiden Vormonate als Eingabe verwenden. Dies bedeutet, dass Sie die beiden vorherigen Verzögerungen auf den aktuellen Wert zurückführen.
Genauso wie die Korrelation eine lineare Beziehung zwischen zwei Variablen misst, misst die Autokorrelation die Beziehung zwischen verzögerten Werten einer Zeitreihe durch ein lineares Modell. Wenn Daten einen Trend aufweisen, sind die Autokorrelationen für kleine Verzögerungen in der Regel groß und positiv, da zeitlich nahe liegende Beobachtungen auch im Wert nah beieinander liegen. Die Autokorrelationsfunktion, oft auch ACF (Auto Correlation Function) genannt, einer Trendzeitreihe neigt also dazu, positive Werte zu haben, die mit zunehmender Verzögerung langsam abnehmen.
Wenn Daten saisonale Schwankungen oder Muster aufweisen, sind die Autokorrelationen für die saisonalen Verzögerungen (bei einem Vielfachen des saisonalen Zeitraums) größer als für andere Verzögerungen. Wenn die Daten sowohl trend- als auch saisonabhängig sind, sehen Sie eine Kombination dieser Effekte. Zeitreihen, die keine Autokorrelation aufweisen, sind echte Zufallsprozesse und werden als weißes Rauschen bezeichnet. Der ACF ist ein Korrelationskoeffizient zwischen zwei Werten in einer Zeitreihe.
Es gibt einige wichtige Methoden, um eine Autokorrelation zu testen:
Sie können die Residuen berechnen und diese Standardfehler zum Zeitpunkt t, gewöhnlich geschrieben als et, gegen t darstellen. Cluster von Residuen, die auf einer Seite der Nulllinie liegen, können darauf hinweisen, dass Autokorrelationen existieren und signifikant sind.
Mit Hilfe eines Durbin-Watson-Tests können Sie feststellen, ob eine Zeitreihe eine Autokorrelation enthält. Um dies in R zu tun, erstellen Sie eine lineare Regression, die die abhängige Variable auf die Zeit regressiert, und übergeben dieses Modell dann zur Berechnung der Durbin-Watson-Statistik. Um dies in Python zu tun, können Sie die Residuen aus einem angepassten linearen Regressionsmodell an den Test übergeben.
Eine andere Möglichkeit ist, einen Ljung-Box-Test zu verwenden und die Werte der Zeitreihe direkt an den Test zu übergeben. Der Ljung-Box-Test hat die Nullhypothese, dass die Residuen unabhängig verteilt sind, und die Alternativhypothese, dass die Residuen nicht unabhängig verteilt sind und eine Autokorrelation aufweisen. In der Praxis bedeutet dies, dass Ergebnisse, die kleiner als 0,05 sind, darauf hinweisen, dass in den Zeitreihen eine Autokorrelation besteht. Sowohl mit Python- als auch R-Bibliotheken kann dieser Test ausgeführt werden.
Die gebräuchlichste Option ist die Verwendung einer Korrelationsdiagramm-Visualisierung, die aus den Korrelationen zwischen bestimmten Verzögerungen in der Zeitreihe erstellt wird. Ein Muster in den Ergebnissen ist ein Hinweis auf Autokorrelation. Dies wird grafisch dargestellt, indem gezeigt wird, wie stark die verschiedenen Verzögerungen in der Zeitreihe miteinander korrelieren. Nachfolgend sehen Sie ein Beispieldiagramm:
Nicht zufällige Daten weisen mindestens eine signifikante Verzögerung auf. Wenn die Daten nicht zufällig sind, ist das ein guter Hinweis darauf, dass Sie eine Zeitreihenanalyse verwenden oder Verzögerungen in eine Regressionsanalyse einbauen müssen, um die Daten angemessen zu modellieren.
Es gibt grundlegende Merkmale einer Zeitreihe, die durch Autokorrelation identifiziert werden können.
Eine stationäre Zeitreihe hat statistische Eigenschaften, die im Laufe der Zeit konstant sind. Das bedeutet, dass sich Statistiken wie der Mittelwert, die Varianz und die Autokorrelation nicht über die Daten hinweg verändern. Die meisten statistischen Prognosemethoden, einschließlich ARMA und ARIMA, beruhen auf der Annahme, dass die Zeitreihe durch eine oder mehrere Transformationen annähernd stationär gemacht werden kann. Eine stationäre Serie ist vergleichsweise einfach vorherzusagen, da Sie einfach voraussagen können, dass die statistischen Eigenschaften in der Zukunft in etwa gleich sein werden wie in der Vergangenheit. Stationarität bedeutet, dass die Zeitreihe keinen Trend aufweist, eine konstante Varianz, ein konstantes Autokorrelationsmuster und kein saisonales Muster aufweist. Der ACF sinkt bei einer stationären Zeitreihe schnell auf nahezu Null. Im Gegensatz dazu fällt der ACF bei einer nicht-stationären Zeitreihe langsam ab.
Ein Hauptmerkmal von Zeitreihendaten ist, ob ein Trend in den Daten vorhanden ist. Zum Beispiel würden die Preise für Grundnahrungsmittel in einem Lebensmittelgeschäft der letzten 50 Jahre einen Trend aufweisen, da die Inflation diese Preise nach oben treibt. Die Vorhersage von Daten, die Trends enthalten, kann schwierig sein, weil der Trend die anderen Muster in den Daten verdeckt. Wenn die Daten eine stabile Trendlinie aufweisen, zu der sie immer wieder zurückkehren, kann es sich um einen stationären Trend handeln. In diesem Fall kann der Trend entfernt werden, indem einfach eine Trendlinie angepasst und der Trend von den Daten subtrahiert wird, bevor ein Modell daran angepasst wird. Wenn die Daten nicht trend-stationär sind, dann sind sie möglicherweise differenz-stationär. In diesem Fall kann der Trend durch Differenzierung entfernt werden. Die einfachste Art der Differenzierung besteht darin, den vorherigen Wert von jedem Wert zu subtrahieren, um ein Maß dafür zu erhalten, wie viel Veränderung in den Zeitreihendaten vorhanden ist. Wenn also zum Beispiel Yt der Wert der Zeitreihe Y in der Periode t ist, dann ist die erste Differenz von Y in Periode t gleich Yt - Yt-1. Wenn in einer Zeitreihe Trends vorhanden sind, weisen kürzere Verzögerungen in der Regel starke positive Korrelationswerte oder starke negative Korrelationswerte im ACF auf, da Beobachtungen, die zeitlich näher beieinander liegen, tendenziell ähnliche Werte aufweisen. Die Korrelationen im ACF werden mit zunehmenden Verzögerungen langsam abnehmen.
Von Saisonalität spricht man, wenn eine Zeitreihe saisonale Schwankungen oder Veränderungen enthält. Wahrscheinlich sollten wir erwarten, dass die Eisverkäufe in den Sommermonaten höher und in den Wintermonaten niedriger sind, während die Skiverkäufe im Spätherbst zuverlässig ansteigen und im Frühsommer sinken. Saisonalität kann in verschiedenen Zeitintervallen wie Tagen, Wochen oder Monaten auftreten. Der Schlüssel zur Zeitreihenanalyse liegt darin, zu verstehen, wie sich die Saisonalität auf unsere Reihen auswirkt, sodass wir bessere Prognosen für die Zukunft erstellen können. Wenn saisonale Muster vorhanden sind, zeigen die ACF-Werte für Verzögerungen mit einem Vielfachen der saisonalen Frequenz eine positivere Autokorrelation als für andere Verzögerungen.
Die Partielle Autokorrelationsfunktion, oft auch PACF genannt, ähnelt der ACF, mit dem Unterschied, dass sie nur die Korrelation zwischen zwei Beobachtungen anzeigt, die durch die kürzeren Lags zwischen diesen Beobachtungen nicht erklärt werden kann. Eine ACF-Darstellung zeigt die Beziehung zwischen yt und yt-k für verschiedene Werte von k. Wenn yt und yt-1 miteinander korreliert sind, dann können wir davon ausgehen, dass yt-1 und yt-2 ebenfalls korreliert sind, da sie beide mit einer Verzögerung von 1 verbunden sind. Es ist jedoch auch möglich, dass yt und yt-2 einfach deshalb korreliert sind, weil sie beide mit yt-1 verbunden sind, und nicht, weil in yt-2 neue Informationen enthalten sind, die bei der Vorhersage von yt genutzt werden könnten. Um dieses Problem zu umgehen, verwenden wir partielle Autokorrelationen, um eine Reihe von Verzögerungsbeobachtungen zu entfernen. Der PACF misst nur die Beziehung zwischen yt und yt−k durch Entfernen der Auswirkungen von Verzögerungen 1 bis k. Die erste partielle Autokorrelation ist immer identisch mit der ersten Autokorrelation, da keine neuen Daten dazwischen liegen, die entfernt werden könnten. Alle nachfolgenden Verzögerungen zeigen nur die Beziehung zwischen den Verzögerungen, nachdem alle dazwischen liegenden Verzögerungen entfernt wurden. Dies kann oft eine präzisere Schätzung darüber liefern, welche Lags Hinweise auf Saisonalität enthalten könnten, indem man beobachtet, wo es größere Werte positiver oder negativer Autokorrelation gibt.
In der Praxis hilft der ACF bei der Bewertung der Eigenschaften einer Zeitreihe. Der PACF hingegen ist während des Spezifikationsprozesses für ein autoregressives Modell nützlicher. Data Scientists oder Analysten verwenden partielle Autokorrelationsdiagramme, um Regressionsmodelle mit Zeitreihendaten, Auto Regressive Moving Average (ARMA) oder Auto Regressive Integrated Moving Average (ARIMA) Modelle zu spezifizieren.
Erhalten Sie einzigartige Einblicke in die sich entwickelnde Geschäftswelt der ABI-Lösungen und hebt die wichtigsten Ergebnisse, Annahmen und Empfehlungen für Führungskräfte im Bereich Daten und Analysen hervor.
Vereinfachen Sie den Datenzugriff und automatisieren Sie die Data Governance. Entdecken Sie die Vorteile einer Data-Lakehouse-Strategie für Ihre Datenarchitektur, einschließlich der Kostenoptimierung Ihrer Workloads und der Skalierung von KI und Analysen, mit all Ihren Daten, überall.
Erkunden Sie den Leitfaden für Datenexperten zum Aufbau eines datengestützten Unternehmens und zur Förderung von geschäftlichen Vorteilen.
Erfahren Sie, wie ein offener Data-Lakehouse-Ansatz vertrauenswürdige Daten und eine schnellere Durchführung von Analysen und KI-Projekten ermöglichen kann.
Mit diesen vier Schritten verknüpfen Sie Ihre Daten- und Analysestrategie mit Ihren Geschäftszielen.
Erfahren Sie mehr darüber, warum Herausforderungen im Bereich Business Intelligence weiterhin bestehen könnten und was dies für die Nutzer in einem Unternehmen bedeutet.
Um erfolgreich zu sein, müssen Unternehmen Daten nutzen, um die Kundenbindung zu stärken, Geschäftsprozesse zu automatisieren und mit KI-gestützten Lösungen Innovationen zu schaffen.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.
Wir stellen vor: Cognos Analytics 12.0, KI-gestützte Erkenntnisse für eine bessere Entscheidungsfindung.