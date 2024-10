L’autocorrélation, ou corrélation en série, analyse les données de séries temporelles pour rechercher des corrélations dans les valeurs à différents points d’une série temporelle. Cette méthode d’analyse clé mesure la corrélation d’une valeur avec elle-même. Au lieu de calculer le coefficient de corrélation entre différentes variables, comme X1 et X2, nous calculons le degré de corrélation d’une variable elle-même au niveau des intervalles temporels dans le jeu de données. Lors de la création d’un modèle de régression linéaire, l’une des principales hypothèses émet que les erreurs de prédiction de la variable indépendante dans ce modèle sont indépendantes. Souvent, lorsque vous travaillez avec des données de séries temporelles, vous trouverez des erreurs qui dépendent du temps. C’est-à-dire que la dépendance dans les erreurs apparaît en raison d’un composant temporel. Les termes d’erreur corrélés dans le temps sont des erreurs autocorrélées. Ces erreurs posent des problèmes avec certaines des méthodes les plus courantes de création d’une régression linéaire, comme les moindres carrés ordinaires. Pour résoudre ces problèmes, il convient de faire régresser la variable dépendante sur elle-même en utilisant les décalages temporels identifiés par un test d’autocorrélation. Le « décalage » est en réalité une valeur précédente de la variable dépendante. Si vous disposez de données mensuelles et que vous souhaitez prédire le mois à venir, vous pouvez utiliser les valeurs des deux mois précédents comme entrée. Cela signifie que vous régressez les deux décalages précédents sur la valeur actuelle.

De la même manière que la corrélation mesure une relation linéaire entre deux variables, l’autocorrélation mesure la relation entre les valeurs décalées d’une série temporelle par le biais d’un modèle linéaire. Lorsque les données suivent une tendance, les autocorrélations pour les légers décalages ont tendance à être importantes et positives, car les observations effectuées à proximité dans le temps ont également une valeur proche. Ainsi, la fonction d’autocorrélation, souvent appelée ACF, d’une série temporelle tendancielle est susceptible de démontrer des valeurs positives qui diminuent lentement au fur et à mesure que les décalages augmentent.

Lorsque les données présentent des fluctuations ou des schémas saisonniers, les autocorrélations sont plus importantes pour les décalages saisonniers (aux multiples de la période saisonnière) que pour les autres décalages. Lorsque les données sont tendancielles et saisonnières, vous constatez une combinaison de ces effets. Les séries temporelles qui ne présentent aucune autocorrélation sont des processus véritablement aléatoires et sont appelées « bruits blancs ». L’ACF est un coefficient de corrélation entre deux valeurs d’une série temporelle.

Il existe plusieurs façons de tester l’autocorrélation :

Vous pouvez calculer les valeurs résiduelles et représenter graphiquement ces erreurs standard au temps t, généralement écrits sous la forme et, par rapport à t. Tous les regroupements de valeurs résiduelles qui se trouvent d’un côté de la ligne zéro peuvent indiquer où se trouvent les autocorrélations et où elles sont significatives.

L’exécution d’un test de Durbin-Watson peut aider à déterminer si une série temporelle contient une autocorrélation. Pour le réaliser en R, créez une régression linéaire qui fait régresser la variable dépendante sur le temps, puis passez ce modèle pour calculer la statistique de Durbin-Watson. Pour le réaliser en Python, vous pouvez passer les résidus d’un modèle de régression linéaire ajusté au test.

Une autre option consiste à utiliser un test de Ljung Box et à lui transmettre directement les valeurs de la série temporelle. Le test de Ljung-Box repose sur l’hypothèse nulle selon laquelle les valeurs résiduelles sont distribuées indépendamment, et sur l’hypothèse alternative selon laquelle les valeurs résiduelles ne sont pas distribuées indépendamment et présentent une autocorrélation. Cela signifie qu’en pratique, les résultats inférieurs à 0,05 indiquent l’existence d’une autocorrélation dans la série temporelle. Les bibliothèques Python et R fournissent des méthodes pour exécuter ce test.

L’option la plus courante consiste à utiliser une visualisation de corrélogramme générée à partir de corrélations entre des décalages spécifiques dans la série temporelle. Un schéma dans les résultats indique une autocorrélation. Elle est représentée en montrant la corrélation des différents décalages au sein des séries temporelles. En voici un exemple :