Qu’est-ce qu’un modèle de séries temporelles ?

Auteurs

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

Qu’est-ce qu’un modèle de séries temporelles ?

Un modèle de séries temporelles est un modèle de machine learning qui permet d’analyser des données chronologiques et de prédire leur évolution future. Les jeux de données de séries temporelles sont constitués de valeurs ordonnées dans le temps, le temps étant la variable indépendante. L’analyse des séries temporelles permet de prévoir les valeurs de données futures en fonction des valeurs précédentes dans la séquence. 

Qu’est-ce que la modélisation de séries temporelles ?

La modélisation des séries temporelles consiste à utiliser des algorithmes de machine learning et des méthodes statistiques pour analyser les points de données qui changent au cours d’une période donnée. 

Les jeux de données des séries temporelles diffèrent des autres jeux de données dans la mesure où ils ne sont pas constitués de points de données indépendants et non liés. Alors que de nombreux jeux de données sont basés sur des observations individuelles, les jeux de données des séries temporelles sont étiquetés avec des horodatages et suivent les variables dans le temps, créant des dépendances entre les points de données. Les dépendances sont des relations entre des points de données dans lesquels la valeur de l’un affecte celle de l’autre. 

Dans la modélisation univariée des séries temporelles, le temps est la seule variable indépendante. Toutes les autres variables dépendent des valeurs précédentes. La modélisation multivariée des séries temporelles introduit des variables plus indépendantes, telles que les conditions météorologiques ou les informations démographiques.

Les dernières actualités technologiques, étayées par des avis d’experts

Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Concepts clés pour la modélisation des séries temporelles

La plupart des concepts fondamentaux de la modélisation des séries temporelles sont des fonctionnalités temporelles : des aspects des données liés au temps ou dérivés du temps. Ces concepts comprennent : 

  • Autocorrélation

  • Saisonnalité

  • Stationnarité

Autocorrélation

L’autocorrélation mesure le degré de correspondance des valeurs actuelles avec les valeurs passées des données historiques d’une série temporelle. Une autocorrélation élevée signifie que l’itération actuelle d’une série temporelle correspond étroitement aux versions passées. L’autocorrélation détermine si une série temporelle se répète et peut indiquer une saisonnalité. 

L’autocorrélation peut être positive ou négative. L’autocorrélation positive signifie que les valeurs élevées conduisent à des valeurs supérieures et que les valeurs faibles conduisent à des valeurs inférieures. À l’inverse, avec l’autocorrélation négative, les valeurs élevées suivent les valeurs faibles et inversement.

Saisonnalité

La saisonnalité est une caractéristique des données de séries temporelles, montrant qu’il existe un modèle récurrent basé sur un intervalle de temps régulier, comme les changements de saisons. Par exemple, une plateforme d’e-commerce peut vendre plus de lunettes de soleil au printemps et en été et plus d’écharpes en automne et en hiver. Les ménages consomment généralement plus d’électricité pendant la journée que la nuit. 

Les variations saisonnières dépendantes du temps sont utiles pour prédire les valeurs futures avec des modèles de prévision. Les outils de visualisation de données tels que les diagrammes et les graphiques représentent la saisonnalité comme une fluctuation répétée, souvent sous la forme d’une onde sinusoïdale. 

Lors de l’analyse des données de séries temporelles, le processus de décomposition révèle toute saisonnalité présente dans les données, ainsi que les tendances et le bruit. Les tendances sont des augmentations ou des diminutions à long terme des valeurs des données, tandis que le bruit fait référence à des variations aléatoires qui ne suivent pas des schémas prévisibles. Le bruit provient souvent d’erreurs et de données aberrantes.

Stationnarité

Une série temporelle stationnaire possède des propriétés statistiques statiques, telles que la moyenne et la variance. Avec la stationnarité, les points de données peuvent fluctuer avec la saisonnalité, mais il n’y a pas de tendance plus marquée. Une série temporelle de températures mondiales moyennes annuelles modernes ne serait pas stationnaire en raison des effets du changement climatique qui font augmenter les températures. 

La stationnarité est nécessaire au fonctionnement efficace de la plupart des modèles de séries temporelles. Le test de Dickey-Fuller révèle si un jeu de données est stationnaire. Les jeux de données de séries temporelles sans stationnarité peuvent être transformés à l’aide de techniques telles que la différenciation, afin d’éliminer les tendances et d’isoler d’autres modèles, tels que la saisonnalité et l’autocorrélation.

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Modèles de séries temporelles

Lorsqu’ils abordent un défi de prévision de séries temporelles, les data scientists peuvent choisir parmi divers algorithmes de machine learning. Selon la nature du jeu de données, certains sont plus appropriés que d’autres. Les modèles à une étape prédisent le point suivant dans une série temporelle, tandis que les modèles à plusieurs étapes obtiennent plusieurs prévisions de séries temporelles. 

Voici des modèles de séries temporelles : 

  • Moyenne mobile autorégressive intégrée (ARIMA) 

  • Lissage exponentiel

  • Hétéroscédasticité conditionnelle autorégressive généralisée (GARCH) 

  • Long short-term memory (LSTM) 

Les modèles d’IA open source Prophet de Meta et DeepAR d’Amazon sont deux autres modèles d’IA conçus pour la modélisation des séries temporelles. Il est également possible d’adapter les modèles de régression linéaire pour les tâches de prévision des séries temporelles. D’autres modèles d’apprentissage supervisés tels que XGBoost et Random Forest peuvent être appliqués aux données de séries temporelles non linéaires.

Moyenne mobile autorégressive intégrée (ARIMA)

La famille de modèles ARIMA se compose de nombreux modèles de base modulaires qui peuvent être exécutés seuls ou associés à différents groupes. ARIMA est un modèle statistique qui prédit les valeurs futures basées sur des événements passés et fonctionne mieux avec les séries temporelles stationnaires qui montrent une saisonnalité. Il excelle avec les jeux de données univariés et peut également être adapté aux cas d’utilisation multivariés. 

Les configurations ARIMA incluent : 

  • L’autorégression (AR) : les modèles autorégressifs, appelés AR(p), prédisent les valeurs futures d’une variable en fonction des valeurs passées dans un terme stochastique, un terme imparfaitement prévisible. Le paramètre p indique le degré de décalage ou le nombre de points de données utilisés pour faire une prédiction. Une valeur p de 1 reviendrait à l’observation précédente de la série. 

  • La moyenne mobile (MA) : les modèles de moyenne mobile, appelés MA(q), prédisent les valeurs futures en fonction des erreurs de prévision passées. Le paramètre q est le nombre d’erreurs incluses dans la prédiction. Un modèle MA(1) intégrerait une erreur passée. 

  • L’intégration (I) : les modèles intégrés ajoutent une fonction de différenciation (d) pour rendre une série temporelle stationnaire. La différenciation remplace les valeurs de données par la différence entre les valeurs actuelles et les valeurs passées, créant ainsi une nouvelle série pour représenter la modification des valeurs. Le paramètre d indique le nombre de fois où les points de données sont différents. 

  • La moyenne mobile autorégressive (ARMA) : les modèles ARMA combinent l’autorégression avec des moyennes mobiles. Les modèles ARMA peuvent traiter des séries temporelles stationnaires et sont désignés par ARMA(p, q). 

  • La moyenne mobile intégrée autorégressive (ARIMA) : les modèles ARIMA, désignés par ARIMA(p, d, q), ajoutent une différenciation aux séries temporelles non stationnaires des modèles. 

  • La moyenne mobile intégrée autorégressive saisonnière (SARIMA) : les modèles SARIMA ajoutent une saisonnalité. Les paramètres de saisonnalité sont représentés par des lettres majuscules et le paramètre m indique la durée de la saison. Les modèles SARIMA sont appelés SARIMA(p, d, q)(P, D, Q)m et nécessitent une grande quantité de données historiques. 

  • SARIMA avec variables exogènes (SARIMAX) : les données de séries temporelles plus complexes incluent des variables en plus du temps. Les modèles SARIMAX intègrent des variables externes pour générer des prévisions plus nuancées. 

  • Autorégression vectorielle (VAR) : si l’ARIMA fonctionne mieux avec des tâches univariées, l’autorégression vectorielle (VAR) peut gérer des jeux de données multivariés. Les modèles VAR, notamment VERMA et VARMAX, peuvent faire des prévisions pour plusieurs modèles de séries temporelles en même temps.

Lissage exponentiel

Les modèles de lissage exponentiel réduisent le bruit en attribuant progressivement moins de pondération ou d’importance aux anciennes observations de la série temporelle. Les observations plus récentes sont considérées comme plus pertinentes pour réaliser des prédictions futures. Les modèles de lissage exponentiel comprennent : 

  • Lissage exponentiel simple (SES) : la forme la plus élémentaire du lissage exponentiel modifie le modèle MA pour accorder plus de pondération aux observations récentes. Comparé à un modèle de moyenne mobile simple, le SES réduit le bruit tout en conservant plus de détails. 

  • Lissage exponentiel double (DES) : la double application d’un lissage exponentiel récursif peut aider à contrer les tendances. Le DES utilise les paramètres α comme facteur de lissage des données et β comme facteur de lissage des tendances. 

  • Lissage triple exponentiel (TES) : pour les jeux de données présentant à la fois des tendances et une saisonnalité, le TES, également appelé lissage exponentiel Holt-Winters (HWES), applique un troisième temps de lissage. Le paramètre γ est le facteur de lissage saisonnier. 

  • TBATS : TBATS (trigonométrique, Box-Cox, ARMA, composants tendance et saisonniers) est un modèle de lissage exponentiel spécialisé pour les jeux de données de séries temporelles avec une saisonnalité complexe.

Hétéroscédasticité conditionnelle autorégressive généralisée (GARCH)

GARCH est un modèle spécialisé qui suit la volatilité du secteur financier. Par exemple, sur le marché boursier, la volatilité correspond au degré et à la vitesse auxquels les cours des actions fluctuent. L’hétéroscédasticité signifie que les erreurs d’un modèle de régression ne partagent pas la même variance au fil du temps. 

En science des données, les variables sont considérées comme homoscédastiques si leurs variances sont les mêmes, et hétéroscédastiques si elles ne le sont pas.

Long short-term memory (LSTM)

LSTM apporte la puissance des réseaux neuronaux d’apprentissage profond à la modélisation des séries temporelles. Un modèle LSTM est un réseau neuronal récurrent (RNN) spécialisé dans les données séquentielles, telles que les séries temporelles. Les LSTM excellent dans la capture des dépendances à longue distance : les relations entre des points de données distants dans une séquence. 

Parce qu’ils peuvent conserver plus de contexte que les autres types de modèles, les modèles LSTM fonctionnent bien dans des applications complexes, telles que le traitement automatique du langage naturel (NLP) et la reconnaissance de la parole et des images du monde réel. Ils nécessitent de grandes quantités de données d’entraînement et peuvent être construits en Python.

Indicateurs de modélisation de séries temporelles

Les indicateurs de référence, les tests et la validation permettent d’optimiser les performances du modèle, comme c’est le cas dans de nombreuses autres applications de machine learning. 

Les indicateurs de modélisation de séries temporelles incluent : 

  • Erreur quadratique moyenne (MSE) : la moyenne des carrés d’erreur à chaque horodatage. 

  • L’erreur quadratique moyenne racine (RMSE) est la racine carrée du MSE. 

  • Erreur absolue moyenne (MAE) : la moyenne des valeurs d’erreur pour chaque observation. 

  • Pourcentage d’erreur absolue moyenne (MAPE) : exprime le MAE en pourcentage afin d’illustrer l’ampleur de l’erreur. Le MAPE est également connu sous le nom d’écart absolu moyen (MAPD). Le MAPE est une fonction de perte courante pour les problèmes de régression.

Cas d’utilisation de la modélisation des séries temporelles

Les modèles de séries temporelles jouent un rôle important dans l’analyse des données, aidant les data scientists et les chefs d’entreprise à : 

  • Reconnaissance de schémas : les modèles de séries temporelles identifient les fluctuations récurrentes des données au fil du temps, comme les changements saisonniers, les cycles à long terme et les tendances générales. Par exemple, dans la mode, les ventes de T-shirts augmentent de manière saisonnière chaque printemps et chaque été. Les tendances réapparaissent et s’estompent selon des cycles de plusieurs décennies. Ainsi, les coupes surdimensionnées sont maintenant populaires comme elles l’étaient dans les années 1990. 

  • Détection des anomalies : les anomalies sont des points de données qui s’écartent du reste des points de données d’un jeu de données. Si les anomalies occasionnelles peuvent être attribuées au bruit, les quantités plus importantes de données anormales peuvent indiquer des changements inattendus, des problèmes dans le pipeline de données et des possibilités d’amélioration. 

  • Prévision : en se basant sur les données historiques, les modèles de séries temporelles peuvent prédire les futurs points de données des séries. Les entreprises peuvent utiliser ces prévisions pour prendre de meilleures décisions fondées sur les données.

Solutions connexes
Outils et solutions d’analyse

Pour prospérer, les entreprises doivent exploiter les données pour fidéliser leur clientèle, automatiser les processus métier et innover avec des solutions pilotées par l’IA.

Explorer les solutions d’analytique
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
IBM Cognos Analytics

Découvrez Cognos Analytics 12.0, des informations alimentées par l’IA pour une prise de décision plus éclairée.

Découvrir Cognos Analytics
Passez à l’étape suivante

Pour prospérer, les entreprises doivent exploiter les données pour fidéliser leur clientèle, automatiser les processus métier et innover avec des solutions pilotées par l’IA.

Explorer les solutions d’analytique Découvrir les services d’analytique