¿Qué es un modelo de serie temporal?

Autores

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

¿Qué es un modelo de serie temporal?

Un modelo de serie temporal es un modelo de machine learning que puede analizar datos de series temporales secuenciales y predecir valores futuros. Los conjuntos de datos de series temporales consisten en valores de datos ordenados a lo largo del tiempo, con el tiempo como variable independiente. El análisis de series temporales permite la previsión de valores de datos futuros basados en valores anteriores de la secuencia. 

¿Qué es el modelado de series temporales?

El modelado de series temporales es el uso de algoritmos de machine learning y métodos estadísticos para analizar puntos de datos que cambian a lo largo de un período de tiempo. 

Los conjuntos de datos de series temporales se diferencian de otros conjuntos de datos en que no consisten en puntos de datos independientes y no relacionados. Mientras que muchos conjuntos de datos se basan en observaciones individuales, los conjuntos de datos de series temporales se etiquetan con marcas de tiempo y rastrean variables a lo largo del tiempo, creando dependencias entre puntos de datos. Las dependencias son relaciones entre puntos de datos en las que el valor de uno afecta al valor de otro. 

Con el modelado de series temporales univariadas, el tiempo es la única variable independiente. Todas las demás variables dependen de los valores anteriores. El modelado de series temporales multivariante introduce variables más independientes, como las condiciones meteorológicas o la información demográfica.

Las últimas novedades sobre tecnología, respaldadas por conocimientos de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes del sector en materia de IA, automatización, datos y mucho más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Se ha suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Conceptos clave para el modelado de series temporales

Muchos de los conceptos básicos del modelado de series temporales son características temporales: aspectos de los datos relacionados o derivados del tiempo. Estos conceptos incluyen: 

  • Autocorrelación

  • Estacionalidad

  • Estacionalidad

Autocorrelación

La autocorrelación mide el grado en que los valores actuales corresponden a los valores pasados de los datos históricos en una serie temporal. Una alta autocorrelación significa que la iteración actual de una serie temporal se corresponde estrechamente con las versiones retrasadas. La autocorrelación identifica si una serie temporal se repite y puede indicar estacionalidad. 

La autocorrelación puede ser positiva o negativa. La autocorrelación positiva significa que los valores altos conducen a valores más altos y los valores bajos a valores más bajos. La autocorrelación negativa es lo contrario: los valores altos siguen a los valores bajos y viceversa.

Estacionalidad

La estacionalidad es una característica de los datos de series temporales en los que existe un patrón recurrente basado en un intervalo de tiempo regular, como el cambio de las estaciones. Por ejemplo, una plataforma de comercio electrónico podría vender más gafas de sol en primavera y verano y más bufandas en otoño e invierno. Los hogares suelen utilizar más electricidad durante el día que por la noche. 

Las variaciones estacionales dependientes del tiempo son útiles a la hora de predecir valores futuros con modelos de previsión. Las herramientas de visualización de datos, como tablas y gráficos, representan la estacionalidad como una fluctuación repetitiva, a menudo en forma de onda sinusoidal. 

Durante el análisis de datos de series temporales, el proceso de descomposición revela cualquier estacionalidad presente en los datos, así como tendencias y ruido. Las tendencias son aumentos o disminuciones a largo plazo en los valores de los datos, mientras que el ruido se refiere a variaciones aleatorias que no siguen patrones predecibles. El ruido suele deberse a errores y valores atípicos.

Estacionariedad

Una serie temporal estacionaria tiene propiedades estadísticas estáticas, como la media y la varianza. Con la estacionariedad, los puntos de datos pueden fluctuar con la estacionalidad, pero no hay una tendencia mayor. Una serie temporal de temperaturas globales medias anuales modernas no sería estacionaria debido a los efectos del cambio climático que elevan las temperaturas. 

La estacionariedad es necesaria para que la mayoría de los modelos de series temporales funcionen eficazmente. La prueba de Dickey-Fuller revela si un conjunto de datos es estacionario. Los conjuntos de datos de series temporales sin estacionariedad se pueden transformar con técnicas como la diferenciación para eliminar tendencias y aislar otros patrones, como la estacionalidad y la autocorrelación.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Modelos de series temporales

Al abordar un desafío de previsión de series temporales, los científicos de datos pueden elegir entre varios algoritmos de machine learning. Dependiendo de la naturaleza del conjunto de datos, algunos son más apropiados que otros. Los modelos de un paso predicen el siguiente punto de una serie temporal, mientras que los modelos de varios pasos producen predicciones de series temporales múltiples. 

Los tipos de modelos de series temporales incluyen: 

  • Media móvil integrada autorregresiva (ARIMA) 

  • Suavizado exponencial

  • Heterocedasticidad condicional autorregresiva generalizada (GARCH) 

  • Memoria a corto y largo plazo (LSTM) 

El Prophet de código abierto de Meta y el DeepAR de Amazon son otros dos modelos de IA creados para el modelado de series temporales. También es posible adaptar modelos de regresión lineal para tareas de previsión de series temporales. Se pueden aplicar otros modelos de aprendizaje supervisado, como XGBoost y Random Forest, para datos de series temporales no lineales.

Media móvil integrada autorregresiva (ARIMA)

La familia de modelos ARIMA consta de numerosos modelos modulares de bloques de construcción que se pueden ejecutar solos o combinados en varias agrupaciones. ARIMA es un modelo estadístico que predice valores futuros basados en eventos pasados y funciona mejor con series temporales estacionarias que muestran estacionalidad. Destaca con conjuntos de datos univariantes y también se puede adaptar para casos de uso multivariantes. 

Las configuraciones de ARIMA incluyen: 

  • Autorregresión (AR): los modelos autorregresivos, denominados AR(p), predicen los valores futuros de una variable basándose en valores pasados en un término estocástico: uno que es imperfectamente predecible. El parámetro p indica el grado de retraso o el número de puntos de datos utilizados para hacer una predicción. Un valor de p de 1 se remontaría a la observación anterior de la serie. 

  • Media móvil (MA): los modelos de media móvil, denominados MA(q), predicen valores futuros basados en errores de predicción pasados. El parámetro q es el número de errores incluidos en la predicción. Un modelo MA(1) incorporaría un error pasado. 

  • Integración (I): los modelos integrados añaden diferenciación (d) para hacer que una serie temporal sea estacionaria. La diferenciación reemplaza los valores de los datos con la diferencia entre los valores actuales y los valores pasados, creando una nueva serie para representar el cambio en los valores. El parámetro d indica el número de veces que se diferencian los puntos de datos. 

  • Media móvil autorregresiva (ARMA): los modelos ARMA combinan la autorregresión con medias móviles. Los modelos ARMA pueden procesar series temporales estacionarias y se denominan ARMA(p, q). 

  • Media móvil integrada autorregresiva (ARIMA): los modelos ARIMA, denominados ARIMA(p, d, q), añaden diferenciación para modelar series temporales no estacionarias. 

  • Media móvil integrada autorregresiva estacional (SARIMA): los modelos SARIMA añaden estacionalidad. Los parámetros de estacionalidad se representan con letras mayúsculas y el parámetro m indica la duración de la temporada. Los modelos SARIMA se denominan SARIMA(p, d, q)(P, D, Q)m y requieren una gran cantidad de datos históricos. 

  • SARIMA con variables exógenas (SARIMAX): los datos de series temporales más complejos incluyen variables además del tiempo. Los modelos SARIMAX incorporan variables externas para generar previsiones más matizadas. 

  • Autorregresión vectorial (VAR): mientras que ARIMA funciona mejor con tareas univariantes, la autorregresión vectorial (VAR) puede manejar conjuntos de datos multivariantes. Los modelos VAR, incluidos VARMA y VARMAX, pueden hacer predicciones para varios modelos de series temporales al mismo tiempo.

Suavizado exponencial

Los modelos de suavizado exponencial reducen el ruido asignando progresivamente menos peso o importancia a las observaciones más antiguas de la serie temporal. Las observaciones más recientes se consideran más relevantes para hacer predicciones futuras. Los modelos de suavizado exponencial incluyen: 

  • Suavizado exponencial simple (SES): la forma más básica de suavizado exponencial modifica MA para dar más peso a las observaciones recientes. En comparación con un modelo de media móvil sencillo, SES reduce el ruido y conserva más detalles. 

  • Suavizado exponencial doble (DES): la aplicación recursiva del suavizado exponencial dos veces puede ayudar a contrarrestar las tendencias. DES utiliza los parámetros α como factor de suavizado de datos y β como factor de suavizado de tendencias. 

  • Suavizado exponencial triple (TES): para conjuntos de datos con tendencias y estacionalidad, TES, también conocido como suavizado exponencial de Holt-Winters (HWES), aplica el suavizado por tercera vez. El parámetro γ es el factor de suavizado estacional. 

  • TBATS: TBATS (componentes trigonométricos, Box-Cox, ARMA, de tendencia y estacionales) es un modelo de suavizado exponencial especializado para conjuntos de datos de series temporales con estacionalidad compleja.

Heterocedasticidad condicional autorregresiva generalizada (GARCH)

GARCH es un modelo especializado que rastrea la volatilidad en el sector financiero. Por ejemplo, en el mercado de valores, la volatilidad es el grado y la velocidad con que fluctúan los precios de las acciones. La heterocedasticidad significa que los errores de un modelo de regresión no comparten la misma varianza a lo largo del tiempo. 

En ciencia de datos, las variables se consideran homoscedásticas si sus varianzas son las mismas y heteroscedásticas si no lo son.

Memoria a corto plazo (LSTM)

LSTM aporta el poder de las redes neuronales de deep learning al modelado de series temporales. Un modelo LSTM es una red neuronal recurrente (RNN) especializada en datos secuenciales, como una serie temporal. Los LSTM destacan en la captura de dependencias de largo alcance: relaciones entre puntos de datos distantes en una secuencia. 

Dado que pueden retener más contexto que otros tipos de modelos, los modelos LSTM funcionan bien en aplicaciones complejas, como el procesamiento del lenguaje natural (PLN) y el reconocimiento de voz e imágenes del mundo real. Requieren grandes cantidades de datos de entrenamiento y se pueden crear en Python.

Métricas de modelado de series temporales

Las métricas comparativas, las pruebas y la validación ayudan a optimizar el rendimiento del modelo, como lo hacen en muchas otras aplicaciones de machine learning. 

Las métricas de modelado de series temporales incluyen: 

  • Error cuadrático medio (MSE): el promedio de los cuadrados del error en cada marca de tiempo. 

  • Raíz del error cuadrático medio (RMSE): la raíz cuadrada del MSE. 

  • Error absoluto medio (MAE): la media de los valores de error para cada observación. 

  • Error porcentual absoluto medio (MAPE): expresa el MAE como un porcentaje, mostrando la magnitud del error. MAPE también se conoce como desviación porcentual absoluta media (MAPD). MAPE es una función de pérdida común para problemas de regresión.

Casos de uso de modelado de series temporales

Los modelos de series temporales desempeñan un papel importante en el análisis de datos, ayudando tanto a los científicos de datos como a los líderes empresariales con: 

  • Reconocimiento de patrones: los modelos de series temporales identifican fluctuaciones recurrentes en los datos a lo largo del tiempo, como cambios estacionales, ciclos a largo plazo y tendencias generales. Por ejemplo, en la moda, las ventas de camisetas aumentan estacionalmente cada primavera y verano. Las tendencias de la moda reaparecen y se desvanecen en ciclos de varias décadas: los cortes extragrandes son ahora populares como lo fueron en la década de 1990. 

  • Detección de anomalías: las anomalías son puntos de datos que se desvían del resto de los puntos de datos de un conjunto de datos. Aunque las anomalías ocasionales pueden atribuirse al ruido, grandes cantidades de datos anómalos pueden indicar cambios inesperados, problemas en la canalización de datos y oportunidades de mejora. 

  • Previsión de tendencias: basándose en datos históricos, los modelos de series temporales pueden predecir futuros puntos de datos en la serie. Las organizaciones pueden utilizar estas predicciones para tomar mejores decisiones basadas en datos.

Soluciones relacionadas
Herramientas y soluciones analíticas

Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.

Explore soluciones analíticas
Servicios de asesoramiento sobre datos y análisis

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por conocimientos que ofrezca ventajas empresariales.

Descubra los servicios de análisis
IBM Cognos Analytics

Presentamos Cognos Analytics 12.0: conocimientos potenciados por IA para una mejor toma de decisiones.

Explore Cognos Analytics
Dé el siguiente paso

Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.

Explore soluciones analíticas Descubra los servicios de análisis