¿Qué es un modelo de series temporales?

Autores

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

¿Qué es un modelo de series temporales?

Un modelo de series temporales es un modelo de machine learning que puede analizar datos de series temporales secuenciales y predecir valores futuros. Los conjuntos de datos de series temporales consisten en valores de datos ordenados a lo largo del tiempo, con el tiempo como variable independiente. El análisis de series temporales permite el forecasting de valores de datos futuros basados en valores anteriores de la secuencia. 

¿Qué es el modelado de series temporales?

El modelado de series temporales es el uso de algoritmos de machine learning y métodos estadísticos para analizar puntos de datos que cambian a lo largo de un período de tiempo. 

Los conjuntos de datos de series temporales se diferencian de otros conjuntos de datos en que no consisten en puntos de datos independientes y no relacionados. Mientras que muchos conjuntos de datos se basan en observaciones individuales, los conjuntos de datos de series temporales se etiquetan con marcas de tiempo y rastrean variables a lo largo del tiempo, creando dependencias entre puntos de datos. Las dependencias son relaciones entre puntos de datos en las que el valor de uno afecta el valor de otro. 

Con el modelado de series temporales univariantes, el tiempo es la única variable independiente. Todas las demás variables dependen de los valores anteriores. El modelado de series temporales multivariante introduce variables más independientes, como las condiciones meteorológicas o la información demográfica.

Las últimas noticias tecnológicas, respaldadas por los insights de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Conceptos clave para el modelado de series temporales

Muchos de los conceptos centrales del modelado de series temporales son características temporales: aspectos de los datos relacionados o derivados del tiempo. Estos conceptos incluyen: 

  • Autocorrelación

  • Estacionalidad

  • Estacionariedad

Autocorrelación

La autocorrelación mide el grado en que los valores actuales corresponden a los valores pasados de los datos históricos en una serie temporal. Una alta autocorrelación significa que la iteración actual de una serie temporal se correlaciona estrechamente con las versiones retrasadas. La autocorrelación identifica si una serie temporal se repite y puede indicar estacionalidad. 

La autocorrelación puede ser positiva o negativa. La autocorrelación positiva significa que los valores altos conducen a valores más altos y los valores bajos conducen a valores más bajos. La autocorrelación negativa es lo contrario: los valores altos siguen a los valores bajos y viceversa.

Estacionalidad

La estacionalidad es una característica de los datos de series temporales en los que existe un patrón recurrente basado en un intervalo de tiempo regular, como el cambio de las estaciones. Por ejemplo, una plataforma de comercio electrónico podría vender más gafas de sol en primavera y verano y más bufandas en otoño e invierno. Los hogares suelen utilizar más electricidad durante el día que por la noche. 

Las variaciones estacionales dependientes del tiempo son útiles al predecir valores futuros con modelos de forecasting. Las herramientas de visualización de datos , como tablas y gráficos, representan la estacionalidad como una fluctuación repetitiva, a menudo en forma de onda sinusoidal. 

Durante el análisis de datos de series temporales, el proceso de descomposición revela cualquier estacionalidad presente en los datos, así como tendencias y ruido. Las tendencias son aumentos o disminuciones a largo plazo en los valores de los datos, mientras que el ruido se refiere a variaciones aleatorias que no siguen patrones predecibles. El ruido a menudo proviene de errores y valores atípicos.

Estacionariedad

Una serie temporal estacionaria tiene propiedades estadísticas estáticas, como la media y la varianza. Con la estacionariedad, los puntos de datos pueden fluctuar con la estacionalidad, pero no hay una tendencia mayor. Una serie temporal de temperaturas globales promedio anuales modernas no sería estacionaria debido a los efectos del cambio climático que elevan las temperaturas. 

La estacionariedad es necesaria para que la mayoría de los modelos de series temporales funcionen de manera efectiva. La prueba de Dickey-Fuller revela si un conjunto de datos es estacionario. Los conjuntos de datos de series temporales sin estacionariedad se pueden transformar con técnicas como la diferenciación para eliminar tendencias y aislar otros patrones, como la estacionalidad y la autocorrelación.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Modelos de series temporales

Al abordar un desafío de forecasting de series temporales, los científicos de datos pueden elegir entre varios algoritmos de machine learning. Dependiendo de la naturaleza del conjunto de datos, algunos son más apropiados que otros. Los modelos de un solo paso predicen el siguiente punto en una serie temporal, mientras que los modelos de varios pasos producen múltiples predicciones de series temporales. 

Los tipos de modelos de series temporales incluyen: 

  • Media móvil integrada autorregresiva (ARIMA) 

  • Suavizado exponencial

  • Heterocedasticidad condicional autorregresiva generalizada (GARCH) 

  • Memoria a corto y largo plazo (LSTM) 

Prophet de código abierto de Meta y DeepAR de Amazon son otros dos modelos de IA creados para el modelado de series temporales. También es posible adaptar modelos de regresión lineal para tareas de forecasting de series temporales. Se pueden aplicar otros modelos de aprendizaje supervisado, como XGBoost y bosque aleatorio, para datos de series temporales no lineales.

Media móvil integrada autorregresiva (ARIMA)

La familia de modelos ARIMA consta de numerosos modelos modulares de bloques de construcción que se pueden ejecutar solos o combinados en varios grupos. ARIMA es un modelo estadístico que predice valores futuros basados en eventos pasados y funciona mejor con series temporales estacionarias que muestran estacionalidad. Se destaca con conjuntos de datos univariantes y también se puede adaptar para casos de uso multivariantes. 

Las configuraciones de ARIMA incluyen: 

  • Autorregresión (AR): los modelos autorregresivos, denominados AR(p), predicen valores futuros de una variable basados en valores pasados en un término estocástico: uno que es imperfectamente predecible. El parámetro p indica el grado de retraso o el número de puntos de datos utilizados para hacer una predicción. Un valor p de 1 se remontaría a la observación anterior de la serie. 

  • Media móvil (MA): los modelos de media móvil, denominados MA(q), predicen valores futuros basados en errores de predicción pasados. El parámetro q es el número de errores incluidos en la predicción. Un modelo MA(1) incorporaría un error pasado. 

  • Integración (I): los modelos integrados agregan diferenciación (d) para hacer que una serie temporal sea estacionaria. La diferenciación reemplaza los valores de los datos con la diferencia entre los valores actuales y los valores pasados, creando una nueva serie para representar el cambio en los valores. El parámetro d indica el número de veces que se diferencian los puntos de datos. 

  • Media móvil autorregresiva (ARMA): los modelos ARMA combinan la autorregresión con medias móviles. Los modelos ARMA pueden procesar series temporales estacionarias y se denominan ARMA(p, q). 

  • Media móvil integrada autorregresiva (ARIMA): los modelos ARIMA, denominados ARIMA(p, d, q), agregan diferenciación para modelar series temporales no estacionarias. 

  • Media móvil integrada autorregresiva estacional (SARIMA): los modelos SARIMA agregan estacionalidad. Los parámetros de estacionalidad se representan con letras mayúsculas y el parámetro m indica la duración de la estación. Los modelos SARIMA se denominan SARIMA(p, d, q)(P, D, Q)m y requieren una gran cantidad de datos históricos. 

  • SARIMA con variables exógenas (SARIMAX): los datos de series temporales más complejos incluyen variables además del tiempo. Los modelos SARIMAX incorporan variables externas para generar pronósticos más matizados. 

  • Autorregresión vectorial (VAR): mientras que ARIMA funciona mejor con tareas univariantes, la autorregresión vectorial (VAR) puede manejar conjuntos de datos multivariantes. Los modelos VAR, incluidos VARMA y VARMAX, pueden hacer predicciones para múltiples modelos de series temporales al mismo tiempo.

Suavizado exponencial

Los modelos de suavizado exponencial reducen el ruido al asignar progresivamente menos peso o importancia a las observaciones más antiguas en la serie temporal. Las observaciones más recientes se consideran más relevantes para hacer predicciones futuras. Los modelos de suavizado exponencial incluyen: 

  • Suavizado exponencial simple (SES): la forma más básica de suavizado exponencial modifica MA para dar más peso a las observaciones recientes. En comparación con un modelo de media móvil sencillo, SES reduce el ruido y conserva más detalles. 

  • Suavizado exponencial doble (DES): la aplicación recursiva del suavizado exponencial dos veces puede ayudar a contrarrestar las tendencias. DES utiliza los parámetros α como factor de suavizado de datos y β como factor de suavizado de tendencias. 

  • Suavizado exponencial triple (TES): para conjuntos de datos con tendencias y estacionalidad, TES, también conocido como suavizado exponencial de Holt-Winters (HWES), aplica el suavizado por tercera vez. El parámetro γ es el factor de suavizado estacional. 

  • TBATS: TBATS (componentes trigonométricos, Box-Cox, ARMA, de tendencia y estacionales) es un modelo de suavizado exponencial especializado para conjuntos de datos de series temporales con estacionalidad compleja.

Heterocedasticidad condicional autorregresiva generalizada (GARCH)

GARCH es un modelo especializado que rastrea la volatilidad en el sector financiero. Por ejemplo, en el mercado de valores, la volatilidad es el grado y la velocidad con que fluctúan los precios de las acciones. La heterocedasticidad significa que los errores en un modelo de regresión no comparten la misma varianza a lo largo del tiempo. 

En la ciencia de datos, las variables se consideran homoscedásticas si sus varianzas son las mismas y heteroscedásticas si no lo son.

Memoria a corto y largo plazo (LSTM)

LSTM aporta el poder de las redes neuronales de aprendizaje profundo al modelado de series temporales. Un modelo LSTM es una red neuronal recurrente (RNN) especializada en datos secuenciales, como una serie temporal. Los LSTM se destacan en la captura de dependencias de largo alcance: relaciones entre puntos de datos distantes en una secuencia. 

Debido a que pueden retener más contexto que otros tipos de modelos, los modelos LSTM funcionan bien en aplicaciones complejas, como el procesamiento de lenguaje natural (PLN) y el reconocimiento de voz e imágenes del mundo real. Requieren grandes cantidades de datos de entrenamiento y se pueden crear en Python.

Métricas de modelado de series temporales

Las métricas de evaluación comparativa, las pruebas y la validación ayudan a optimizar el rendimiento del modelo, como lo hacen en muchas otras aplicaciones de machine learning. 

Las métricas de modelado de series temporales incluyen: 

  • Error cuadrático medio (MSE): el promedio de los cuadrados del error en cada marca de tiempo. 

  • Raíz del error cuadrático medio (RMSE): la raíz cuadrada del MSE. 

  • Error absoluto medio (MAE): la media de los valores de error para cada observación. 

  • Error porcentual absoluto medio (MAPE): expresa el MAE como un porcentaje, mostrando la magnitud del error. MAPE también se conoce como desviación porcentual absoluta media (MAPD). MAPE es una función de pérdida común para problemas de regresión.

Casos de uso de modelado de series temporales

Los modelos de series temporales desempeñan un papel importante en analytics, ayudando tanto a científicos de datos como a líderes empresariales con: 

  • Reconocimiento de patrones: los modelos de series temporales identifican fluctuaciones recurrentes en los datos a lo largo del tiempo, como cambios estacionales, ciclos a largo plazo y tendencias generales. Por ejemplo, en la moda, las ventas de camisetas aumentan estacionalmente cada primavera y verano. Las tendencias de la moda reaparecen y se desvanecen en ciclos de varias décadas: los cortes extragrandes ahora son populares como en la década de 1990. 

  • Detección de anomalías: las anomalías son puntos de datos que se desvían del resto de los puntos de datos de un conjunto de datos. Si bien las anomalías ocasionales pueden atribuirse al ruido, grandes cantidades de datos anómalos pueden indicar cambios inesperados, problemas en el pipeline de datos y oportunidades de mejora. 

  • Forecasting: con base en datos históricos, los modelos de series temporales pueden predecir puntos de datos futuros en la serie. Las organizaciones pueden utilizar estas predicciones para tomar mejores decisiones basadas en datos.

Soluciones relacionadas
Herramientas y soluciones de analytics

Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.

Explorar las soluciones de analytics
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
IBM Cognos Analytics

Presentamos Cognos Analytics 12.0: insights impulsados por IA para una mejor toma de decisiones.

Explorar Cognos Analytics
Dé el siguiente paso

Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.

Explorar las soluciones de analytics Descubra los servicios de analytics