Qué es un modelo autorregresivo

Autores

Data Scientist

¿Qué es un modelo autorregresivo?

El modelado autorregresivo es una técnica de machine learning utilizada con mayor frecuencia para el análisis y la previsión de series temporales que utiliza uno o más valores de pasos temporales anteriores de una serie temporal para crear una regresión.

Se trata de una técnica sencilla pero potente para el análisis de series temporales que proporciona predicciones altamente interpretables y eficaces si sus datos contienen correlaciones a lo largo de los pasos temporales. La correlación entre pasos de tiempo se denomina autocorrelación porque es una medida de cuánto se correlaciona un valor consigo mismo. Un proceso puramente lineal se autocorrelacionará perfectamente consigo mismo a lo largo de la serie temporal, lo que permite predecir exactamente el valor siguiente a partir de los valores anteriores mediante un proceso autorregresivo. Un proceso completamente estocástico como el ruido blanco no tendrá autocorrelación, ya que no podemos predecir los valores actuales o futuros utilizando los valores pasados.

Una serie temporal es una secuencia de mediciones de la misma variable o grupo de variables realizadas a lo largo del tiempo. Las mediciones normalmente se realizan en momentos de intervalos regulares, por ejemplo, cada hora, mes o año. A modo de ejemplo, podríamos tener valores que midan el número de pasajeros de aerolíneas en un país, con mediciones observadas cada mes. En este caso, y representa el número de pasajeros medidos y enfatiza la existencia de valores medidos a lo largo del tiempo. El valor de t se aplica como subíndice en lugar del i habitual para indicar que y_t representa el valor de y en cualquier momento.

Un modelo autorregresivo es cuando hacemos una regresión de un valor de una serie temporal con valores anteriores de esa misma serie temporal. Por ejemplo, la regresión de y_t sobre y_t-1 utiliza el valor anterior de y, denominado valor rezagado, para predecir el valor actual de y. En este modelo de regresión simple, la variable dependiente del período anterior se convierte en el predictor. Los errores representan todas las suposiciones habituales sobre los errores en un modelo de regresión lineal simple. A menudo vemos el orden de una autorregresión como el número de valores anteriores de la serie que se utilizan para predecir el valor ahora. Así que, la regresión de y_t sobre y_t-1 es una autorregresión de primer orden, que se escribe AR(1).

Definiciones de autorregresión

En una regresión lineal múltiple, el resultado de la regresión es una combinación lineal de múltiples variables de entrada. En los modelos de autoregresión, el resultado es el punto de datos futuro expresado como una combinación lineal de los p puntos de datos pasados. p es el número de rezagos incluidos en la ecuación. Un modelo AR(1) se define matemáticamente como:

$x_{t} = δ + ϕ_{1} x_{t - 1} + α_{t}$

x_t-1 es el valor de la serie pasada de un rezago

φ es el coeficiente calculado para ese rezago

Alpha_t es ruido blanco (como la aleatoriedad)

Delta se define como

$δ = (1 - \sum_{p}^{i = 1} ϕ_{i}) μ$

para un modelo autorregresivo de orden p, donde p es el número total de covariables calculadas para los rezagos y μ es la media del proceso.

Cuando se agregan más rezagos al modelo, agregamos más coeficientes y variables de rezago a la ecuación:

$x_{t} = δ + ϕ_{1} x_{t - 1} + ϕ_{2} x_{t - 2} + α_{t}$

El modelo anterior es una autorregresión de segundo orden, ya que contiene dos rezagos.

La forma general de una ecuación autorregresiva para un orden p es

$x_{t} = δ + ϕ_{1} x_{t - 1} . . . ϕ_{p} x_{t - p} + α_{t}$

Para utilizar modelos autorregresivos para previsión, utilizamos el valor de tiempo actual y cualquier dato histórico para predecir el siguiente paso de tiempo. Por ejemplo, un modelo AR con dos rezagos podría predecir un único paso de tiempo hacia adelante de la siguiente manera:

$x_{t + 1} = δ + ϕ_{1} x_{t} + ϕ_{2} x_{t - 1} + α_{t + 1}$

Estimación de coeficientes

Los enfoques más comunes para calcular los coeficientes de cada rezago son la estimación de máxima verosimilitud (MLE) o la estimación que utiliza mínimos cuadrados (OLS). Las mismas limitaciones que tienen estos enfoques al ajustar una regresión de un modelo lineal también están presentes al ajustar modelos autorregresivos. Dependiendo de si utiliza Python o R y la biblioteca, es posible que pueda utilizar los métodos Yule-Walker o Burg además de MLE u OLS.

Muchas bibliotecas permiten a los usuarios seleccionar qué criterios utilizar al elegir modelos entre todos los modelos candidatos. Por ejemplo, es posible que desee utilizar los coeficientes del modelo para minimizar el criterio de información de Akaike o el criterio de información bayesiano, en función de su caso de uso y de los datos.

Selección del orden de un modelo de realidad aumentada

La autocorrelación calcula la correlación entre una serie temporal y una versión rezagada de sí misma. El rezago es el número de unidades de tiempo para desplazar la serie temporal. Un rezago de 1 compara la serie con un paso de tiempo anterior. Un rezago de 2 lo compara con el paso de tiempo anterior a ese. El grado de autocorrelación en un rezago particular muestra la dependencia temporal de los datos. Cuando la autocorrelación es alta, existe una fuerte relación entre el valor actual y el valor en ese retraso. Cuando la autocorrelación es baja o cercana a cero, sugiere una relación débil o ninguna relación.

Un enfoque común para visualizar la autocorrelación es calcular la función de autocorrelación (ACF) o el gráfico de la ACF que muestra los coeficientes de autocorrelación en diferentes desfases.

El eje horizontal representa el desfase y el eje vertical representa los valores de autocorrelación. Los picos o patrones significativos en el gráfico de la ACF pueden revelar la estructura temporal subyacente de los datos. La selección del orden de desfase (p) en el modelo AR a menudo se basa en el análisis del gráfico de la ACF. En un modelo AR(p), el valor actual de la serie temporal se expresa como una combinación lineal de sus valores p pasados, con coeficientes determinados mediante MCO o EMV. La autocorrelación también se utiliza para evaluar si una serie temporal es estacionaria. Para una serie temporal estacionaria, la autocorrelación debería disminuir gradualmente a medida que aumenta el desfase, pero si el gráfico de la ACF no indica una disminución, los datos podrían no ser estacionarios. Puede obtener más información sobre la autocorrelación aquí.

Boletín del sector

Las últimas novedades sobre tecnología, respaldadas por conocimientos de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes del sector en materia de IA, automatización, datos y mucho más con el boletín Think. Consulte la Declaración de privacidad de IBM.

Variantes de modelos autorregresivos

Hay muchas variaciones diferentes del modelo estándar de series temporales autorregresivas que abordan sus desafíos y deficiencias.

Modelos vectoriales autorregresivos

Un modelo estadístico autorregresivo simple funciona con conjuntos de datos univariantes, lo que significa que un conjunto de datos debe contener un valor para cada período. Los modelos autorregresivos vectoriales (VAR) se desarrollaron para permitir autorregresiones de series temporales multivariantes. Están estructuradas de forma que cada variable es una función lineal de los rezagos pasados de sí misma y de los retardos pasados de las demás variables. Imagine que dispone de una serie temporal formada por dos medidas diferentes, el número mensual de vuelos de avión y el número mensual de viajes interurbanos en tren. En un modelo VAR, podría predecir el valor de utilizar ambos con una regresión para cada uno que incluya el otro valor. Codificando los viajes en tren como _Xr y los viajes en avión como _Xa tendríamos:

$x_{t, r} = α_{r} + ϕ_{11} x_{t - 1, a} + ϕ_{12} x_{t - 1, r} + ϵ_{t, r}$

$x_{t, a} = α_{a} + ϕ_{11} x_{t - 1, a} + ϕ_{12} x_{t - 1, r} + ϵ_{t, a}$

ARMA y ARIMA

Los modelos autorregresivos simples pueden tener dificultades con series temporales que tienen una tendencia muy marcada. Dos variaciones populares del modelo autorregresivo son el modelo autorregresivo de media móvil (ARMA) y el modelo autorregresivo integrado de media móvil (ARIMA). Estas variaciones son especialmente útiles cuando los datos tienen una tendencia acusada. El modelado de medias móviles es otro enfoque para pronosticar datos de series temporales y ARIMA integra estos dos enfoques, de ahí el nombre. También hay variaciones de los modelos ARIMA. Una de las extensiones más comunes es el ARIMA vectorial (VARIMA), que se utiliza cuando los datos son multivariantes. Otra extensión común es el ARIMA estacional (SARIMA) cuando los datos contienen una fuerte estacionalidad. Puede leer más sobre los modelos ARIMA aquí.

Heteroscedasticidad condicional autorregresiva

Los modelos autorregresivos funcionan de forma mucho más fiable cuando los datos de la serie temporal son estacionarios y la varianza de la serie temporal no varía. A menudo, los datos no estacionarios se diferencian en el tiempo para eliminar los cambios de varianza y luego se ajustan a un modelo AR. A veces esa variación es significativa y los científicos de datos quieren incluirla. El método de heteroscedasticidad condicional autorregresiva (ARCH) proporciona una forma de modelizar un cambio de varianza en una serie temporal que depende del tiempo, como el aumento o la disminución de la volatilidad. Una extensión de este enfoque, conocida como heteroscedasticidad condicional autorregresiva generalizada (GARCH), permite que el método admita cambios en la volatilidad dependiente del tiempo. Por ejemplo, volatilidad creciente y decreciente en la misma serie.

Cuando hay un proceso no estocástico para los cambios en las varianzas de las series temporales, la heterocedasticidad condicional autorregresiva o el algoritmo ARCH pueden utilizar técnicas autorregresivas para modelar y predecir cambios en la volatilidad del conjunto de datos. Los modelos autorregresivos regulares no modelan un cambio en la varianza a lo largo de un conjunto de datos. Por ello, un científico de datos puede utilizar una transformación box-cox para reducir la varianza del conjunto de datos. Sin embargo, si el cambio en la varianza está autocorrelacionado, un enfoque ARCH para el modelado puede proporcionar predicciones sobre cuándo un proceso podría comenzar a cambiar. Este enfoque se conoce como previsión de la volatilidad y se utiliza habitualmente en econometría y análisis financiero. Por ejemplo, cuando se trabaja con datos de cotizaciones bursátiles, el interés puede ir más allá de la modelización de los precios potenciales y centrarse en la previsión cuando empiece a cambiar drásticamente.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Vea todos los episodios de Mixture of Experts

Otras aplicaciones de la autorregresión

Aunque los modelos autorregresivos se asocian comúnmente a los datos de series temporales, son posibles otras aplicaciones de modelado con diferentes tipos de datos.

Procesamiento del lenguaje natural

Las técnicas de modelado autorregresivo generan la probabilidad de secuencias de tokens, por ejemplo, para sugerir una posible siguiente letra o palabra en un texto predictivo. Los modelos de lenguaje autorregresivos calculan la probabilidad de cada token posible dados los tokens anteriores en la cadena. Dada la cadena "the mouse ate the", un modelo que haya visto un número razonable de frases en inglés probablemente asignaría una probabilidad mayor a "cheese" que a "homework". Esta probabilidad se asigna mediante un proceso autorregresivo que utiliza todos los tokens anteriores de la cadena para asignar probabilidades a cada token del modelo de lenguaje.

Datos espaciales

Una aplicación diferente de los principios autorregresivos es utilizar las ubicaciones de los valores como una secuencia y hacer una regresión de todas las ubicaciones relevantes en la ubicación de interés. Por ejemplo, podríamos sospechar que la distancia a una fábrica afecta a las lecturas de la calidad del aire. Un modelo autorregresivo utilizaría las lecturas de otros sitios como valores rezagados y la distancia desde la fábrica como retrasos.

Cuatro pasos para mejorar la previsión empresarial con análisis

Utilice el poder del análisis y la inteligencia empresarial para planificar, prever y dar forma a los resultados futuros que mejor beneficien a su empresa y a sus clientes.

¿Qué es un modelo autorregresivo?

Autores