A modelagem autorregressiva é uma técnica de aprendizado de máquina mais comumente utilizada para análise e forecasting de séries temporais que utiliza um ou mais valores de etapas temporais anteriores em uma série temporal para criar uma regression.
É uma técnica simples, mas poderosa de análise de séries temporais que apresenta previsões altamente interpretáveis e eficazes se seus dados contiverem correlações entre as etapas de tempo. A correlação entre as etapas de tempo é chamada de autocorrelação porque é uma medida de quanto um valor se correlaciona consigo mesmo. Um processo puramente linear se autocorrelacionará perfeitamente consigo mesmo ao longo da série temporal, tornando possível prever o próximo valor exatamente a partir dos valores anteriores utilizando um processo autorregressivo. Um processo totalmente estocástico, como o ruído branco, não terá autocorrelação pois não podemos prever os valores atuais ou futuros utilizando os valores passados.
Uma série temporal é uma sequência de medições da mesma variável ou grupo de variáveis feitas ao longo do tempo. Normalmente, as medições são feitas em horários com espaçamento uniforme, como a cada hora, mês ou ano. Por exemplo, podemos ter valores que medem o número de passageiros de companhias aéreas em um país, com medições observadas a cada mês. Neste caso, y representa o número de passageiros medidos e enfatiza a existência de valores medidos ao longo do tempo. O valor de t é aplicado como um índice em vez do i usual para indicar que yt representa o valor de y a qualquer momento.
Um modelo autorregressivo ocorre quando regredimos um valor de uma série temporal em valores anteriores dessa mesma série temporal. Por exemplo, yt regredido em yt-1 utiliza o valor anterior de y, chamado de valor defasado, para prever o valor atual de y. Nesse modelo de regression simples, a variável dependente no período de tempo anterior se tornou o preditor. Os erros representam todas as suposições usuais sobre erros em um modelo de regressão linear simples. Frequentemente consideramos a ordem de uma autorregressão como o número de valores precedentes na série utilizada para prever o valor atual. Portanto yt regredido em yt-1 é uma autorregressão de primeira ordem expressa como AR(1).
Em uma regressão linear múltipla, a saída da regressão é uma combinação linear de múltiplas variáveis de entrada. Nos modelos de autorregressão, a saída é o ponto de dados futuro expresso como uma combinação linear dos pontos de dados p anteriores. p é o número de atrasos incluídos na equação. Um modelo AR(1) é definido matematicamente como:
xt-1 é o valor da série passada de uma defasagem de atraso
ϕ é o coeficiente calculado para essa defasagem
Alfat é ruído branco (como aleatoriedade)
Delta é definido como
para um modelo autorregressivo de ordem p, onde p é o número total de covariáveis calculadas para defasagens e μ é a média do processo.
À medida que mais defasagens são adicionadas ao modelo, adicionamos mais coeficientes e variáveis de defasagem à equação:
O modelo anterior é uma autorregressão de segunda ordem, pois contém duas defasagens.
A forma geral de uma equação autorregressiva para uma ordem p é
Para utilizar modelos autorregressivos para previsão de séries temporais, usamos o valor de tempo atual e quaisquer dados históricos para prever o próximo passo de tempo. Por exemplo, um modelo AR com duas defasagens pode prever um único passo de tempo à frente assim:
As abordagens mais comuns para calcular os coeficientes de cada atraso são a estimativa de máxima verossimilhança (MLE) ou a estimativa que utiliza mínimos quadrados (OLS). As mesmas limitações que essas abordagens têm ao ajustar uma regression de um modelo linear estão presentes também no ajuste de modelos autorregressivos. Dependendo da linguagem que você utilizar, Python ou R e a biblioteca, pode utilizar os métodos Yule-Walker ou Borg, além de MLE ou OLS.
Muitas bibliotecas permitem que os usuários selecionem quais critérios usar ao escolher modelos entre todos os modelos candidatos. Por exemplo, você pode querer usar os coeficientes do modelo para minimizar o critério de informação de Akaike (AIC) ou o critério de informação bayesiano (BIC), dependendo do seu caso de uso e dos dados.
A autocorrelação calcula a correlação entre uma série temporal e uma versão defasada dela mesma. O atraso é o número de unidades de tempo para deslocar a série temporal. Um atraso de 1 compara a série com um passo de tempo anterior. Um atraso de 2 o compara com o passo de tempo anterior a esse. O grau de autocorrelação em um determinado atraso mostra a dependência temporal dos dados. Quando a autocorrelação é alta, há uma forte relação entre o valor atual e o valor naquele atraso. Quando a autocorrelação é baixa ou próxima de zero, isso sugere uma relação fraca ou nenhuma relação.
Uma abordagem comum para visualizar a autocorrelação é calcular a função de autocorrelação (ACF) ou o gráfico ACF, que exibe os coeficientes de autocorrelação em diferentes defasagens.
O eixo horizontal representa a defasagem, e o eixo vertical representa os valores de autocorrelação. Picos ou padrões significativos no gráfico ACF podem revelar a estrutura temporal subjacente dos dados. A seleção da ordem de defasagem (p) no modelo AR muitas vezes depende da análise do gráfico ACF. Em um modelo AR(p), o valor atual da série temporal é expresso como uma combinação linear de seus p valores passados, com coeficientes determinados por meio de OLS ou MLE. A autocorrelação também é usada para avaliar se uma série temporal é estacionária. Para uma série temporal estacionária, a autocorrelação deve diminuir gradualmente à medida que a defasagem aumenta; se o gráfico ACF não indicar essa diminuição, os dados podem conter não-estacionariedade. Você pode aprender mais sobre autocorrelação aqui.
Há muitas variações diferentes do modelo autorregressivo padrão de séries temporais que lidam com seus desafios e deficiências.
Um modelo estatístico autorregressivo simples trabalha com conjuntos de dados univariados, o que significa que o conjunto de dados deve conter um valor para cada período. Modelos vetoriais autorregressivos (VAR) foram desenvolvidos para permitir autorregressões de séries temporais multivariadas. Elas são estruturadas de modo que cada variável seja uma função linear de atrasos anteriores dela mesma e atrasos anteriores das outras variáveis. Imagine que você tenha uma série temporal composta por duas medidas diferentes, o número mensal de voos de avião e o número mensal de viagens de trem intermunicipais. Em um modelo VAR, você pode prever o valor do uso de ambos com uma regression para cada um que inclua o outro valor. Codificando viagens de trem como Xr e viagens de avião como Xa, teríamos:
Modelos autorregressivos simples podem ter dificuldades com séries temporais que possuem uma forte tendência. Duas variações populares do modelo autorregressivo são os modelos autorregressivo de médias móveis (ARMA) e autorregressivo integrado de médias móveis (ARIMA). Essas variações são especialmente úteis quando os dados apresentam uma forte tendência. O modelo de médias móveis é outra abordagem para previsão de séries temporais, e o ARIMA integra essas duas abordagens, originando o nome. Também existem variações dos modelos ARIMA. Uma das extensões mais comuns é o ARIMA vetorial (VARIMA), usado quando os dados são multivariados. Outra extensão comum é o ARIMA sazonal (SARIMA), aplicado quando os dados contêm uma forte sazonalidade. Leia mais sobre os modelos ARIMA aqui.
Os modelos autorregressivos apresentam desempenho muito mais confiável quando os dados da série temporal são estacionários e a variância ao longo da série temporal não varia. Muitas vezes os dados não estacionários são diferenciados no tempo para remover as alterações na variação e, em seguida, ajustar um modelo AR. Às vezes essa variação é considerável e o cientista de dados deve mantê-la. O método de heterocedasticidade condicional autorregressiva (ARCH) oferece uma maneira de modelar uma mudança na variância em uma série temporal dependente do tempo, como o aumento ou a diminuição da volatilidade. Uma extensão dessa abordagem, conhecida como heterocedasticidade condicional autorregressiva generalizada (GARCH), possibilita que o método suporte mudanças na volatilidade dependente do tempo. Por exemplo, volatilidade crescente e decrescente na mesma série.
Quando há um processo não estocástico para mudanças nas variâncias de séries temporais, a heterocedasticidade condicional autorregressiva ou o algoritmo ARCH pode utilizar técnicas autorregressivas para modelar e prever mudanças na volatilidade do conjunto de dados. Os modelos autorregressivos regulares não modelam uma mudança na variância em todo um conjunto de dados. Devido a isso, o cientista de dados pode usar uma transformação de Box-Cox para reduzir a variância no conjunto de dados. No entanto, se a mudança na variância for autocorrelacionada, uma abordagem ARCH para modelagem pode apresentar previsões sobre quando um processo pode começar a mudar. Essa abordagem é conhecida como previsão de volatilidade e é comumente utilizada em econometria e análise financeira. Por exemplo, ao trabalhar com dados de preços de ações, o interesse pode se expandir além da modelagem de preços em potencial para previsão quando começam a mudar drasticamente.
Técnicas de modelagem autorregressiva geram a probabilidade de sequências de tokens, por exemplo, para sugerir uma provável próxima letra ou palavra em texto preditivo. Modelos autorregressivos de linguagem calculam a probabilidade de cada token possível, dados os tokens anteriores na sequência. Dada a sequência "o rato comeu o", um modelo que viu um número razoável de frases em inglês provavelmente atribuiria uma probabilidade maior a "queijo" do que a "lição de casa". Essa probabilidade é atribuída por meio de um processo autorregressivo que utiliza todos os tokens anteriores na cadeia para atribuir probabilidades a cada token no modelo de linguagem.
Uma aplicação diferente dos princípios autorregressivos é utilizar os locais dos valores como uma sequência e regredir todos os locais relevantes no local de interesse. Por exemplo, podemos suspeitar que a distância de uma fábrica afeta as leituras da qualidade do ar. Um modelo autorregressivo utilizaria as leituras de outros locais como valores defasados e a distância da fábrica como defasagens.
Tenha acesso a insights exclusivos sobre o cenário em evolução das soluções avançadas de BI, destacando as principais descobertas, suposições e recomendações para líderes de dados e de análises.
Simplifique o acesso aos dados e automatize a governança dos dados. Conheça o poder da integração de uma estratégia de data lakehouse à sua arquitetura de dados, incluindo a otimização dos custos das suas cargas de trabalho e a escala de IA, com todos os seus dados, em qualquer lugar.
Explore o guia do líder de dados para criar uma organização baseada em dados e gerar vantagem comercial.
Saiba como uma abordagem de data lakehouse aberta pode oferecer dados confiáveis e execução mais rápida para as análises de dados e projetos de IA.
Conecte sua estratégia e análises de dados aos objetivos de negócios com essas quatro etapas principais.
Analise com mais detalhes por que os desafios de business intelligence podem persistir e o que isso significa para os usuários da organização.
Para prosperar, as empresas devem utilizar os dados para conquistar a fidelidade do cliente, automatizar processos de negócios e inovar com soluções orientadas por IA.
Libere o valor dos dados empresariais com a IBM® Consulting, construindo uma organização orientada por insights, que proporciona vantagem comercial.
Apresentamos o Cognos Analytics 12.0, insights impulsionados por IA para maior eficiácia na tomada de decisão.