A autocorrelação oferece análise de dados para séries temporais e modelagem. É amplamente utilizada em econometria, processamento de sinais e previsão de demanda.
Autocorrelação, ou correlação serial, analisa dados de séries temporais para identificar correlações em valores em diferentes pontos da série. Este importante método de análise verifica como um valor se relaciona com si mesmo. Em vez de calcular o coeficiente de correlação entre diferentes variáveis, como X1 e X2, calculamos o grau de correlação de uma variável consigo mesma em diferentes momentos no conjunto de dados. Na elaboração de um modelo de regressão linear, assume-se que os erros ao prever a variável independente são independentes. Muitas vezes, ao trabalhar com dados de séries temporais, encontramos erros que dependem do tempo. Essa dependência nos erros aparece devido a um componente temporal. Os termos de erro que se correlacionam ao longo do tempo são chamados de erros autocorrelacionados. Esses erros causam problemas com algumas das formas mais tradicionais de regressão linear, como os mínimos quadrados ordinários. A solução é regredir a variável dependente em função dela mesma, utilizando atrasos temporais identificados através de um teste de autocorrelação. O "atraso" é simplesmente um valor anterior da variável dependente. Se você tiver dados mensais e quiser prever o próximo mês, poderá usar os valores dos dois meses anteriores como input. Isso significa que você está regredindo os dois atrasos anteriores em relação ao valor atual.
Assim como a correlação avalia o vínculo linear entre variáveis distintas, a autocorrelação avalia a relação entre valores atrasados de uma série temporal por meio de um modelo linear. Quando os dados apresentam uma tendência, as autocorrelações para curtos intervalos de tempo geralmente são altas e positivas, já que observações próximas temporalmente costumam ter valores semelhantes. Portanto, a função de autocorrelação, muitas vezes chamada de ACF, de uma série temporal tendenciosa tende a ter valores positivos que decrescem gradualmente com o aumento dos atrasos.
Quando os dados apresentam flutuações ou padrões sazonais, as autocorrelações serão maiores nos atrasos sazonais (múltiplos do período sazonal) do que nos outros atrasos. Quando os dados são tendenciosos e sazonais, você notará uma mistura desses fenômenos. Séries temporais que não apresentam autocorrelação são processos totalmente aleatórios e são chamadas de ruído branco. A ACF é um coeficiente que mede a correlação entre dois valores em uma série temporal.
As principais maneiras de testar a autocorrelação são as seguintes:
Você pode calcular os resíduos e representar graficamente esses erros padrão no tempo t, geralmente escritos como et, em função de t. Qualquer agrupamento de resíduos em um lado da linha zero pode sinalizar autocorrelações significativas.
Aplicar o teste de Durbin-Watson pode revelar se há autocorrelação na série temporal. Para fazer isso no R, crie uma regressão linear da variável dependente em função do tempo e então utilize esse modelo para calcular a estatística de Durbin-Watson. Para fazer isso em Python, você pode passar os resíduos de um modelo de regressão linear ajustado no teste.
Outra opção é usar o Teste de Ljung-Box e passar os valores da série temporal diretamente para o teste. O Teste de Ljung-Box possui a hipótese nula de que os resíduos são distribuídos de forma independente e a hipótese alternativa de que os resíduos não são distribuídos de forma independente e exibem autocorrelação. Na prática, isso significa que resultados menores que 0,05 indicam que existe autocorrelação na série temporal. Tanto bibliotecas de Python quanto de R fornecem métodos para executar esse teste.
A opção mais comum é usar uma visualização de correlograma gerada a partir das correlações entre atrasos específicos na série temporal. Um padrão nos resultados indica a presença de autocorrelação. Isso é representado graficamente mostrando o grau de correlação entre diferentes atrasos ao longo da série temporal. Um gráfico de exemplo é mostrado abaixo:
Dados não aleatórios possuem pelo menos um atraso significativo. Quando os dados não são aleatórios, isso indica que é necessário usar análise de séries temporais ou incorporar atrasos em uma regressão para modelar os dados adequadamente.
Existem características fundamentais de uma série temporal que podem ser identificadas por meio da autocorrelação.
Uma série temporal estacionária possui propriedades estatísticas constantes ao longo do tempo. Isso significa que estatísticas como a média, variância e autocorrelação não mudam ao longo dos dados. A maioria dos métodos estatísticos de previsão, como ARMA e ARIMA, baseia-se na suposição de que a série temporal pode ser tornada aproximadamente estacionária por meio de uma ou mais transformações. Uma série estacionária é relativamente fácil de prever, pois você pode supor que as propriedades estatísticas serão aproximadamente as mesmas no futuro. Estacionaridade significa que a série temporal não apresenta tendência, possui variância constante, padrão de autocorrelação constante e não tem padrão sazonal. Na série estacionária, a ACF cai rapidamente para próximo de zero. Já em séries não estacionárias, a ACF diminui lentamente.
Uma característica principal dos dados de séries temporais é a presença ou não de uma tendência. Por exemplo, os preços de itens básicos em um mercado nos últimos 50 anos apresentariam uma tendência de alta devido à inflação. Prever dados com tendências pode ser complicado, pois a tendência pode mascarar outros padrões nos dados. Caso os dados apresentem uma linha de tendência estável à qual retornam de forma consistente, eles podem ser estacionários em tendência. Nesse cenário, a tendência pode ser eliminada ajustando uma linha de tendência e subtraindo-a dos dados antes de modelá-los. Caso os dados não sejam estacionários em tendência, podem ser estacionários em diferença; nesse caso, a tendência é removida calculando as diferenças. A maneira mais simples de realizar a diferenciação é subtrair cada valor pelo anterior, obtendo uma medida das variações na série temporal. Por exemplo, se Yt for o valor da série temporal Y no período t, então a primeira diferença de Y no período t é igual a Yt - Yt-1. Quando as tendências estão presentes em uma série temporal, atrasos mais curtos geralmente têm uma forte correlação positiva ou fortes valores de correlação negativa na ACF porque as observações mais próximas no tempo tendem a ter valores semelhantes. As correlações na FAC diminuirão lentamente à medida que os atrasos aumentam.
Sazonalidade ocorre quando uma série temporal apresenta flutuações ou mudanças sazonais. É esperado que as vendas de sorvete sejam mais altas durante o verão e mais baixas no inverno; já as vendas de esquis tendem a subir no final do outono e diminuir no começo do verão. A sazonalidade pode ocorrer em diferentes intervalos de tempo, como dias, semanas ou meses. O mais importante em uma análise de séries temporais é compreender como a sazonalidade afeta nossa série, permitindo produzir previsões melhores para o futuro. Quando existem padrões sazonais, a ACF apresentará autocorrelações mais positivas em atrasos múltiplos da frequência sazonal do que em outros lags.
A função de autocorrelação parcial, frequentemente chamada de PACF, é semelhante à função ACF, com a diferença de que ela mostra apenas a correlação entre duas observações que não é explicada pelos atrasos mais curtos entre elas. Um gráfico ACF mostra a relação entre yt e yt−k para diferentes valores de k. Se yt e yt−1 estão correlacionados, podemos presumir que yt−1 e yt−2 também estarão correlacionados, pois ambos estão conectados por um atraso de 1. No entanto, também é possível que yt e yt−2 estejam correlacionados simplesmente porque ambos estão conectados a yt−1, e não porque haja novas informações em yt−2 que possam ser usadas para prever yt. Para contornar esse problema, utilizamos autocorrelações parciais para eliminar um número de observações com atrasos. O PACF mede apenas a relação entre yt e yt−k, removendo os efeitos das defasagens de 1 até k. A primeira autocorrelação parcial é sempre idêntica à primeira autocorrelação porque não há novos dados entre elas para serem removidos. Todos os atrasos subsequentes mostrarão apenas a relação entre eles após remover todos os atrasos intermediários. Isso pode oferecer uma estimativa mais precisa de quais atrasos podem conter indicações de sazonalidade, observando onde há valores maiores de autocorrelação positiva ou negativa.
Na prática, a ACF auxilia na avaliação das propriedades de uma série temporal. A PACF, por outro lado, é mais útil durante o processo de especificação de um modelo autorregressivo. Cientistas de dados ou analistas utilizam gráficos de autocorrelação parcial para especificar modelos de regressão com dados de séries temporais, como os modelos Auto Regressive Moving Average (ARMA) ou Auto Regressive Integrated Moving Average (ARIMA).
Tenha acesso a insights exclusivos sobre o cenário em evolução das soluções avançadas de BI, destacando as principais descobertas, suposições e recomendações para líderes de dados e de análises.
Simplifique o acesso aos dados e automatize a governança dos dados. Conheça o poder da integração de uma estratégia de data lakehouse à sua arquitetura de dados, incluindo a otimização dos custos das suas cargas de trabalho e a escala de IA, com todos os seus dados, em qualquer lugar.
Explore o guia do líder de dados para criar uma organização baseada em dados e gerar vantagem comercial.
Saiba como uma abordagem de data lakehouse aberta pode oferecer dados confiáveis e execução mais rápida para as análises de dados e projetos de IA.
Conecte sua estratégia e análises de dados aos objetivos de negócios com essas quatro etapas principais.
Analise com mais detalhes por que os desafios de business intelligence podem persistir e o que isso significa para os usuários da organização.
Para prosperar, as empresas devem utilizar os dados para conquistar a fidelidade do cliente, automatizar processos de negócios e inovar com soluções orientadas por IA.
Libere o valor dos dados empresariais com a IBM® Consulting, construindo uma organização orientada por insights, que proporciona vantagem comercial.
Apresentamos o Cognos Analytics 12.0, insights impulsionados por IA para maior eficiácia na tomada de decisão.