Autocorrelação, ou correlação serial, analisa dados de séries temporais para identificar correlações em valores em diferentes pontos da série. Este importante método de análise verifica como um valor se relaciona com si mesmo. Em vez de calcular o coeficiente de correlação entre diferentes variáveis, como X1 e X2, calculamos o grau de correlação de uma variável consigo mesma em diferentes momentos no conjunto de dados. Na elaboração de um modelo de regressão linear, assume-se que os erros ao prever a variável independente são independentes. Muitas vezes, ao trabalhar com dados de séries temporais, encontramos erros que dependem do tempo. Essa dependência nos erros aparece devido a um componente temporal. Os termos de erro que se correlacionam ao longo do tempo são chamados de erros autocorrelacionados. Esses erros causam problemas com algumas das formas mais tradicionais de regressão linear, como os mínimos quadrados ordinários. A solução é regredir a variável dependente em função dela mesma, utilizando atrasos temporais identificados através de um teste de autocorrelação. O "atraso" é simplesmente um valor anterior da variável dependente. Se você tiver dados mensais e quiser prever o próximo mês, poderá usar os valores dos dois meses anteriores como input. Isso significa que você está regredindo os dois atrasos anteriores em relação ao valor atual.

Assim como a correlação avalia o vínculo linear entre variáveis distintas, a autocorrelação avalia a relação entre valores atrasados de uma série temporal por meio de um modelo linear. Quando os dados apresentam uma tendência, as autocorrelações para curtos intervalos de tempo geralmente são altas e positivas, já que observações próximas temporalmente costumam ter valores semelhantes. Portanto, a função de autocorrelação, muitas vezes chamada de ACF, de uma série temporal tendenciosa tende a ter valores positivos que decrescem gradualmente com o aumento dos atrasos.

Quando os dados apresentam flutuações ou padrões sazonais, as autocorrelações serão maiores nos atrasos sazonais (múltiplos do período sazonal) do que nos outros atrasos. Quando os dados são tendenciosos e sazonais, você notará uma mistura desses fenômenos. Séries temporais que não apresentam autocorrelação são processos totalmente aleatórios e são chamadas de ruído branco. A ACF é um coeficiente que mede a correlação entre dois valores em uma série temporal.

As principais maneiras de testar a autocorrelação são as seguintes:

Você pode calcular os resíduos e representar graficamente esses erros padrão no tempo t, geralmente escritos como et, em função de t. Qualquer agrupamento de resíduos em um lado da linha zero pode sinalizar autocorrelações significativas.

Aplicar o teste de Durbin-Watson pode revelar se há autocorrelação na série temporal. Para fazer isso no R, crie uma regressão linear da variável dependente em função do tempo e então utilize esse modelo para calcular a estatística de Durbin-Watson. Para fazer isso em Python, você pode passar os resíduos de um modelo de regressão linear ajustado no teste.

Outra opção é usar o teste Ljung Box, inserindo os valores da série temporal diretamente no teste. O teste de Ljung-Box baseia-se na hipótese nula de que os valores residuais são distribuídos de forma independente, e na hipótese alternativa de que os valores residuais não são distribuídos de forma independente e apresentam autocorrelação. Isso significa que, na prática, resultados menores que 0,05 indicam a existência de autocorrelação na série temporal. As bibliotecas Python e R fornecem métodos para executar esse teste.

A opção mais comum é usar uma visualização de correlograma gerada a partir das correlações entre atrasos específicos na série temporal. Um padrão nos resultados indica a presença de autocorrelação. Isso é representado graficamente mostrando o grau de correlação entre diferentes atrasos ao longo da série temporal. Um gráfico de exemplo é mostrado abaixo: