O que é um modelo de série temporal?

Autores

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

O que é um modelo de séries temporais?

Um modelo de série temporal é um modelo de aprendizado de máquina capaz de analisar dados sequenciais de séries temporais e prever valores futuros. Os conjuntos de dados de séries temporais consistem em valores de dados ordenados ao longo do tempo, com o tempo como variável independente. Análise de séries temporais permite o forecasting de valores de dados futuros com base em valores anteriores na sequência. 

O que é modelagem de séries temporais?

A modelagem de séries temporais é o uso de algoritmos de aprendizado de máquina e métodos estatísticos para analisar pontos de dados que mudam ao longo de um período de tempo. 

Os conjuntos de dados de séries temporais diferem de outros conjuntos de dados porque não consistem em pontos de dados independentes e não relacionados. Considerando que muitos conjuntos de dados são baseados em observações individuais, os conjuntos de dados de séries temporais são rotulados com carimbos de data/hora e rastreiam variáveis ao longo do tempo, criando dependências entre pontos de dados. Dependências são relações entre pontos de dados nas quais o valor de um afeta o valor de outro. 

Com a modelagem de séries temporais univariada, o tempo é a única variável independente. Todas as outras variáveis dependem de valores anteriores. A modelagem multivariada de séries temporais introduz mais variáveis independentes, como condições meteorológicas ou informações demográficas.

As mais recentes notícias de tecnologia, corroboradas por insights de especialistas.

Mantenha-se atualizado sobre as tendências mais importantes (e intrigantes) do setor em IA, automação, dados e muito mais com o boletim informativo Think. Consulte a Declaração de privacidade da IBM.

Agradecemos sua inscrição!

Sua assinatura será entregue em inglês. Você pode encontrar um link para cancelar a assinatura em todos os boletins informativos. Você pode gerenciar suas inscrições ou cancelar a inscrição aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Conceitos-chave para modelagem de séries temporais

Muitos dos conceitos centrais da modelagem de séries temporais são funcionalidades temporais: aspectos dos dados relacionados ou derivados do tempo. Esses conceitos incluem: 

  • Autocorrelação

  • Sazonalidade

  • Estacionariedade

Autocorrelação

A autocorrelação mede o grau em que os valores atuais correspondem aos valores passados de dados históricos em uma série temporal. Alta autocorrelação significa que a iteração atual de uma série temporal mapeia de perto as versões defasadas. A autocorrelação identifica se uma série temporal se repete e pode indicar sazonalidade. 

A autocorrelação pode ser positiva ou negativa. Autocorrelação positiva significa que valores altos levam a valores mais altos e valores baixos levam a valores mais baixos. A autocorrelação negativa é o oposto: valores altos seguem valores baixos e vice-versa.

Sazonalidade

A sazonalidade é uma característica dos dados de séries temporais em que existe um padrão recorrente baseado em um intervalo de tempo regular, como a mudança das estações. Por exemplo, uma plataforma de comércio eletrônico pode vender mais óculos de sol na primavera e no verão e mais cachecóis no outono e inverno. As famílias normalmente usam mais eletricidade durante o dia do que à noite. 

As variações sazonais dependentes do tempo são úteis ao prever valores futuros com modelos de forecasting. Ferramentas de visualização de dados, como tabelas e gráficos, representam a sazonalidade como uma flutuação repetida, geralmente na forma de uma onda senoidal. 

Durante a análise de dados de séries temporais, o processo de decomposição revela qualquer sazonalidade presente nos dados, bem como tendências e ruído. As tendências são aumentos ou reduções de longo prazo nos valores dos dados, enquanto o ruído se refere a variações aleatórias que não seguem padrões previsíveis. O ruído geralmente decorre de erros e valores discrepantes.

Estacionariedade

Uma série temporal estacionária tem propriedades estatísticas estáticas, como a média e a variância. Com a estacionariedade, os pontos de dados podem flutuar com a sazonalidade, mas não há tendência maior. Uma série temporal de temperaturas globais médias anuais modernas seria não estacionária devido aos efeitos da mudança climática que aumentam as temperaturas. 

A estacionariedade é necessária para que a maioria dos modelos de séries temporais funcione de forma eficaz. O teste Dickey-Fuller revela se um conjunto de dados é estacionário. Os conjuntos de dados de séries temporais sem estacionariedade podem ser transformados com técnicas como diferenciação para remover tendências e isolar outros padrões, como sazonalidade e autocorrelação.

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Modelos de séries temporais

Ao abordar um desafio de forecasting de séries temporais, os cientistas de dados podem escolher entre vários algoritmos de aprendizado de máquina. Dependendo da natureza do conjunto de dados, alguns são mais apropriados do que outros. Os modelos de uma etapa preveem o próximo ponto em uma série temporal, enquanto os modelos de várias etapas produzem várias previsões de séries temporais. 

Os tipos de modelos de séries temporais incluem: 

  • Média móvel integrada autorregressiva (ARIMA) 

  • Suavização exponencial

  • Generalized autoregressive conditional heteroscedasticity (GARCH) 

  • Memória de curto longo prazo (LSTM) 

O Prophet de código aberto da Meta e o DeepAR da Amazon são dois outros modelos de IA construídos para modelagem de séries temporais. Também é possível adaptar modelos de regressão linear para tarefas de forecasting de séries temporais. Outros modelos de aprendizado supervisionado, como o XGBoost e a floresta aleatória, podem ser aplicados a dados de séries temporais não lineares.

Média móvel integrada autorregressiva (ARIMA)

A família de modelos ARIMA consiste em inúmeros modelos de blocos de construção modulares que podem ser executados de forma independente ou combinados em vários agrupamentos. O ARIMA é um modelo estatístico que prevê valores futuros com base em eventos passados e funciona melhor com séries temporais estacionárias que mostram sazonalidade. Ele se destaca com conjuntos de dados univariados e também pode ser adaptado para casos de uso multivariados. 

As configurações do ARIMA incluem: 

  • Autoregressão (AR): os modelos autorregressivos, denominados AR(p), preveem valores futuros de uma variável com base em valores passados em um termo estocástico: um que é imperfeitamente previsível. O parâmetro p indica o grau de atraso ou o número de pontos de dados usados para fazer uma previsão. Um valor p de 1 voltaria à observação anterior da série. 

  • Média móvel (MAS): os modelos de média móvel, denominados MA(q), preveem valores futuros com base em erros de previsão passados. O parâmetro q é o número de erros incluídos na previsão. Um modelo MA(1) incorporaria um erro passado. 

  • Integração (I): os modelos integrados adicionam diferenciação (d) para tornar uma série temporal estacionária. A diferenciação substitui os valores dos dados pela diferença entre os valores atuais e os valores anteriores, criando uma nova série para representar a mudança nos valores. O parâmetro d indica o número de vezes que os pontos de dados são diferenciados. 

  • Média móvel autorregressiva (ARMA): os modelos ARMA combinam autorregressão com médias móveis. Os modelos ARMA podem processar séries temporais estacionárias e são denotados como ARMA(p, q). 

  • Média móvel integrada autorregressiva (ARIMA): os modelos ARIMA, denominados ARIMA(p, d, q) adicionam diferenças às séries temporais não estacionárias. 

  • Média móvel integrada autorregressiva sazonal (SARIMA): os modelos SARIMA adicionam sazonalidade. Os parâmetros de sazonalidade são representados com letras maiúsculas, e o parâmetro m indica a duração da temporada. Os modelos SARIMA são denominados SARIMA(p, d, q)(P, D, Q)m e exigem uma grande quantidade de dados históricos. 

  • SARIMA com variáveis exógenas (SARIMAX): dados de séries temporais mais complexas incluem variáveis além do tempo. Os modelos SARIMAX incorporam variáveis externas para gerar previsões mais diferenciadas. 

  • Autoregressão vetorial (VAR): enquanto a ARIMA funciona melhor com tarefas univariadas, a autorregressão vetorial (VAR) pode lidar com conjuntos de dados multivariados. Os modelos VAR, incluindo VARMA e VARMAX, podem fazer previsões para vários modelos de séries temporais ao mesmo tempo.

Suavização exponencial

Os modelos de suavização exponencial reduzem o ruído ao atribuir progressivamente menos peso ou importância a observações mais antigas nas séries temporais. Observações mais recentes são consideradas mais relevantes para fazer previsões futuras. Os modelos de suavização exponencial incluem: 

  • Suavização exponencial simples (SES): a forma mais básica de suavização exponencial modifica a MA para dar mais peso às observações recentes. Em comparação com um modelo de média móvel direto, a SES reduz o ruído e preserva mais detalhes. 

  • Suavização exponencial dupla (DES): aplicar recursivamente a suavização exponencial duas vezes pode ajudar a combater tendências. A DES usa os parâmetros α como fator de suavização de dados e β como fator de suavização de tendências. 

  • Suavização exponencial tripla (TES): para conjuntos de dados com tendências e sazonalidade, a TES, também conhecida como suavização exponencial de Holt-Winters (HWES), aplica a suavização pela terceira vez. O parâmetro γ é o fator de suavização sazonal. 

  • TBATS: TBATS (trigonométrico, Box-Cox, ARMA, componentes de tendência e sazonais) é um modelo especializado de suavização exponencial para conjuntos de dados de séries temporais com sazonalidade complexa.

Hecrocedasticidade condicional autorregressiva generalizada (GARCH)

O GARCH é um modelo especializado que rastreia a volatilidade no setor financeiro. Por exemplo, no mercado de ações, a volatilidade é o grau e a velocidade com que os preços das ações flutuam. A heterocedasticidade significa que os erros em um modelo de regressão não compartilham a mesma variância ao longo do tempo. 

Em ciência de dados, as variáveis são consideradas homocedásticas se suas variâncias forem as mesmas e heterocedásticas se não forem.

Memória de curto longo prazo (LSTM)

A LSTM traz o poder das redes neurais de deep learning para a modelagem de séries temporais. Um modelo LSTM é uma rede neural recorrente (RNN) especializada em dados sequenciais, como uma série temporal. As LSTMs se destacam na captura de dependências de longo alcance: relações entre pontos de dados distantes em uma sequência. 

Como podem reter mais contexto do que outros tipos de modelos, os modelos LSTM funcionam bem em aplicações complexas, como processamento de linguagem natural (NLP) e reconhecimento de fala e imagens do mundo real. Eles exigem grandes quantidades de dados de treinamento e podem ser construídos no Python.

Métricas de modelagem de séries temporais

Métricas de benchmarking, testes e validação ajudam a otimizar o desempenho do modelo, como fazem em muitas outras aplicações de aprendizado de máquina. 

As métricas de modelagem de séries temporais incluem: 

  • Erro médio quadrático (MSE): a média dos quadrados do erro em cada registro de data e hora. 

  • Raiz do erro médio quadrático (RMSE): a raiz quadrada do MSE. 

  • Erro absoluto médio (MAE): a média dos valores de erro para cada observação. 

  • O erro percentual absoluto médio (MAPE): expressa o MAE como um percentual, mostrando a magnitude do erro. OAPE também é conhecido como desvio percentual absoluto médio (MAPD). O MAPE é uma função de perda comum para problemas de regressão.

Casos de uso de modelagem de séries temporais

Os modelos de séries temporais desempenham um papel importante na análise de dados, ajudando cientistas de dados e líderes de negócios com: 

  • Reconhecimento de padrões: os modelos de séries temporais identificam flutuações recorrentes nos dados ao longo do tempo, como mudanças sazonais, ciclos de longo prazo e tendências gerais. Por exemplo, na moda, as vendas sazonais de camisetas aumentam a cada primavera e verão. As tendências da moda reaparecem e desaparecem em ciclos de várias décadas: os tamanhos oversize agora são tão populares quanto na década de 1990. 

  • Detecção de anomalias: anomalias são pontos de dados que se desviam do restante dos pontos de dados em um conjunto de dados. Embora anomalias ocasionais possam ser atribuídas ao ruído, grandes quantidades de dados anômalos podem indicar mudanças inesperadas, problemas no pipeline de dados e oportunidades de melhoria. 

  • Forecasting de tendências: Com base em dados históricos, os modelos de séries temporais podem prever pontos de dados futuros na série. As organizações podem usar essas previsões para tomar decisões melhores baseadas em dados.

Soluções relacionadas
Ferramentas e soluções de análise de dados

Para prosperar, as empresas devem utilizar os dados para conquistar a fidelidade do cliente, automatizar processos de negócios e inovar com soluções orientadas por IA.

Explore soluções de análise de dados
Serviços de consultoria de dados e análise de dados

Libere o valor dos dados empresariais com a IBM® Consulting, construindo uma organização orientada por insights, que proporciona vantagem comercial.

Conheça os serviços de análise de dados
Análise de dados do IBM Cognos

Apresentamos o Cognos Analytics 12.0, insights impulsionados por IA para maior eficiácia na tomada de decisão.

Explore o IBM Cognos Analytics
Dê o próximo passo

Para prosperar, as empresas devem utilizar os dados para conquistar a fidelidade do cliente, automatizar processos de negócios e inovar com soluções orientadas por IA.

Explore soluções de análise de dados Conheça os serviços de análise de dados