Os modelos de análise de dados preditiva são projetados para avaliar dados históricos, descobrir padrões, observar tendências e usar essas informações para prever tendências futuras. Modelos populares de análise de dados preditiva incluem classificação, agrupamento e modelos de séries temporais.
Modelos de classificação
Os modelos de classificação se enquadram no ramo dos modelos de aprendizado de máquina supervisionados. Esses modelos categorizam dados com base em dados históricos, descrevendo relacionamentos dentro de um determinado conjunto de dados. Por exemplo, esse modelo pode ser usado para classificar clientes ou clientes em potencial em grupos para fins de segmentação. Ou então, ele também pode ser usado para responder perguntas com resultados binários, como responder sim ou não ou verdadeiro e falso; casos de uso populares para isso são detecção de fraude e avaliação de risco de crédito. Os tipos de modelos de classificação incluem regressão logística, árvores de decisão, floresta aleatória, redes neurais e Naïve Bayes.
Modelos de agrupamento
Os modelos de agrupamento se enquadram em aprendizado não supervisionado. Eles agrupam dados com base em atributos semelhantes. Por exemplo, um site de comércio eletrônico pode usar o modelo para separar os clientes em grupos semelhantes com base em recursos comuns e desenvolver estratégias de marketing para cada grupo. Algoritmos comuns de agrupamento incluem agrupamento k-means, agrupamento de desvio médio, agrupamento espacial baseado em densidade de aplicativos com ruído (DBSCAN), agrupamento de maximização de expectativas (EM) utilizando modelos de mistura gaussianos (GMM) e agrupamento hierárquico.
Modelos de séries temporais
Os modelos de séries temporais usam várias entradas de dados em uma frequência de tempo específica, como diariamente, semanalmente, mensalmente etc. É comum plotar a variável dependente ao longo do tempo para avaliar os dados quanto à sazonalidade, tendências e comportamento cíclico, o que pode indicar a necessidade de transformações e tipos de modelos específicos. Os modelos autorregressivos (AR), média móvel (MA), ARMA e ARIMA são modelos de séries temporais usados com frequência. Por exemplo, uma central de atendimento pode usar um modelo de série temporal para prever quantas chamadas serão recebidas por hora em diferentes horários do dia.