Os tipos de anomalias de dados que um sistema de detecção de anomalias pode descobrir se enquadram em um dos dois tipos gerais: não intencionais e intencionais.
Anomalias não intencionais
As anomalias não intencionais são pontos de dados que se desviam da norma devido a erros ou ruído no processo de coleta de dados.
Esses erros podem ser sistemáticos ou aleatórios, originados por problemas como sensores defeituosos ou erro humano durante a entrada de dados. Anomalias não intencionais podem distorcer o conjunto de dados, dificultando a obtenção de insights precisos.
Anomalias intencionais
Por outro lado, as anomalias intencionais são pontos de dados que se desviam da norma devido a ações ou eventos específicos.
Essas anomalias podem fornecer insights valiosos sobre o conjunto de dados, pois podem destacar ocorrências ou tendências exclusivas.
Por exemplo, um aumento repentino nas vendas durante uma época festiva pode ser considerado uma anomalia intencional, pois se desvia do padrão de vendas típico, mas é esperado devido a um evento do mundo real.
Em termos de dados de negócios, existem três anomalias principais de dados de séries temporais: anomalias pontuais, anomalias contextuais e anomalias coletivas.
Anomalias pontuais
As anomalias pontuais, também conhecidas como valores discrepantes globais, são pontos de dados individuais que estão muito fora do restante do conjunto de dados. Eles podem ser intencionais ou não intencionais e podem resultar de erros, ruídos ou ocorrências únicas.
Um exemplo de anomalia pontual é um saque de conta bancária que é significativamente maior do que qualquer um dos saques anteriores do usuário.
Anomalias contextuais
Anomalias contextuais são pontos de dados que se desviam da norma dentro de um contexto específico. Essas anomalias não são necessariamente valores discrepantes quando consideradas isoladamente, mas se tornam anômalas quando vistas dentro de seu contexto específico.
Por exemplo, considere o uso de energia doméstica. Se houver um aumento repentino no consumo de energia ao meio-dia, quando normalmente nenhum membro da família está em casa, a anomalia seria contextual. Este dado pode não ser um valor discrepante quando comparado ao consumo de energia pela manhã ou à noite (quando as pessoas geralmente estão em casa), mas é anômalo no contexto da hora do dia em que ocorreu.
Anomalias coletivas
As anomalias coletivas envolvem um conjunto de instâncias de dados que juntas se desviam da norma, mesmo que as instâncias individuais possam parecer normais.
Um exemplo desse tipo de anomalia seria um conjunto de dados de tráfego de rede que mostra um aumento repentino no tráfego de vários endereços IP ao mesmo tempo.