Técnicas de aprendizado não supervisionado não requerem dados rotulados e podem lidar com conjuntos de dados mais complexos. O aprendizado não supervisionado é alimentado por aprendizado profundo e neural networks ou codificadores automáticos que imitam a maneira como os neurônios biológicos sinalizam uns para os outros. Essas ferramentas avançadas podem encontrar padrões nos dados de input e fazer suposições sobre quais dados são percebidos como normais.
Essas técnicas podem ajudar muito a descobrir anomalias desconhecidas e a reduzir o trabalho de examinar manualmente grandes conjuntos de dados. No entanto, cientistas de dados devem monitorar os resultados coletados por meio de aprendizado não supervisionado. Como essas técnicas estão fazendo suposições sobre os dados que estão sendo inseridos, é possível que elas rotulem incorretamente as anomalias.
Os algoritmos de aprendizado de máquina para dados não estruturados incluem:
K-means: Este algoritmo é uma técnica de visualização de dados que processa pontos de dados por meio de uma equação matemática com a intenção de agrupar pontos de dados semelhantes. "Médias", ou dados médios, referem-se aos pontos no centro do cluster aos quais todos os outros dados estão relacionados. Por meio da análise de dados, esses agrupamentos podem ser usados para encontrar padrões e fazer inferências sobre dados considerados fora do comum.
Floresta de isolamento: esse tipo de algoritmo de detecção de anomalias usa dados não supervisionados. Ao contrário das técnicas de detecção de anomalias supervisionadas, que funcionam a partir de pontos de dados normais rotulados, essa técnica tenta isolar anomalias como a primeira etapa. Semelhante a uma “floresta aleatória”, ele cria “árvores de decisão”, que mapeiam os pontos de dados e selecionam aleatoriamente uma área para analisar. Esse processo é repetido, e cada ponto recebe uma pontuação de anomalia entre 0 e 1, com base em sua localização em relação aos outros pontos; valores abaixo de 0,5 são geralmente considerados normais, enquanto valores que excedem esse limite têm maior probabilidade de serem anômalos. Modelos de floresta de isolamento podem ser encontrados na biblioteca gratuita de aprendizado de máquina para o Python, scikit-learn.
Máquina de vetores de suporte de uma classe (SVM): essa técnica de detecção de anomalias usa dados de treinamento para estabelecer limites em torno do que é considerado normal. Os pontos agrupados dentro dos limites definidos são considerados normais e os que estão fora são rotulados como anomalias.