Las técnicas de aprendizaje no supervisado no requieren datos etiquetados y pueden manejar conjuntos de datos más complejos. El aprendizaje no supervisado se nutre del deep learning y de redes neuronales o autocodificadores que imitan la forma en que las neuronas biológicas se señalan entre sí. Estas potentes herramientas pueden encontrar patrones a partir de los datos de entrada y hacer suposiciones sobre qué datos se perciben como normales.
Estas técnicas pueden ayudar mucho a descubrir anomalías desconocidas y reducir el trabajo de cribar manualmente grandes conjuntos de datos. Sin embargo, los científicos de datos deben vigilar los resultados obtenidos mediante el aprendizaje no supervisado. Dado que estas técnicas hacen suposiciones sobre los datos que se introducen, es posible que etiqueten incorrectamente las anomalías.
Los algoritmos de aprendizaje automático para datos no estructurados incluyen:
K-medias: este algoritmo es una técnica de visualización de datos que procesa puntos de datos mediante una ecuación matemática con la intención de agrupar puntos de datos similares. "Media", o dato medio, se refiere a los puntos del centro del conglomerado con los que están relacionados todos los demás datos. Mediante el análisis de datos, estas agrupaciones pueden utilizarse para encontrar patrones y hacer inferencias sobre los datos que se encuentran fuera de lo normal.
Bosque de aislamiento: este tipo de algoritmo de detección de anomalías utiliza datos no supervisados. A diferencia de las técnicas supervisadas de detección de anomalías, que trabajan a partir de puntos de datos normales etiquetados, esta técnica intenta aislar las anomalías como primer paso. Al igual que un "bosque aleatorio" crea "árboles de decisión", que mapean los puntos de datos y seleccionan aleatoriamente un área para analizar. Este proceso se repite, y cada punto recibe una puntuación de anomalía entre 0 y 1, en función de su ubicación respecto a los demás puntos; los valores inferiores a 0,5 suelen considerarse normales, mientras que los que superan ese umbral tienen más probabilidades de ser anómalos. Los modelos de bosque de aislamiento se pueden encontrar en la biblioteca gratuita de machine learning para Python, scikit-learn.
Máquina de vectores de soporte de una clase (SVM): esta técnica de detección de anomalías utiliza datos de entrenamiento para establecer límites en torno a lo que se considera normal. Los puntos agrupados dentro de los límites establecidos se consideran normales y los que quedan fuera se etiquetan como anomalías.