Las técnicas de aprendizaje no monitorear no requieren datos etiquetados y pueden manejar conjuntos de datos más complejos. El aprendizaje no monitorear está impulsado por el aprendizaje profundo y neural networks o codificadores automáticos que imitan la forma en que las neuronas biológicas se señalan entre sí. Estas poderosas herramientas pueden encontrar patrones a partir de los datos de entrada y hacer suposiciones sobre qué datos se perciben como normales.
Estas técnicas pueden ser de gran ayuda para descubrir anomalías desconocidas y reducir el trabajo de tamizar manualmente grandes conjuntos de datos. Sin embargo, los científicos de datos deben monitorear los resultados recopilados a través del aprendizaje no monitorear. Debido a que estas técnicas hacen suposiciones sobre los datos que se ingresan, es posible que etiqueten incorrectamente las anomalías.
Los algoritmos de machine learning para datos no estructurados incluyen:
K-means: Este algoritmo es una técnica de visualización de datos que procesa puntos de datos a través de una ecuación matemática con la intención de agrupar puntos de datos similares. “Medios”, o datos promedio, se refiere a los puntos en el centro del cluster con los que están relacionados todos los demás datos. A través del análisis de datos, estos clústeres se pueden utilizar para encontrar patrones y hacer inferencias sobre datos que se encuentran fuera de lo común.
Bosque de aislamiento: este tipo de algoritmo de detección de anomalías emplea datos no monitorear. A diferencia de las técnicas monitorear de detección de anomalías, que funcionan a partir de puntos de datos normales etiquetados, esta técnica intenta aislar las anomalías como primer paso. Similar a un "bosque aleatorio ", crea "decision trees", que mapean los puntos de datos y seleccionan aleatoriamente un área para analizar. Este proceso se repite y cada punto recibe un puntaje de anomalía entre 0 y 1, en función de su ubicación con respecto a los otros puntos; los valores por debajo de 0.5 generalmente se consideran normales, mientras que los valores que superan ese umbral tienen más probabilidades de ser anómalos. Los modelos de bosque de aislamiento se pueden encontrar en la biblioteca gratuita de machine learning para Python, scikit-learn.
Máquina de vectores de soporte de una clase (SVM): Esta técnica de detección de anomalías emplea datos de entrenamiento para establecer límites en torno a lo que se considera normal. Los puntos agrupados dentro de los límites establecido se consideran normales y los que están fuera se etiquetan como anomalías.