Le tecniche di apprendimento non supervisionato non richiedono dati etichettati e possono gestire set di dati più complessi. L'apprendimento non supervisionato è alimentato dal deep learning e dalle reti neurali o codificatori automatici che imitano il modo in cui i neuroni biologici si segnalano a vicenda. Questi potenti strumenti possono trovare modelli dai dati di input e fare ipotesi su quali dati sono percepiti come normali.
Queste tecniche possono essere molto utili per scoprire anomalie sconosciute e ridurre il lavoro di vaglio manuale di grandi set di dati. Tuttavia, sarebbe necessario che i data scientist monitorino i risultati raccolti attraverso l'apprendimento non supervisionato. Poiché queste tecniche fanno ipotesi sui dati da inserire, può accadere che etichettino in modo errato le anomalie.
Gli algoritmi di machine learning per dati non strutturati includono:
K-means: questo algoritmo è una tecnica di visualizzazione dei dati che elabora i punti dati attraverso un'equazione matematica con l'intenzione di raggruppare punti dati simili. "Means", ovvero dati medi, si riferisce ai punti al centro del cluster a cui sono correlati tutti gli altri dati. Attraverso l'analisi dei dati, questi cluster possono essere utilizzati per trovare modelli e fare inferenze su dati che risultano fuori dal comune.
Isolation forest: questo tipo di algoritmo di rilevamento delle anomalie utilizza dati non supervisionati. A differenza delle tecniche di rilevamento delle anomalie supervisionate, che funzionano da punti dati normali etichettati, questa tecnica tenta di isolare le anomalie come primo passaggio. Simile a una foresta casuale, crea alberi decisionali che mappano i punti dati e selezionano casualmente un'area da analizzare. Questo processo viene ripetuto e ogni punto riceve un punteggio di anomalia compreso tra 0 e 1, in base alla sua posizione rispetto agli altri punti; i valori inferiori a 0,5 sono generalmente considerati normali, mentre i valori che superano tale soglia hanno maggiori probabilità di essere anomali. I modelli di isolation forest sono disponibili nella libreria gratuita di machine learning scikit-learn di Python.
One-class support vector machine (SVM): questa tecnica di rilevamento delle anomalie utilizza i dati di addestramento per stabilire i limiti di ciò che è considerato normale. I punti raggruppati entro i limiti stabiliti sono considerati normali e quelli esterni sono etichettati come anomalie.