Les techniques d'apprentissage non supervisé ne nécessitent pas de données étiquetées et peuvent gérer des ensembles de données plus complexes. L’apprentissage non supervisé est alimenté par l’apprentissage profond et les réseaux neuronaux ou les auto-encodeurs qui sont inspirés du fonctionnement du cerveau humain. Ces outils puissants peuvent identifier des schémas à partir des données entrantes et formuler des hypothèses sur les données perçues comme normales.
Ces techniques peuvent contribuer grandement à découvrir des anomalies inconnues et à réduire le travail de filtrage manuel de grands ensembles de données. Cependant, les data scientists doivent surveiller les résultats recueillis grâce à l'apprentissage non supervisé. Le caractère hypothétique des méthodes d'apprentissage non supervisé peut conduire à des erreurs d'identification des anomalies.
Les algorithmes de machine learning pour les données non structurées sont les suivants :
K-moyennes : cet algorithme est une technique de visualisation des données qui traite les points de données via une équation mathématique dans le but de regrouper les points de données similaires. Les « moyennes » ou données moyennes, se réfèrent aux points au centre du cluster auxquels toutes les autres données sont liées. Grâce à l'analyse des données, ces clusters peuvent être utilisés pour trouver des modèles et faire des inférences sur les données qui sont jugées anormales.
Forêt d’isolement : ce type d’algorithme de détection d’anomalies utilise des données non supervisées. Contrairement aux techniques de détection d’anomalies supervisées, qui fonctionnent à partir de points de données normaux étiquetés, cette technique tente d’isoler les anomalies dans un premier temps. Semblable à une « forêt aléatoire », il crée des « arbres de décision » qui cartographient les points de données et sélectionnent aléatoirement une zone à analyser. Ce processus est répété, et chaque point reçoit un score d’anomalie entre 0 et 1, en fonction de son emplacement par rapport aux autres points ; les valeurs inférieures à 0,5 sont généralement considérées comme normales, tandis que les valeurs qui dépassent ce seuil sont plus susceptibles d’être anormales. Des modèles de forêt d’isolement sont disponibles dans la bibliothèque gratuite de machine learning pour Python, scikit-learn.
Machine à vecteurs de support (SVM) à classe unique : Cette technique de détection des anomalies utilise des données d'entraînement pour définir des limites à ce qui est considéré comme normal. Les points regroupés à l’intérieur des limites définies sont considérés comme normaux et ceux à l’extérieur sont étiquetés comme des anomalies.