Identifier l'algorithme des observations inhabituelles

Cet algorithme se compose de trois étapes :

Modélisation. La procédure crée un modèle de classification qui explique les regroupements naturels (ou les clusters) au sein d'un jeu de données qui, autrement, ne seraient pas apparents. La mise en cluster est basée sur un ensemble de variables d'entrée. Le modèle de classification résultant et les statistiques suffisantes pour calculer les normes de groupe de clusters sont stockés pour une utilisation ultérieure.

Scoring. Le modèle est appliqué à chaque observation pour identifier son groupe de clusters, et des index sont créés pour chaque observation afin de mesurer l'inusualité de l'observation par rapport à son groupe de clusters. Toutes les observations sont triées selon les valeurs des index d'anomalies. La première partie de la liste d'observations est identifiée comme étant l'ensemble des anomalies.

Raisonnement. Pour chaque observation anormale, les variables sont triées par index d'écart de variable correspondant. Les premières variables, leurs valeurs, ainsi que les valeurs de norme correspondantes représentent les raisons pour lesquelles une observation est identifiée comme étant une anomalie.