Détecter les anomalies

La procédure de détection des anomalies vise à repérer les observations inhabituelles en se basant sur les écarts par rapport aux normes de leurs groupes de clusters. La procédure est destinée à détecter rapidement les observations inhabituelles afin de vérifier les données à l'étape d'analyse exploratoire des données, avant d'effectuer toute sorte d'analyse inférentielle de ces mêmes données. Cet algorithme sert à détecter des anomalies générales. Il est vrai que la définition d'une observation anormale ne s'applique pas à tous les secteurs. Par exemple, la définition d'une anomalie peut être clairement définie lorsqu'il s'agit de détecter des moyens de paiements inhabituels dans l'industrie pharmaceutique ou du blanchissement d'argent dans l'industrie bancaire.

Exemple
Un analyste de données employé pour construire des modèles capables de prédire les résultats obtenus suite au traitement d'attaques cardiaques cherche des données de qualité, car de tels modèles sont sensibles aux observations inhabituelles. Certaines de ces observations éloignées sont des observations tout à fait uniques et s'avèrent donc inexploitables en matière de prédiction, alors que d'autres sont dues à des erreurs de saisie de données dans lesquelles les valeurs sont techniquement « correctes » sans pouvoir toutefois être prises en compte par les procédures de validation de données. La procédure Détecter les anomalies sert à identifier ces valeurs extrêmes et à en dresser la liste afin que l'analyste puisse décider de la manière de les traiter.
Statistiques
La procédure génère des groupes d'homologues, des normes de groupes d'homologues pour des variables continues et catégorielles, des indices d'anomalies basés sur les écarts par rapport aux normes de groupes d'homologues, ainsi que des valeurs d'impact de variables pour les variables contribuant le plus à une observation considérée comme inhabituelle.

Remarques sur les données

Données
Cette procédure fonctionne avec des variables continues et catégorielles. Chaque ligne représente une observation distincte tandis que chaque colonne représente une variable différente sur laquelle les groupes d'homologues sont basés. Une variable d'identification d'observations est disponible dans le fichier de données pour marquer les sorties, mais elle ne sera pas utilisée dans l'analyse. Les valeurs manquantes sont autorisées. La variable de pondération est ignorée, si indiquée auparavant.
Le modèle de détection peut être appliqué à un nouveau fichier de données de test. Les éléments des données du test doivent être identiques aux éléments contenus dans les données de formation. Et, en fonction des paramètres d'algorithme, le traitement de la valeur manquante utilisé pour créer le modèle doit être appliqué au fichier de données de test avant d'effectuer une évaluation.
Classement des observations
Notez que la solution peut dépendre de l'ordre des observations. Pour réduire les effets de tri, classez les observations de manière aléatoire. Pour vérifier la stabilité d'une solution donnée, vous pouvez obtenir différentes solutions dans lesquelles les observations sont triées de différentes manières aléatoires. Si les fichiers sont très volumineux, vous pouvez effectuer plusieurs fois l'opération sur un échantillon des observations triées de différentes manières aléatoires.
Hypothèses
L'algorithme suppose que toutes les variables sont non constantes et indépendantes, et qu'aucune observation ne possède de valeur manquante pour les variables d'entrée. Chaque variable continue est considérée comme ayant une distribution normale (gaussienne) et chaque variable catégorielle comme ayant une distribution multinomiale. Des tests internes empiriques indiquent que la procédure est assez résistante aux violations de l'hypothèse d'indépendance et des hypothèses de distribution, mais vous devez savoir comment ces hypothèses sont vérifiées.

Utilisez la procédure Corrélations bivariées pour tester l'indépendance des deux variables continues. Utilisez la procédure Tableaux croisés pour tester l'indépendance de deux variables catégorielles. Utilisez la procédure Explorer pour tester la normalité d'une variable continue. Utilisez la procédure Test du Khi-carré pour tester si une variable catégorielle possède une distribution multinomiale spécifique.

Identification des observations anormales

Cette fonction requiert Statistics Base Edition.

  1. A partir des menus, sélectionnez :

    Données > Détecter les anomalies...

  2. Cliquez sur Sélectionner les variables sous la section Définir les variables d'analyse, sélectionnez au moins une variable pour rechercher des observations inhabituelles en fonction des écarts par rapport aux normes de leurs groupes de clusters, puis cliquez sur OK.
  3. Cliquez sur Sélectionner une variable sous la section Variable d'identification d'observation, choisissez une variable d'identification d'observation à utiliser dans la sortie de libellé et cliquez sur OK.
  4. Vous pouvez également développer le menu Paramètres supplémentaires et sélectionner les éléments suivants :
    • Cliquez sur Statistiques pour sélectionner les statistiques à inclure dans la sortie.
    • Cliquez sur Enregistrer dans le jeu de données pour sélectionner des options d'enregistrement des variables de modèle.
    • Cliquez sur Options pour sélectionner les paramètres des critères d'observation inhabituels, le nombre de groupes d'homologues/raisons, et le traitement des valeurs manquantes.
    • Cliquez sur Exportation de modèle pour spécifier les options d'enregistrement du modèle dans un fichier XML externe.
  5. Cliquez sur Appliquer.

Champs avec un niveau de mesure inconnu

L'alerte du niveau de mesure s'affiche lorsque le niveau de mesure d'une ou plusieurs variables (champs) du jeu de données est inconnu. Le niveau de mesure ayant une incidence sur le calcul des résultats de cette procédure, toutes les variables doivent avoir un niveau de mesure défini.

Analysez les données
Lit les données dans le jeu de données actifs et attribue le niveau de mesure par défaut à tous les champs ayant un niveau de mesure inconnu. Si le jeu de données est important, cette action peut prendre un certain temps.
Affecter manuellement
Répertorie tous les champs ayant un niveau de mesure inconnu. Vous pouvez affecter un niveau de mesure à ces champs. Vous pouvez également affecter un niveau de mesure dans le panneau Liste de variables de l'éditeur de données.

Le niveau de mesure étant important pour cette procédure, vous ne pouvez pas exécuter celle-ci avant que tous les champs n'aient des niveaux de mesure définis.

Cette procédure reproduit la syntaxe de commande DETECTANOMALY.