My IBM Se connecter
En quoi consiste la détection des anomalies ?

En quoi consiste la détection des anomalies ?

Découvrir Databand
Image représentant les sources de données menant à l'écran

Publication : 12 décembre 2023
Collaborateurs : Joel Barnard

En quoi consiste la détection des anomalies ?

En quoi consiste la détection des anomalies ?

La détection des anomalies, ou des données aberrantes, consiste à identifier une observation, un événement ou un point de données qui s'écarte de la norme ou des attentes, ce qui le rend incohérent par rapport aux autres données.

La détection des anomalies a une longue histoire dans le domaine des statistiques, où les analystes et les scientifiques étudiaient les graphiques à la recherche d'éléments qui semblaient anormaux. Aujourd'hui, la détection d'anomalies s'appuie sur l'intelligence artificielle (IA) et le machine learning (ML) pour identifier automatiquement les variations inattendues du comportement normal d'un ensemble de données.

Les données anormales peuvent signaler des incidents critiques se produisant sous le capot, tels qu'une défaillance de l'infrastructure, une modification majeure provenant d'une source en amont ou des menaces pour la sécurité. Les anomalies peuvent également mettre en évidence des possibilités d'optimisation de l'architecture ou d'amélioration des stratégies de marketing.

La détection des anomalies est utilisée dans de nombreux secteurs d'activité. Par exemple, elle est utilisée dans la finance pour détecter les fraudes, dans la fabrication pour identifier les défauts ou les dysfonctionnements des équipements, dans la cybersécurité pour détecter les activités inhabituelles des réseaux et dans le secteur des soins de santé pour identifier les conditions anormales des patients.

La détection des données aberrantes peut s'avérer difficile car les anomalies sont souvent rares et les caractéristiques d'un comportement normal peuvent être complexes et dynamiques. Du point de vue de l'entreprise, il est essentiel d'identifier les anomalies réelles plutôt que les faux positifs ou le bruit des données.

Réservez votre démo IBM Databand

Découvrez comment l’observabilité proactive des données peut vous aider à détecter les incidents de données plus tôt et à les résoudre plus rapidement.

Contenu connexe Abonnez-vous à la newsletter IBM
Pourquoi la détection des anomalies est-elle importante ?

Pourquoi la détection des anomalies est-elle importante ?

Les anomalies de données peuvent avoir un impact significatif dans le domaine de la science des données, conduisant à des conclusions incorrectes ou trompeuses. Par exemple, une seule donnée aberrante peut fausser considérablement la moyenne d'un ensemble de données, ce qui en fait une représentation inexacte. En outre, les anomalies de données peuvent avoir un impact sur les performances des algorithmes de machine learning, car elles peuvent amener le modèle à s'adapter au bruit plutôt qu'au modèle sous-jacent des données.

L'identification et la gestion des anomalies des données sont cruciales pour plusieurs raisons : 

L'amélioration de la qualité des données : l'identification et la gestion des anomalies des données peuvent considérablement améliorer la qualité des données, ce qui est essentiel pour en effectuer une analyse précise et fiable.

Une meilleure prise de décision : la prise de décision basée sur les données repose sur une analyse de données précise et fiable. En identifiant et en traitant les anomalies dans les données, les analystes peuvent garantir que leurs conclusions sont plus fiables, ce qui conduirait alors à des décisions plus éclairées et à de meilleurs résultats.

Des performances de machine learning optimisées : les anomalies dans les données peuvent avoir un impact significatif sur les performances des algorithmes de machine learning, car elles peuvent amener le modèle à s'adapter au bruit plutôt qu'au modèle sous-jacent dans les données. En identifiant et en traitant les anomalies de données, les analystes peuvent optimiser les performances de leurs modèles de machine learning, en s'assurant qu'ils fournissent des prédictions précises et fiables.

Les types d'anomalies

Les types d'anomalies

Les types d'anomalies de données qu'un système de détection d'anomalies peut mettre au jour se classent en deux catégories générales : involontaires et intentionnelles.

Les anomalies involontaires sont des points de données qui s'écartent de la norme en raison d'erreurs ou de bruit dans le processus de collecte des données. Ces erreurs peuvent être systématiques ou aléatoires et provenir de problèmes tels que des capteurs défectueux ou des erreurs humaines lors de la saisie des données. Elles peuvent fausser l'ensemble des données, ce qui rend difficile l'obtention d'informations précises.

D’autre part, les anomalies intentionnelles sont des points de données qui s’écartent de la norme en raison d’actions ou d’événements spécifiques. Elles peuvent fournir des informations précieuses sur l'ensemble des données, car elles peuvent mettre en évidence des occurrences ou des tendances uniques.

Par exemple, un pic soudain des ventes pendant les fêtes de fin d'année peut être considéré comme une anomalie intentionnelle, car il s'écarte du modèle de vente habituel mais est attendu en raison d'un événement réel.

En ce qui concerne les données commerciales, il existe trois principales anomalies dans les ensembles temporels : ponctuelles, contextuelles et collectives.

Les anomalies ponctuelles, également connues sous le nom de données aberrantes globales, sont des points de données individuels qui se distinguent nettement des autres. Elles peuvent être intentionnelles ou non et résulter d'erreurs, de bruit ou d'événements uniques.

Un exemple d'anomalie ponctuelle est un retrait sur un compte bancaire qui est nettement plus important que tous les retraits précédents de l'utilisateur.   

Les anomalies contextuelles sont des points de données qui s'écartent de la norme dans un contexte spécifique. Ces anomalies ne sont pas nécessairement aberrantes lorsqu'elles sont considérées séparément, mais elles deviennent anormales lorsqu'elles sont considérées dans leur contexte spécifique.

Prenons l'exemple de la consommation d'énergie d'un foyer. Si l'on constate une augmentation soudaine de la consommation d'énergie à midi, alors qu'aucun membre de la famille n'est habituellement à la maison, l'anomalie est contextuelle. Ce point de données n'est peut-être pas aberrant par rapport à la consommation d'énergie du matin ou du soir (lorsque les gens sont habituellement à la maison), mais il est anormal compte tenu du moment de la journée où il se produit.

Les anomalies collectives impliquent un ensemble de données qui s'écartent de la norme, même si les données individuelles peuvent sembler normales.

Un exemple de ce type d'anomalie serait un ensemble de données sur le trafic réseau qui indiquerait une augmentation soudaine du trafic en provenance de plusieurs adresses IP en même temps.

Méthodes de détection des anomalies

Méthodes de détection des anomalies

L'utilisation d'un système de détection des anomalies pour détecter les anomalies des données est un aspect essentiel de l'analyse des données, qui permet de s'assurer que les résultats sont précis et fiables. Différentes méthodes de détection des anomalies peuvent être utilisées pour en créer un système :

La visualisation est un outil puissant pour détecter les anomalies dans les données, car elle permet aux data scientists d'identifier rapidement les données aberrantes et les tendances potentielles. En traçant les données à l'aide de diagrammes et de graphiques, les analystes peuvent inspecter visuellement l'ensemble des données pour y déceler des points de données ou des tendances inhabituels.

Les tests statistiques peuvent être utilisés par les data scientists pour détecter des anomalies dans les données en comparant les données observées avec la distribution ou le modèle attendu.

Par exemple, le test de Grubbs peut être utilisé pour identifier les données aberrantes dans un ensemble de données en comparant chaque point de données à la moyenne et à l'écart-type de celles-ci. De même, le test de Kolmogorov-Smirnov peut être utilisé pour déterminer si un ensemble de données suit une distribution spécifique, telle qu'une distribution normale.

Les algorithmes de machine learning peuvent être utilisés pour détecter des anomalies dans les données en identifiant le modèle sous-jacent et en décelant tout écart par rapport à ce modèle. Parmi les algorithmes de détection d'anomalies par machine learning les plus courants, on peut citer :

  • Les arbres de décision : Un type d'arbre de décision, l'Isolation Forest, est une méthode d'apprentissage par ensemble qui isole les anomalies en sélectionnant aléatoirement une caractéristique, puis en sélectionnant aléatoirement une valeur de partage entre les valeurs maximale et minimale de la caractéristique sélectionnée.

  • La machine à vecteurs de support (SVM) à classe unique : la SVM à classe unique est une méthode d'algorithme de classification entraînée uniquement sur les instances « normales », visant à définir une limite qui englobe les données normales.Les instances se trouvant en dehors de cette limite sont considérées comme des anomalies.

  • Les k plus proches voisins (k-NN) : k-NN est un algorithme simple qui classe un point de données en fonction de la classe majoritaire de ses k voisins les plus proches. Les instances qui ont beaucoup moins de voisins de la même classe peuvent être considérées comme des anomalies.

  • Naive Bayesian : ces méthodes définissent la probabilité qu'un événement se produise en fonction de la présence de facteurs contributifs et détectent les liens avec la même origine du problème.

  • Autoencodeurs : un type de réseau neuronal qui utilise des données horodatées pour prévoir des modèles de données et identifier les anomalies qui ne correspondent pas aux données historiques. 

  • Le facteur local de données aberrantes (LOF) : le LOF est un algorithme basé sur la densité qui mesure l'écart de densité locale d'un point de données par rapport à ses voisins. Les points dont la densité est nettement inférieure à celle de leurs voisins sont considérés comme des données aberrantes.

  • K-moyennes : k-moyennes ou k-means est une technique de regroupement qui analyse la distance moyenne des points de données non étiquetés et permet ensuite de les regrouper dans des groupes spécifiques. 
Les techniques de détection des anomalies

Les techniques de détection des anomalies

Un algorithme de détection des anomalies peut apprendre à identifier des modèles et à détecter des données anormales à l'aide de diverses techniques d'entraînement par machine learning. La quantité de données étiquetées, le cas échéant, dans l'ensemble de données d'entraînement d'une équipe de données détermine laquelle des principales techniques de détection d'anomalies sera utilisée : non supervisée, supervisée ou semi-supervisée.

Avec les techniques de détection d'anomalies non supervisées, les ingénieurs en données forment un modèle en lui fournissant des ensembles de données non étiquetées qu'il utilise pour détecter des modèles ou des anomalies par lui-même. Bien que ces techniques soient de loin les plus utilisées en raison de leur application plus large et pertinente, elles nécessitent des ensembles de données et une puissance de calcul considérables. La méthode de machine learning non supervisée est le plus souvent utilisée dans les scénarios d'apprentissage profond, qui reposent sur des réseaux neuronaux artificiels.

Les techniques de détection d'anomalies supervisées utilisent un algorithme formé sur un ensemble de données étiquetées comprenant à la fois des cas normaux et des cas anormaux. En raison de l'indisponibilité générale de données d'entraînement étiquetées et de la nature intrinsèquement déséquilibrée des classes, ces techniques de détection d'anomalies sont rarement utilisées. 

Les techniques semi-supervisées maximisent les attributs positifs de la détection d'anomalies non supervisée et de la détection d'anomalies supervisée. En fournissant à un algorithme une partie des données étiquetées, il peut être partiellement entraîné. Les ingénieurs en données utilisent ensuite l'algorithme partiellement entraîné pour étiqueter de manière autonome un ensemble de données plus important, ce que l'on appelle le « pseudo-étiquetage ». S'ils s'avèrent fiables, ces points de données nouvellement étiquetés sont combinés à l'ensemble de données original pour affiner l'algorithme.

Trouver la bonne combinaison de machine learning supervisé et non supervisé est essentiel pour l'automatisation du machine learning. Idéalement, la grande majorité des classifications de données devraient être effectuées sans interaction humaine, de manière non supervisée. Cela dit, les ingénieurs de données devraient toujours être en mesure d'alimenter les algorithmes avec des données d'entraînement qui aideront à créer des bases de référence pour les activités quotidiennes. Une approche semi-supervisée permet de moduler la détection d'anomalies tout en offrant la possibilité d'établir des règles manuelles concernant des anomalies spécifiques.

Cas d'utilisation de la détection d'anomalies

Cas d'utilisation de la détection d'anomalies

Les modèles de détection des anomalies sont largement utilisés dans les secteurs de la banque, de l'assurance et de la bourse pour identifier les activités frauduleuses en temps réel, telles que les transactions non autorisées, le blanchiment d'argent, la fraude à la carte de crédit, les fausses déclarations d'impôts et les tendances commerciales anormales.

Dans le domaine de la cybersécurité, un système de détection d'intrusion (IDS) fait appel à la détection d'anomalies pour aider à identifier des activités inhabituelles ou suspectes dans le trafic du réseau, indiquant des menaces ou des attaques potentielles pour la sécurité, telles que des attaques par logiciels malveillants ou des accès non autorisés.

Elle est utilisée dans le secteur des soins de santé pour identifier des conditions inhabituelles chez les patients ou des anomalies dans les données médicales, ce qui permet de détecter des maladies, de surveiller la santé des patients et de les traiter plus efficacement.

Dans le secteur de la fabrication, les algorithmes de détection des anomalies, ainsi que la vision par ordinateur, sont utilisés pour identifier les défauts dans les produits ou les emballages en procédant à l'analyse d'images de caméras haute résolution, de données de capteurs et d'indicateurs de production.

Elle est utilisée pour surveiller les performances des systèmes informatiques et assurer le bon déroulement des opérations en identifiant des tendances inhabituelles dans les journaux des serveurs et en reconstituant les défauts sur la base de tendances et d'expériences passées afin de prédire les problèmes ou les défaillances potentiels.

La détection des anomalies permet de prévoir les pannes d'équipement ou les besoins de maintenance dans des secteurs tels que l'aviation, l'énergie et les transports. Les capteurs alimentés par l'IdO sont utilisés pour collecter des données sur les équipements industriels, identifier les déviations et prédire les futures défaillances.

Elle est utilisée pour surveiller les schémas de consommation d'énergie et identifier les anomalies d'utilisation, ce qui peut conduire à une gestion plus efficace de l'énergie et à une détection précoce des pannes d'équipement.

Dans le domaine du e-commerce, la détection des anomalies est utilisée pour identifier les activités frauduleuses, telles que les faux avis, les piratages de compte ou les comportements d'achat anormaux.

Les entreprises utilisent également des modèles de détection d'anomalies pour identifier des comportements inhabituels chez les clients, ce qui les aide à détecter les fraudes, à prédire l'attrition de la clientèle et à optimiser leurs stratégies de marketing.

Produits associés

Produits associés

IBM Databand

Conçu pour les entrepôts et les pipelines de données, IBM® Databand® est un logiciel d’observabilité qui collecte automatiquement les métadonnées afin de créer des lignes de base historiques, de détecter les anomalies et de trier les alertes permettant de résoudre les problèmes de qualité des données.

Découvrir Databand

IBM DataStage

En prenant en charge les modèles ETL et ELT, IBM DataStage offre une intégration flexible et en temps quasi réel des données sur site et dans le cloud.

Explorer DataStage

IBM Knowledge Catalog

IBM® Knowledge Catalog est un catalogue de données intelligent optimisé pour l'IA, conçu pour faciliter l’accès, le classement et le partage des données, des actifs de connaissances et de leurs relations, où qu’ils se trouvent.

Explorer Knowledge Catalog
Ressources

Ressources

Utilisation de la détection d'anomalies de Databand pour respecter les délais de livraison des données

Dans cet article, vous découvrirez comment la détection d’anomalies de Databand aide les équipes chargées des données à identifier plus rapidement les problèmes liés au pipeline de données, afin qu’elles puissent mieux respecter les SLA qu’elles se sont fixés en la matière.

Apprentissage supervisé ou non supervisé

Découvrir les bases de deux approches en science des données : supervisées et non supervisées. Découvrez quelle approche convient le mieux à votre entreprise.

Comment garantir la qualité, la valeur et la fiabilité des données

Il incombe aux ingénieurs de données de veiller à la qualité des données, mais aussi au reste de l’entreprise. Cet article vous propose de découvrir pourquoi la qualité des données est fondamentale, comment réaliser des audits, surveiller vos données et obtenir l’adhésion des principales parties prenantes.

Passez à l’étape suivante

Mettez en œuvre une observabilité proactive des données avec IBM® Databand dès aujourd’hui afin d’être au courant des problèmes d’intégrité des données avant vos utilisateurs.

Découvrir Databand