En quoi consiste la détection des anomalies ?

Femme d’affaires travaillant sur une tablette au bureau

En quoi consiste la détection d’anomalies ?

La détection d’anomalies, ou des données aberrantes, consiste à identifier des observations, des événements ou des points de données qui s’écartent de la norme ou des attentes, ce qui les rend incohérents par rapport aux autres données.

La détection des anomalies a une longue histoire dans le domaine des statistiques, où les analystes et les scientifiques étudiaient les graphiques à la recherche d'éléments qui semblaient anormaux. Aujourd'hui, la détection d'anomalies s'appuie sur l'intelligence artificielle (IA) et le machine learning (ML) pour identifier automatiquement les variations inattendues du comportement normal d'un ensemble de données.

Les données anormales peuvent signaler des incidents critiques se produisant sous le capot, tels qu'une défaillance de l'infrastructure, une modification majeure provenant d'une source en amont ou des menaces pour la sécurité. Les anomalies peuvent également mettre en évidence des possibilités d'optimisation de l'architecture ou d'amélioration des stratégies de marketing.

La détection des anomalies est utilisée dans de nombreux secteurs d'activité. Par exemple, elle est utilisée dans la finance pour détecter les fraudes, dans la fabrication pour identifier les défauts ou les dysfonctionnements des équipements, dans la cybersécurité pour détecter les activités inhabituelles des réseaux et dans le secteur des soins de santé pour identifier les conditions anormales des patients.

La détection des données aberrantes peut s'avérer difficile car les anomalies sont souvent rares et les caractéristiques d'un comportement normal peuvent être complexes et dynamiques. Du point de vue de l'entreprise, il est essentiel d'identifier les anomalies réelles plutôt que les faux positifs ou le bruit des données.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Pourquoi la détection d’anomalies est-elle importante ?

Les anomalies de données peuvent avoir un impact significatif dans le domaine de la science des données, conduisant à des conclusions incorrectes ou trompeuses. Par exemple, une seule donnée aberrante peut fausser considérablement la moyenne d’un ensemble de données, ce qui en fait une représentation inexacte. En outre, les anomalies de données peuvent avoir un impact sur les performances des algorithmes de machine learning, car elles peuvent amener le modèle à s’adapter au bruit plutôt qu’au schéma sous-jacent dans les données.

L’identification et la gestion des anomalies des données sont cruciales pour plusieurs raisons :

L’amélioration de la qualité des données : l’identification et la gestion des anomalies des données peuvent considérablement améliorer la qualité des données, ce qui est essentiel pour en effectuer une analyse précise et fiable. En traitant les anomalies, les analystes réduisent le bruit et les erreurs dans le jeu de données, garantissant ainsi que les données reflètent mieux les véritables schémas sous-jacents.

Une meilleure prise de décision : la prise de décision basée sur les données repose sur une analyse de données précise et fiable. En identifiant et en traitant les anomalies dans les données, les analystes garantissent que leurs conclusions sont plus fiables, ce qui conduit à des décisions plus éclairées et à de meilleurs résultats.

Des performances de machine learning optimisées : les anomalies dans les données peuvent avoir un impact significatif sur les performances des algorithmes de machine learning, car elles peuvent amener le modèle à s’adapter au bruit plutôt qu’au schéma sous-jacent dans les données. En identifiant et en traitant les anomalies de données, les analystes peuvent optimiser les performances de leurs modèles de machine learning, en s’assurant qu’ils fournissent des prédictions précises et fiables.

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Les types d'anomalies

Un système de détection d’anomalies peut identifier deux grands types d’anomalies : involontaires et intentionnelles.

Les anomalies involontaires sont des points de données qui s'écartent de la norme en raison d'erreurs ou de bruit dans le processus de collecte des données. Ces erreurs peuvent être systématiques ou aléatoires et provenir de problèmes tels que des capteurs défectueux ou des erreurs humaines lors de la saisie des données. Elles peuvent fausser l'ensemble des données, ce qui rend difficile l'obtention d'informations précises.

Les anomalies intentionnelles sont des points de données qui s’écartent de la norme en raison d’actions ou d’événements particuliers. Elles peuvent fournir des informations précieuses sur l’ensemble des données, car elles peuvent mettre en évidence des occurrences ou des tendances uniques. Par exemple, un pic soudain des ventes pendant les fêtes de fin d’année peut être considéré comme une anomalie intentionnelle, car il s’écarte du schéma de vente habituel mais est attendu en raison d’un événement réel.

Anomalies de données dans les séries temporelles

En ce qui concerne les données d’entreprise, il existe trois grands types d’anomalies dans les séries temporelles : ponctuelles, contextuelles et collectives.

Les anomalies ponctuelles, également connues sous le nom de données aberrantes globales, sont des points de données individuels qui se distinguent nettement des autres. Elles peuvent être intentionnelles ou non et résulter d’erreurs, de bruit ou d’événements uniques. Un exemple d’anomalie ponctuelle est un retrait sur un compte bancaire qui est nettement plus important que tous les retraits précédents de l’utilisateur.

Les anomalies contextuelles sont des points de données qui s’écartent de la norme dans un contexte particulier. Ces anomalies ne sont pas nécessairement aberrantes lorsqu’elles sont considérées séparément, mais elles deviennent anormales lorsqu’elles sont considérées dans leur contexte propre.

Prenons l'exemple de la consommation d'énergie d'un foyer. Si l'on constate une augmentation soudaine de la consommation d'énergie à midi, alors qu'aucun membre de la famille n'est habituellement à la maison, l'anomalie est contextuelle. Ce point de données n'est peut-être pas aberrant par rapport à la consommation d'énergie du matin ou du soir (lorsque les gens sont habituellement à la maison), mais il est anormal compte tenu du moment de la journée où il se produit.

Les anomalies collectives impliquent un ensemble de données qui s’écartent de la norme, même si les données individuelles peuvent sembler normales. Un exemple de ce type d’anomalie serait un jeu de données sur le trafic réseau qui indiquerait une augmentation soudaine du trafic en provenance de plusieurs adresses IP en même temps.

Méthodes de détection des anomalies

L’utilisation d’un système de détection en vue de détecter les anomalies est un aspect essentiel de l’analyse des données, qui permet de s’assurer que les résultats sont précis et fiables. Différentes méthodes de détection d’anomalies peuvent être utilisées pour en créer un système :

Visualisation

La visualisation est un outil puissant pour détecter les anomalies dans les données, car elle permet aux data scientists d’identifier rapidement les données aberrantes et les tendances potentielles. En traçant les données à l’aide de diagrammes et de graphiques, les analystes peuvent inspecter visuellement le jeu de données pour y déceler des éléments ou des tendances inhabituels.

Tests statistiques

Les tests statistiques peuvent être utilisés par les data scientists pour détecter des anomalies dans les données en comparant les données observées avec la distribution ou le schéma attendu.

Par exemple, le test de Grubbs peut être utilisé pour identifier les données aberrantes dans un ensemble de données en comparant chaque point de données à la moyenne et à l'écart-type de celles-ci. De même, le test de Kolmogorov-Smirnov peut être utilisé pour déterminer si un ensemble de données suit une distribution spécifique, telle qu'une distribution normale.

Algorithmes de machine learning

Les algorithmes de machine learning peuvent être utilisés pour détecter des anomalies dans les données en identifiant le schéma sous-jacent et en décelant tout écart par rapport à celui-ci. Parmi les algorithmes de détection d’anomalies par machine learning les plus courants, on peut citer :

  • Les arbres de décision : un type d’arbre de décision, « l’isolation forest » (ou « forêt d’isolement » en français), est une méthode d’apprentissage par ensemble qui isole les anomalies en sélectionnant aléatoirement une caractéristique, puis en sélectionnant aléatoirement une valeur de partage entre les valeurs maximale et minimale de la caractéristique sélectionnée.

  • La machine à vecteurs de support (SVM) à classe unique : la SVM à classe unique est une méthode d’algorithme de classification entraînée uniquement sur les instances « normales », et vise à définir une limite qui englobe les données normales. Les instances se trouvant en dehors de cette limite sont considérées comme des anomalies.

  • Les k plus proches voisins (k-NN) : k-NN est un algorithme simple qui classe un point de données en fonction de la classe majoritaire de ses k voisins les plus proches. Les instances qui ont beaucoup moins de voisins de la même classe peuvent être considérées comme des anomalies.

  • Le modèle bayésien naïf : ces méthodes définissent la probabilité qu’un événement se produise en fonction de la présence de facteurs contributifs et détectent les liens avec la même origine du problème.

  • Les autoencodeurs : un type de réseau de neurones qui utilise des données horodatées pour prévoir des schémas de données et identifier les anomalies qui ne correspondent pas aux données historiques. 

  • Le facteur local de données aberrantes (LOF) : le LOF est un algorithme basé sur la densité qui mesure l’écart de densité locale d’un point de données par rapport à ses voisins. Les points dont la densité est nettement inférieure à celle de leurs voisins sont considérés comme des données aberrantes.

  • Le clustering k-means : k-means (ou k-moyennes) est une technique de partitionnement qui analyse la distance moyenne des points de données non étiquetés et permet ensuite de les répartir dans des groupes spécifiques.

Les techniques de détection des anomalies

Un algorithme de détection des anomalies peut apprendre à identifier des modèles et à détecter des données anormales à l'aide de diverses techniques d'entraînement par machine learning. La quantité de données étiquetées, le cas échéant, dans l'ensemble de données d'entraînement d'une équipe de données détermine laquelle des principales techniques de détection d'anomalies sera utilisée : non supervisée, supervisée ou semi-supervisée.

Détection d’anomalies non supervisée

Avec les techniques de détection d’anomalies non supervisées, les ingénieurs en données entraînent un modèle en lui fournissant des jeux de données non étiquetées qu’il utilise pour détecter des schémas ou des anomalies par lui-même. Bien que ces techniques soient de loin les plus utilisées en raison de leur application plus large et pertinente, elles nécessitent des jeux de données et une puissance de calcul considérables. Le machine learning non supervisé est la méthode la plus souvent utilisée dans les scénarios d’apprentissage profond, qui reposent sur des réseaux de neurones artificiels.

Détection d’anomalies supervisée

Les techniques de détection d’anomalies supervisées utilisent un algorithme entraîné sur un jeu de données étiquetées comprenant à la fois des cas normaux et des cas anormaux. En raison de l’indisponibilité générale de données d’entraînement étiquetées et de la nature intrinsèquement déséquilibrée des classes, ces techniques de détection d’anomalies sont rarement utilisées. 

Détection d’anomalies semi-supervisée

Les techniques semi-supervisées maximisent les attributs positifs de la détection d’anomalies non supervisée et de la détection d’anomalies supervisée. Un algorithme peut être partiellement entraîné en lui fournissant une partie des données étiquetées. Les ingénieurs en données utilisent ensuite l’algorithme partiellement entraîné pour étiqueter de manière autonome un jeu de données plus important, ce que l’on appelle le « pseudo-étiquetage ». S’ils s’avèrent fiables, ces points de données nouvellement étiquetés sont combinés au jeu de données original pour affiner l’algorithme.

Trouver la bonne combinaison de machine learning supervisé et non supervisé est essentiel pour l'automatisation du machine learning. Idéalement, la grande majorité des classifications de données devraient être effectuées sans interaction humaine, de manière non supervisée. Cela dit, les ingénieurs de données devraient toujours être en mesure d'alimenter les algorithmes avec des données d'entraînement qui aideront à créer des bases de référence pour les activités quotidiennes. Une approche semi-supervisée permet de moduler la détection d'anomalies tout en offrant la possibilité d'établir des règles manuelles concernant des anomalies spécifiques.

Cas d'utilisation de la détection d'anomalies

Détection des fraudes

Les modèles de détection des anomalies sont largement utilisés dans les secteurs de la banque, de l'assurance et de la bourse pour identifier les activités frauduleuses en temps réel, telles que les transactions non autorisées, le blanchiment d'argent, la fraude à la carte de crédit, les fausses déclarations d'impôts et les tendances commerciales anormales.

Cybersécurité

Les systèmes de détection d’intrusion (IDS) et d’autres technologies de cybersécurité font appel à la détection d’anomalies afin d’identifier des activités utilisateur ou des schémas de trafic réseau inhabituels ou suspects, indiquant des menaces potentielles pour la sécurité ou des attaques telles que des infections par des logiciels malveillants ou des accès non autorisés.

Fabrication et contrôle qualité

Les algorithmes de détection d’anomalies sont fréquemment utilisés en conjonction avec la vision par ordinateur afin d’identifier les défauts dans les produits ou les emballages en analysant les images haute résolution des caméras, les données des capteurs et les indicateurs de production.

Gestion des systèmes informatiques

La détection d’anomalies est utilisée pour surveiller les performances des systèmes informatiques et assurer le bon déroulement des opérations en identifiant des tendances inhabituelles dans les journaux des serveurs et en reconstituant les défauts sur la base de tendances et d’expériences passées afin de prédire les problèmes ou les défaillances potentiels.

Énergie, transports et infrastructures critiques

En identifiant les irrégularités dans les données provenant des capteurs IdO (Internet des objets) et des dispositifs OT (technologie opérationnelle), la détection d’anomalies permet de prévoir les pannes d’équipement ou les besoins de maintenance dans des secteurs tels que l’aviation, l’énergie et les transports. Lorsqu’elle est utilisée pour surveiller les schémas de consommation d’énergie et identifier les anomalies d’utilisation, elle permet de mieux gérer l’énergie et de détecter rapidement les pannes d’équipement.

Vente au détail et e-commerce

Les commerçants utilisent également des modèles de détection d’anomalies pour identifier des comportements inhabituels chez les clients, ce qui les aide à détecter les fraudes, à prédire la perte de clientèle et à optimiser leurs stratégies de marketing. Dans le domaine de l’e-commerce, la détection d’anomalies est utilisée pour identifier les faux avis, les prises de contrôle de compte, les comportements d’achat anormaux et d’autres indicateurs de fraude ou de cybercriminalité.

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct