La détection d’anomalies, ou des données aberrantes, consiste à identifier des observations, des événements ou des points de données qui s’écartent de la norme ou des attentes, ce qui les rend incohérents par rapport aux autres données.
La détection des anomalies a une longue histoire dans le domaine des statistiques, où les analystes et les scientifiques étudiaient les graphiques à la recherche d'éléments qui semblaient anormaux. Aujourd'hui, la détection d'anomalies s'appuie sur l'intelligence artificielle (IA) et le machine learning (ML) pour identifier automatiquement les variations inattendues du comportement normal d'un ensemble de données.
Les données anormales peuvent signaler des incidents critiques se produisant sous le capot, tels qu'une défaillance de l'infrastructure, une modification majeure provenant d'une source en amont ou des menaces pour la sécurité. Les anomalies peuvent également mettre en évidence des possibilités d'optimisation de l'architecture ou d'amélioration des stratégies de marketing.
La détection des anomalies est utilisée dans de nombreux secteurs d'activité. Par exemple, elle est utilisée dans la finance pour détecter les fraudes, dans la fabrication pour identifier les défauts ou les dysfonctionnements des équipements, dans la cybersécurité pour détecter les activités inhabituelles des réseaux et dans le secteur des soins de santé pour identifier les conditions anormales des patients.
La détection des données aberrantes peut s'avérer difficile car les anomalies sont souvent rares et les caractéristiques d'un comportement normal peuvent être complexes et dynamiques. Du point de vue de l'entreprise, il est essentiel d'identifier les anomalies réelles plutôt que les faux positifs ou le bruit des données.
Newsletter sectorielle
Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.
Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.
Les anomalies de données peuvent avoir un impact significatif dans le domaine de la science des données, conduisant à des conclusions incorrectes ou trompeuses. Par exemple, une seule donnée aberrante peut fausser considérablement la moyenne d’un ensemble de données, ce qui en fait une représentation inexacte. En outre, les anomalies de données peuvent avoir un impact sur les performances des algorithmes de machine learning, car elles peuvent amener le modèle à s’adapter au bruit plutôt qu’au schéma sous-jacent dans les données.
L’identification et la gestion des anomalies des données sont cruciales pour plusieurs raisons :
L’amélioration de la qualité des données : l’identification et la gestion des anomalies des données peuvent considérablement améliorer la qualité des données, ce qui est essentiel pour en effectuer une analyse précise et fiable. En traitant les anomalies, les analystes réduisent le bruit et les erreurs dans le jeu de données, garantissant ainsi que les données reflètent mieux les véritables schémas sous-jacents.
Une meilleure prise de décision : la prise de décision basée sur les données repose sur une analyse de données précise et fiable. En identifiant et en traitant les anomalies dans les données, les analystes garantissent que leurs conclusions sont plus fiables, ce qui conduit à des décisions plus éclairées et à de meilleurs résultats.
Des performances de machine learning optimisées : les anomalies dans les données peuvent avoir un impact significatif sur les performances des algorithmes de machine learning, car elles peuvent amener le modèle à s’adapter au bruit plutôt qu’au schéma sous-jacent dans les données. En identifiant et en traitant les anomalies de données, les analystes peuvent optimiser les performances de leurs modèles de machine learning, en s’assurant qu’ils fournissent des prédictions précises et fiables.
Un système de détection d’anomalies peut identifier deux grands types d’anomalies : involontaires et intentionnelles.
Les anomalies involontaires sont des points de données qui s'écartent de la norme en raison d'erreurs ou de bruit dans le processus de collecte des données. Ces erreurs peuvent être systématiques ou aléatoires et provenir de problèmes tels que des capteurs défectueux ou des erreurs humaines lors de la saisie des données. Elles peuvent fausser l'ensemble des données, ce qui rend difficile l'obtention d'informations précises.
Les anomalies intentionnelles sont des points de données qui s’écartent de la norme en raison d’actions ou d’événements particuliers. Elles peuvent fournir des informations précieuses sur l’ensemble des données, car elles peuvent mettre en évidence des occurrences ou des tendances uniques. Par exemple, un pic soudain des ventes pendant les fêtes de fin d’année peut être considéré comme une anomalie intentionnelle, car il s’écarte du schéma de vente habituel mais est attendu en raison d’un événement réel.
En ce qui concerne les données d’entreprise, il existe trois grands types d’anomalies dans les séries temporelles : ponctuelles, contextuelles et collectives.
Les anomalies ponctuelles, également connues sous le nom de données aberrantes globales, sont des points de données individuels qui se distinguent nettement des autres. Elles peuvent être intentionnelles ou non et résulter d’erreurs, de bruit ou d’événements uniques. Un exemple d’anomalie ponctuelle est un retrait sur un compte bancaire qui est nettement plus important que tous les retraits précédents de l’utilisateur.
Les anomalies contextuelles sont des points de données qui s’écartent de la norme dans un contexte particulier. Ces anomalies ne sont pas nécessairement aberrantes lorsqu’elles sont considérées séparément, mais elles deviennent anormales lorsqu’elles sont considérées dans leur contexte propre.
Prenons l'exemple de la consommation d'énergie d'un foyer. Si l'on constate une augmentation soudaine de la consommation d'énergie à midi, alors qu'aucun membre de la famille n'est habituellement à la maison, l'anomalie est contextuelle. Ce point de données n'est peut-être pas aberrant par rapport à la consommation d'énergie du matin ou du soir (lorsque les gens sont habituellement à la maison), mais il est anormal compte tenu du moment de la journée où il se produit.
Les anomalies collectives impliquent un ensemble de données qui s’écartent de la norme, même si les données individuelles peuvent sembler normales. Un exemple de ce type d’anomalie serait un jeu de données sur le trafic réseau qui indiquerait une augmentation soudaine du trafic en provenance de plusieurs adresses IP en même temps.
L’utilisation d’un système de détection en vue de détecter les anomalies est un aspect essentiel de l’analyse des données, qui permet de s’assurer que les résultats sont précis et fiables. Différentes méthodes de détection d’anomalies peuvent être utilisées pour en créer un système :
La visualisation est un outil puissant pour détecter les anomalies dans les données, car elle permet aux data scientists d’identifier rapidement les données aberrantes et les tendances potentielles. En traçant les données à l’aide de diagrammes et de graphiques, les analystes peuvent inspecter visuellement le jeu de données pour y déceler des éléments ou des tendances inhabituels.
Les tests statistiques peuvent être utilisés par les data scientists pour détecter des anomalies dans les données en comparant les données observées avec la distribution ou le schéma attendu.
Par exemple, le test de Grubbs peut être utilisé pour identifier les données aberrantes dans un ensemble de données en comparant chaque point de données à la moyenne et à l'écart-type de celles-ci. De même, le test de Kolmogorov-Smirnov peut être utilisé pour déterminer si un ensemble de données suit une distribution spécifique, telle qu'une distribution normale.
Les algorithmes de machine learning peuvent être utilisés pour détecter des anomalies dans les données en identifiant le schéma sous-jacent et en décelant tout écart par rapport à celui-ci. Parmi les algorithmes de détection d’anomalies par machine learning les plus courants, on peut citer :
Un algorithme de détection des anomalies peut apprendre à identifier des modèles et à détecter des données anormales à l'aide de diverses techniques d'entraînement par machine learning. La quantité de données étiquetées, le cas échéant, dans l'ensemble de données d'entraînement d'une équipe de données détermine laquelle des principales techniques de détection d'anomalies sera utilisée : non supervisée, supervisée ou semi-supervisée.
Avec les techniques de détection d’anomalies non supervisées, les ingénieurs en données entraînent un modèle en lui fournissant des jeux de données non étiquetées qu’il utilise pour détecter des schémas ou des anomalies par lui-même. Bien que ces techniques soient de loin les plus utilisées en raison de leur application plus large et pertinente, elles nécessitent des jeux de données et une puissance de calcul considérables. Le machine learning non supervisé est la méthode la plus souvent utilisée dans les scénarios d’apprentissage profond, qui reposent sur des réseaux de neurones artificiels.
Les techniques de détection d’anomalies supervisées utilisent un algorithme entraîné sur un jeu de données étiquetées comprenant à la fois des cas normaux et des cas anormaux. En raison de l’indisponibilité générale de données d’entraînement étiquetées et de la nature intrinsèquement déséquilibrée des classes, ces techniques de détection d’anomalies sont rarement utilisées.
Les techniques semi-supervisées maximisent les attributs positifs de la détection d’anomalies non supervisée et de la détection d’anomalies supervisée. Un algorithme peut être partiellement entraîné en lui fournissant une partie des données étiquetées. Les ingénieurs en données utilisent ensuite l’algorithme partiellement entraîné pour étiqueter de manière autonome un jeu de données plus important, ce que l’on appelle le « pseudo-étiquetage ». S’ils s’avèrent fiables, ces points de données nouvellement étiquetés sont combinés au jeu de données original pour affiner l’algorithme.
Trouver la bonne combinaison de machine learning supervisé et non supervisé est essentiel pour l'automatisation du machine learning. Idéalement, la grande majorité des classifications de données devraient être effectuées sans interaction humaine, de manière non supervisée. Cela dit, les ingénieurs de données devraient toujours être en mesure d'alimenter les algorithmes avec des données d'entraînement qui aideront à créer des bases de référence pour les activités quotidiennes. Une approche semi-supervisée permet de moduler la détection d'anomalies tout en offrant la possibilité d'établir des règles manuelles concernant des anomalies spécifiques.
Les modèles de détection des anomalies sont largement utilisés dans les secteurs de la banque, de l'assurance et de la bourse pour identifier les activités frauduleuses en temps réel, telles que les transactions non autorisées, le blanchiment d'argent, la fraude à la carte de crédit, les fausses déclarations d'impôts et les tendances commerciales anormales.
Les systèmes de détection d’intrusion (IDS) et d’autres technologies de cybersécurité font appel à la détection d’anomalies afin d’identifier des activités utilisateur ou des schémas de trafic réseau inhabituels ou suspects, indiquant des menaces potentielles pour la sécurité ou des attaques telles que des infections par des logiciels malveillants ou des accès non autorisés.
Les algorithmes de détection d’anomalies sont fréquemment utilisés en conjonction avec la vision par ordinateur afin d’identifier les défauts dans les produits ou les emballages en analysant les images haute résolution des caméras, les données des capteurs et les indicateurs de production.
La détection d’anomalies est utilisée pour surveiller les performances des systèmes informatiques et assurer le bon déroulement des opérations en identifiant des tendances inhabituelles dans les journaux des serveurs et en reconstituant les défauts sur la base de tendances et d’expériences passées afin de prédire les problèmes ou les défaillances potentiels.
En identifiant les irrégularités dans les données provenant des capteurs IdO (Internet des objets) et des dispositifs OT (technologie opérationnelle), la détection d’anomalies permet de prévoir les pannes d’équipement ou les besoins de maintenance dans des secteurs tels que l’aviation, l’énergie et les transports. Lorsqu’elle est utilisée pour surveiller les schémas de consommation d’énergie et identifier les anomalies d’utilisation, elle permet de mieux gérer l’énergie et de détecter rapidement les pannes d’équipement.
Les commerçants utilisent également des modèles de détection d’anomalies pour identifier des comportements inhabituels chez les clients, ce qui les aide à détecter les fraudes, à prédire la perte de clientèle et à optimiser leurs stratégies de marketing. Dans le domaine de l’e-commerce, la détection d’anomalies est utilisée pour identifier les faux avis, les prises de contrôle de compte, les comportements d’achat anormaux et d’autres indicateurs de fraude ou de cybercriminalité.
Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.