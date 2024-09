Un algorithme de détection des anomalies peut apprendre à identifier des modèles et à détecter des données anormales à l'aide de diverses techniques d'entraînement par machine learning. La quantité de données étiquetées, le cas échéant, dans l'ensemble de données d'entraînement d'une équipe de données détermine laquelle des principales techniques de détection d'anomalies sera utilisée : non supervisée, supervisée ou semi-supervisée.

Avec les techniques de détection d'anomalies non supervisées, les ingénieurs en données forment un modèle en lui fournissant des ensembles de données non étiquetées qu'il utilise pour détecter des modèles ou des anomalies par lui-même. Bien que ces techniques soient de loin les plus utilisées en raison de leur application plus large et pertinente, elles nécessitent des ensembles de données et une puissance de calcul considérables. La méthode de machine learning non supervisée est le plus souvent utilisée dans les scénarios d'apprentissage profond, qui reposent sur des réseaux neuronaux artificiels.

Les techniques de détection d'anomalies supervisées utilisent un algorithme formé sur un ensemble de données étiquetées comprenant à la fois des cas normaux et des cas anormaux. En raison de l'indisponibilité générale de données d'entraînement étiquetées et de la nature intrinsèquement déséquilibrée des classes, ces techniques de détection d'anomalies sont rarement utilisées.

Les techniques semi-supervisées maximisent les attributs positifs de la détection d'anomalies non supervisée et de la détection d'anomalies supervisée. En fournissant à un algorithme une partie des données étiquetées, il peut être partiellement entraîné. Les ingénieurs en données utilisent ensuite l'algorithme partiellement entraîné pour étiqueter de manière autonome un ensemble de données plus important, ce que l'on appelle le « pseudo-étiquetage ». S'ils s'avèrent fiables, ces points de données nouvellement étiquetés sont combinés à l'ensemble de données original pour affiner l'algorithme.

Trouver la bonne combinaison de machine learning supervisé et non supervisé est essentiel pour l'automatisation du machine learning. Idéalement, la grande majorité des classifications de données devraient être effectuées sans interaction humaine, de manière non supervisée. Cela dit, les ingénieurs de données devraient toujours être en mesure d'alimenter les algorithmes avec des données d'entraînement qui aideront à créer des bases de référence pour les activités quotidiennes. Une approche semi-supervisée permet de moduler la détection d'anomalies tout en offrant la possibilité d'établir des règles manuelles concernant des anomalies spécifiques.