Alors que les organisations collectent des ensembles de données plus volumineux contenant potentiellement des informations sur leur activité commerciale, la détection des données aberrantes dans ces ensembles de données est essentielle pour découvrir les inefficacités, les événements rares, la cause racine des problèmes ou les possibilités d'amélioration opérationnelle. Mais qu’est-ce qu’une anomalie et pourquoi est-il important de la détecter ?
Les types d'anomalies varient selon l'entreprise et la fonction commerciale. La détection des anomalies consiste simplement à définir des schémas et des indicateurs « normaux », sur la base des fonctions et des objectifs de l'entreprise, et à identifier les points de données qui se situent en dehors du comportement normal d'une opération. Par exemple, un trafic supérieur à la moyenne sur un site Web ou une application pendant une période donnée peut signaler une menace de cybersécurité , auquel cas vous devriez disposer d'un système capable de déclencher automatiquement des alertes de détection des fraudes. Cela pourrait également simplement être le signe qu'une initiative marketing particulière fonctionne. Les anomalies ne sont pas nécessairement des événements indésirables. Cependant, leur identification et leur analyse permettent d'acquérir une meilleure compréhension de l'activité de l'entreprise et de prendre des mesures préventives.
Le défi pour les services informatiques travaillant en science des données est de donner un sens à des points de données en expansion et en constante évolution. Dans cet article, nous verrons comment les techniques de machine learning, alimentées par l'intelligence artificielle, sont utilisées pour détecter les comportements anormaux à travers trois méthodes différentes de détection d'anomalies : la détection d'anomalies supervisée, la détection d'anomalies non supervisée et la détection d'anomalies semi-supervisée.
Les techniques d'apprentissage supervisé utilisent des données d'entrée et de sortie du monde réel pour détecter les anomalies. Ces types de systèmes de détection d'anomalies nécessitent qu'un analyste de données étiquette les points de données comme normaux ou anormaux pour être utilisés comme données d'entraînement. Un modèle de machine learning entraîné avec des données étiquetées sera capable de détecter les anomalies en se basant sur les exemples qui lui sont donnés. Ce type de machine learning est utile pour la détection d'anomalies connues mais n'est pas capable de découvrir des anomalies inconnues ou de prédire des problèmes futurs.
Les algorithmes de machine learning courants pour l’apprentissage supervisé sont les suivants :
Les techniques d'apprentissage non supervisé ne nécessitent pas de données étiquetées et peuvent gérer des ensembles de données plus complexes. L’apprentissage non supervisé est alimenté par l’apprentissage profond et les réseaux neuronaux ou les auto-encodeurs qui sont inspirés du fonctionnement du cerveau humain. Ces outils puissants peuvent identifier des schémas à partir des données entrantes et formuler des hypothèses sur les données perçues comme normales.
Ces techniques peuvent contribuer grandement à découvrir des anomalies inconnues et à réduire le travail de filtrage manuel de grands ensembles de données. Cependant, les data scientists doivent surveiller les résultats recueillis grâce à l'apprentissage non supervisé. Le caractère hypothétique des méthodes d'apprentissage non supervisé peut conduire à des erreurs d'identification des anomalies.
Les algorithmes de machine learning pour les données non structurées sont les suivants :
K-moyennes : cet algorithme est une technique de visualisation des données qui traite les points de données via une équation mathématique dans le but de regrouper les points de données similaires. Les « moyennes » ou données moyennes, se réfèrent aux points au centre du cluster auxquels toutes les autres données sont liées. Grâce à l'analyse des données, ces clusters peuvent être utilisés pour trouver des modèles et faire des inférences sur les données qui sont jugées anormales.
Forêt d'isolement : Ce type d'algorithme de détection d'anomalies utilise des données non supervisées. Contrairement aux techniques de détection d’anomalies supervisées, qui fonctionnent à partir de points de données normaux étiquetés, cette technique tente d’isoler les anomalies dans un premier temps. Semblable à une « forêt aléatoire », il crée des « Decision Trees » qui cartographient les points de données et sélectionnent aléatoirement une zone à analyser. Ce processus est répété, et chaque point reçoit un score d'anomalie entre 0 et 1, en fonction de son emplacement par rapport aux autres points ; les valeurs inférieures à 0,5 sont généralement considérées comme normales, tandis que les valeurs qui dépassent ce seuil sont plus susceptibles d'être anormales. Vous trouverez des modèles de forêt d’isolement dans la bibliothèque gratuite de machine learning pour Python, scikit-learn (lien externe à ibm.com).
Machine à vecteurs de support (SVM) à classe unique : Cette technique de détection des anomalies utilise des données d'entraînement pour définir des limites à ce qui est considéré comme normal. Les points regroupés à l’intérieur des limites définies sont considérés comme normaux et ceux à l’extérieur sont étiquetés comme des anomalies.
Les méthodes de détection d'anomalies semi-supervisées combinent les avantages des deux méthodes précédentes. Les ingénieurs peuvent appliquer des méthodes d'apprentissage non supervisées pour automatiser l'apprentissage des fonctionnalités et travailler avec des données non structurées. Cependant, en les combinant avec la supervision humaine, ils ont la possibilité de surveiller et de contrôler les types de schémas appris par le modèle. Cela permet généralement d’améliorer la précision des prédictions du modèle.
Régression linéaire : cet outil de machine learning prédictif utilise à la fois des variables dépendantes et indépendantes. La variable indépendante est utilisée comme base pour déterminer la valeur de la variable dépendante par le biais d’une série d’équations statistiques. Ces équations utilisent des données étiquetées et non étiquetées pour prédire les résultats futurs lorsque seule une partie des informations est connue.
La détection des anomalies est un outil important pour maintenir les fonctions métier dans divers secteurs d'activité. L'utilisation d'algorithmes d'apprentissage supervisés, non supervisés et semi-supervisés dépendra du type de données collectées et du défi opérationnel à résoudre. Voici quelques exemples de cas d'utilisation de la détection d'anomalies :
En utilisant des données étiquetées des totaux de ventes de l'année précédente, il est possible de prédire les objectifs de ventes futurs. Cela peut également aider à établir des références pour des employés de vente spécifiques en fonction de leurs performances passées et des besoins généraux de l'entreprise. Parce que toutes les données de vente sont connues, les modèles peuvent être analysés pour obtenir des informations sur les produits, le marketing et la saisonnalité.
Les algorithmes d'apprentissage supervisé permettent de développer des modèles de prédiction météorologique en s'appuyant sur des données historiques. L'analyse de données météorologiques récentes permet aux prévisionnistes de développer des modèles de prédiction plus précis, prenant en compte l'évolution des conditions atmosphériques.
Ces types de systèmes se présentent sous la forme de logiciels ou de matériel, qui surveillent le trafic du réseau à la recherche de signes de violations de la sécurité ou d'activités malveillantes. Les algorithmes de machine learning peuvent être formés pour détecter les attaques potentielles sur un réseau en temps réel, protégeant ainsi les informations des utilisateurs et les fonctions du système.
Les algorithmes permettent de développer des visualisations de la performance normale en analysant des données temporelles à intervalles réguliers sur de longues périodes. Les pics de trafic réseau ou les comportements atypiques peuvent être identifiés et analysés comme des indicateurs potentiels de violation de la sécurité.
Le bon fonctionnement des machines est indispensable pour garantir la qualité des produits fabriqués et la fluidité des chaînes d'approvisionnement. Les algorithmes d'apprentissage non supervisé permettent de développer des modèles de maintenance prédictive en analysant les données provenant de capteurs installés sur les équipements et en identifiant les signes précurseurs de défaillances ou de dysfonctionnements. Cela permet aux entreprises d'effectuer des réparations avant qu'une panne critique ne se produise, réduisant ainsi les temps d'arrêt des machines.
Les techniques de machine learning permettent aux professionnels de la santé d'analyser des images médicales et d'identifier les pathologies connues. Cependant, la variabilité interindividuelle des images médicales rend impossible l'étiquetage exhaustif des anomalies potentielles. Les algorithmes, une fois entraînés sur des données étiquetées, sont capables d'analyser des images médicales non étiquetées et d'identifier des anomalies potentielles.
Les techniques d'apprentissage semi-supervisé permettent de développer des modèles de prédiction de fraude en combinant des données étiquetées et non étiquetées. L'analyse des données de transaction des cartes de crédit permet d'identifier les comportements de consommation anormaux en comparant avec les habitudes d'achat habituelles.
Les systèmes de détection des fraudes ne se contentent pas d'analyser les transactions historiques étiquetées comme frauduleuses. Ils intègrent également des données non étiquetées relatives au comportement de l'utilisateur, comme sa localisation géographique, son appareil de connexion et d'autres facteurs pertinents.
La détection d'anomalies repose sur des solutions et des outils qui améliorent l'observabilité des données de performance. Ces outils facilitent l'identification rapide des anomalies, contribuant ainsi à la prévention et à la résolution des problèmes. IBM Instana Observability s'appuie sur l'intelligence artificielle et le machine learning pour fournir aux équipes une visibilité approfondie des données de performance, favorisant ainsi la prédiction et la résolution proactive des anomalies.
IBM watsonx.ai offre un outil d’IA générative puissant, capable d’analyser de grands ensembles de données pour en extraire des informations pertinentes. Grâce à une analyse rapide et complète, IBM watson.ai peut identifier des modèles et des tendances qui peuvent être utilisés pour détecter les anomalies actuelles et faire des prédictions sur les données aberrantes futures. Watson.ai s'adapte à de nombreux secteurs et répond à des besoins métiers variés.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io