Le data mining consiste à utiliser le machine learning et l'analyse statistique pour révéler des modèles et d'autres informations précieuses à partir de vastes ensembles de données.
Avec l’évolution du machine learning (ML), de l’entreposage de données et la croissance des big data, l’adoption du data mining, également appelé découverte de connaissances dans les bases de données (KDD), s’est accélérée ces dernières décennies. Toutefois, malgré les avancées de cette technologie pour traiter des volumes de données toujours plus importants, les responsables peuvent encore rencontrer des défis liés à l’évolutivité et à l’automatisation.
Les techniques de data mining utilisées pour les analyses peuvent répondre à deux objectifs principaux : décrire les ensembles de données cibles ou prédire des résultats à l'aide d'algorithmes de machine learning.
Ces méthodes permettent d'organiser et de filtrer les données, en faisant ressortir les informations les plus pertinentes, qu'il s'agisse de fraude, de comportements utilisateurs, de goulets d'étranglement, ou même de violations de la sécurité. L'utilisation des algorithmes de machine learning et de l'intelligence artificielle (IA) permet d'automatiser ces analyses, accélérant considérablement les processus.
Associé à des outils d'analyse de données et de visualisation, tels qu'Apache Spark, le data mining devient plus accessible, permettant d'extraire des insights pertinents plus rapidement que jamais. Les progrès constants de l'IA accélèrent son adoption dans de nombreux secteurs.
Newsletter sectorielle
Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la déclaration de confidentialité d’IBM.
Lire la Déclaration de confidentialité d’IBM.
Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.
Découvrir les informations et tendances cachées : le data mining prend les données brutes et trouve de l’ordre dans le chaos, permettant d’apercevoir la forêt derrière les arbres. Cela peut se traduire par une planification plus éclairée, toutes fonctions d’entreprise et tous secteurs confondus, notamment la publicité, la finance, l’administration, la santé, les ressources humaines, la fabrication, le marketing, la recherche, les ventes et la gestion de la chaîne d’approvisionnement (SCM).
Économies de budget : en analysant les données de performance provenant de diverses sources, la fouille de données permet d'identifier les goulets d'étranglement dans les processus, accélérant ainsi leur résolution et augmentant l'efficacité.
Résoudre de multiples défis : le data mining est un outil polyvalent. Il permet d'analyser les données de presque toutes les sources et tous les aspects d'une organisation, afin de découvrir des modèles et d'améliorer les pratiques. Presque chaque département qui collecte et analyse des données peut tirer profit du data mining.
Complexité et risques : obtenir des informations utiles nécessite des données valides, ainsi que des experts ayant une expérience en programmation. La maîtrise des langages de data mining comme Python, R et SQL est souvent nécessaire. Une approche trop légère peut aboutir à des résultats trompeurs ou dangereux. Certaines données client utilisées dans le data mining peuvent inclure des données personnelles (PII) qui doivent être manipulées avec précaution pour éviter tout problème d’ordre juridique ou d’image.
Coût : pour obtenir les meilleurs résultats, il est souvent nécessaire de disposer de vastes ensembles de données. Si de nouvelles informations doivent être collectées par une entreprise, la mise en place d’un pipeline de données peut représenter une nouvelle dépense. Si les données doivent être achetées auprès d’une source externe, cela a également un coût.
Incertitudes : un projet ambitieux de data mining peut ne pas toujours donner de résultats clairs ou bénéfiques. Des données inexactes peuvent entraîner des conclusions erronées, soit à cause d’une mauvaise sélection des données, soit d’un prétraitement incorrect. D’autres risques incluent des erreurs de modélisation ou l’utilisation de données obsolètes dans un marché en rapide évolution.
Il est aussi possible que des résultats semblent valides mais soient en réalité dus au hasard et non fiables. Il est important de se rappeler que « corrélation n’est pas causalité ». Un exemple célèbre de « dragage de données » (c’est-à-dire l’observation d’une corrélation apparente et l’exagération de son importance) a été récemment présenté par le blogueur Tyler Vigen : « Le prix de l’action Amazon.com correspond de près au nombre d’enfants prénommés "Stevie" entre 2002 et 2022 ».1 Bien sûr, nommer des enfants Stevie n’a aucune influence sur le cours des actions d’Amazon, et vice versa. Les applications de data mining permettent de détecter des modèles, mais le jugement humain reste primordial.
Le data mining est un processus global d'identification de motifs et d'extraction d'informations utiles à partir de vastes ensembles de données. Il permet d'évaluer à la fois des données structurées et non structurées pour identifier des informations nouvelles. Ce processus est souvent utilisé par les équipes de marketing et de vente pour analyser les comportements des consommateurs. Par exemple, les méthodes de data mining permettent d'observer et de prédire des comportements comme le taux de désabonnement des clients, la détection des fraudes, l'analyse des paniers d'achat, etc.
La fouille de texte, ou « text mining » en anglais est un sous-domaine du data mining, qui vise à transformer des textes non structurés en un format structuré afin d'identifier des motifs significatifs et de générer des insights. Les données non structurées peuvent inclure des textes provenant de sources telles que des publications sur les réseaux sociaux, des avis de produits, des articles, des courriels ou même des formats multimédias comme des fichiers vidéo ou audio. Une grande partie des données publiques disponibles est non structurée, ce qui rend la fouille de texte particulièrement précieuse
Le process mining se situe au carrefour du business process management (BPM) et du data mining Le process mining permet d’appliquer des algorithmes aux données des journaux d’événements afin d’identifier les tendances, les schémas et les détails du déroulement des processus. Cette approche combine la science des données pour identifier les goulets d'étranglement, valider et améliorer les workflows.
Le BPM recueille généralement des données de manière plus informelle par le biais d’ateliers et d’entretiens, puis utilise un logiciel pour représenter le workflow sous la forme d’un diagramme de processus. Dans la mesure où les données qui alimentent ces diagrammes de processus sont souvent qualitatives, le process mining permet une approche plus quantitative à un problème de processus en détaillant le processus réel par le biais de données d’événements.
Les systèmes d’information comme les outils de planification des ressources d’entreprise (ERP) ou de gestion de la relation client (CRM) fournissent une piste d’audit des processus à partir des données de journal. Le process mining utilise ces données provenant des systèmes informatiques pour assembler un modèle de processus ou un graphique de processus. Ensuite, les organisations peuvent examiner le processus de bout en bout, en précisant les détails et toutes les variations.
Le processus de data mining comporte plusieurs étapes, allant de la collecte des données à leur visualisation, dans le but d'extraire des informations précieuses à partir de grands ensembles de données. Les techniques de data mining peuvent être utilisées pour générer des descriptions et des prédictions à partir de l'ensemble de données cible.
Les data scientists ou spécialistes de la business intelligence (BI) analysent les données en observant des motifs, des associations et des corrélations. Ils classent et regroupent les données grâce à des méthodes de classification et de régression, et identifient des valeurs aberrantes, par exemple pour la détection de spams.
Le data mining suit généralement cinq étapes principales : définition des objectifs, sélection des données, préparation des données, construction d'un modèle de données, et enfin, exploration des motifs et évaluation des résultats.
1. Définir les objectifs de l'entreprise : cette étape peut être la plus difficile du processus de data mining, et de nombreuses organisations y consacrent souvent trop peu de temps. Avant même d'identifier, d'extraire ou de nettoyer les données, les data scientists et les parties prenantes doivent collaborer pour définir précisément le problème commercial, ce qui aidera à orienter les questions liées aux données et les paramètres du projet. Les analystes pourraient également avoir besoin de recherches supplémentaires pour bien comprendre le contexte de l'entreprise.
2. Sélection des données : une fois le problème bien défini, il devient plus facile pour les data scientists d'identifier les ensembles de données nécessaires pour répondre aux questions pertinentes. Avec l'équipe informatique, ils déterminent également où ces données doivent être stockées et sécurisées..
3. Préparation des données : les données pertinentes sont collectées puis nettoyées afin d’éliminer tout bruit, tel que les doublons, les valeurs manquantes ou aberrantes. Selon l’ensemble de données, une étape supplémentaire de gestion des données peut être nécessaire pour réduire le nombre de dimensions, car trop de caractéristiques peuvent ralentir les calculs.
Les data scientists s'efforcent de conserver les prédicteurs les plus significatifs pour garantir une précision optimale des modèles. Une approche responsable de la science des données implique de considérer le modèle au-delà du code et des performances, en tenant compte de la qualité et de la fiabilité des données utilisées..
4. Construction de modèles et fouille de modèles : selon le type d'analyse, les data scientists peuvent rechercher des tendances ou des relations intéressantes entre les données, telles que des modèles séquentiels, des règles d'association ou des corrélations. Bien que les modèles à haute fréquence aient des applications larges, les écarts dans les données peuvent révéler des zones d'intérêt, comme la fraude potentielle. Les modèles prédictifs permettent d'anticiper les tendances ou résultats futurs. Dans les systèmes les plus avancés, ces modèles peuvent effectuer des prédictions en temps réel pour réagir rapidement aux changements de marché.
Les algorithmes d'apprentissage profond peuvent également être utilisés pour classer ou regrouper les données disponibles. Si les données d'entrée sont étiquetées (apprentissage supervisé), un modèle de classification peut être appliqué ; sinon, une régression peut être utilisée pour prédire la probabilité d'un résultat particulier. En l'absence d'étiquettes (apprentissage non supervisé), les points de données sont comparés pour découvrir des similitudes sous-jacentes, et regroupés en fonction de ces caractéristiques.
5. Évaluation des résultats et mise en œuvre des connaissances : une fois les données agrégées, elles peuvent être préparées pour la présentation, souvent grâce à des techniques de visualisation de données, permettant ainsi aux résultats d’être évalués et interprétés. Les résultats doivent idéalement être valides, nouveaux, utiles et compréhensibles. Lorsque ces critères sont remplis, les décideurs peuvent exploiter ces connaissances pour élaborer de nouvelles stratégies et atteindre leurs objectifs.
Voici quelques techniques populaires de data mining :
Règles d’association : les règles d’association sont des méthodes de type « si/alors » qui permettent de trouver des relations entre des variables dans un ensemble de données. La force des relations est mesurée par le soutien et la confiance. Le niveau de confiance indique la fréquence à laquelle les affirmations « si » ou « alors » sont vraies, tandis que la mesure de soutien représente la fréquence d’apparition des éléments associés dans les données.
Ces méthodes sont souvent utilisées dans l’analyse des paniers d’achat, permettant aux entreprises de mieux comprendre quelles sont les associations de produits souvent achetés ensemble. La compréhension des habitudes des clients permet aux entreprises de développer de meilleures stratégies de vente croisée et d’optimiser leurs moteurs de recommandation.
Classification : les classes d’objets sont prédéfinies selon les besoins de l’entreprise, avec des définitions des caractéristiques communes entre ces objets. Cela permet de regrouper les données sous-jacentes afin de faciliter leur analyse.
Par exemple, une entreprise de produits de consommation peut analyser sa stratégie de coupons en examinant les échanges de coupons passés, les données de vente, les statistiques d’inventaire et les données consommateurs disponibles pour affiner ses futures campagnes.
Regroupement : étroitement lié à la classification, le regroupement identifie des similitudes tout en proposant des groupements supplémentaires basés sur les différences. Par exemple, un fabricant de produits ménagers pourrait avoir des classifications prédéfinies telles que détergent, eau de Javel, adoucissant, nettoyant pour sol et cire pour sol. Le regroupement, en revanche, pourrait créer des groupes plus larges, tels que produits de lessive et entretien des sols.
Arbre de décision : cette technique de data mining utilise des analyses de classification ou de régression pour classer ou prédire les résultats potentiels en fonction d’un ensemble de décisions. Comme son nom l’indique, l’arbre de décision utilise une visualisation en forme d’arbre pour représenter les résultats potentiels de ces décisions.
K-plus proches voisins (KNN) : également connu sous le nom d'algorithme KNN, le K-plus proches voisins est un algorithme non paramétrique qui classe les points de données en fonction de leur proximité et de leur association à d'autres données disponibles. Cet algorithme suppose que des points de données similaires sont situés à proximité les uns des autres. Il calcule donc la distance entre les points, généralement via la distance euclidienne, puis assigne une catégorie en fonction de la catégorie la plus fréquente ou de la moyenne.
Réseaux neuronaux : principalement utilisés pour les algorithmes d'apprentissage profond, les réseaux neuronaux traitent les données en imitant l'interconnectivité du cerveau humain par des couches de nœuds. Chaque nœud est composé d’entrées, de poids, d’un biais (ou seuil) et d’une sortie.
Si cette valeur de sortie dépasse un seuil donné, elle « déclenche » ou active le nœud, transmettant les données à la couche suivante du réseau. Les réseaux neuronaux apprennent cette fonction de mappage au moyen de l’apprentissage supervisé, apportant des ajustements basés sur la fonction de perte grâce au processus de descente de gradient. Lorsque la fonction de coût est proche de zéro, le modèle est considéré comme précis.
Analyse prédictive : en combinant data mining, techniques de modélisation statistique et machine learning, les données historiques peuvent être analysées via l'analyse prédictive pour créer des modèles graphiques ou mathématiques. Ces modèles permettent d'identifier des schémas, de prévoir des événements futurs, et d'identifier des risques ou des opportunités.
Analyse de régression: cette technique découvre des relations dans les données en prédisant des résultats à partir de variables prédéfinies. Cela peut inclure des arbres de décision, des régressions multivariées et des régressions linéaires. Les résultats sont souvent classés par ordre d'importance en fonction de la force de la relation, ce qui aide à identifier les données les plus significatives. Par exemple, un fabricant de boissons peut utiliser cette technique pour prévoir les stocks nécessaires avant une période de forte chaleur.
Les techniques de data mining sont largement adoptées par les équipes de Business Intelligence et d’analyse de données, qui s’en servent pour extraire des informations précieuses pour leur entreprise et leur secteur d’activité. Voici quelques exemples d’utilisation courante du data mining :
Bien que les schémas récurrents dans les données puissent fournir des informations précieuses, l’observation des anomalies est également cruciale. Cela aide les entreprises à détecter des fraudes, des intrusions dans les réseaux ou des défauts de produits. Ce cas d’utilisation est bien connu dans les secteurs bancaires et financiers, mais il est également de plus en plus adopté par les entreprises SaaS pour éliminer les faux comptes utilisateurs de leurs bases de données. La détection des anomalies peut également offrir l’opportunité de découvrir de nouvelles stratégies ou de cibler des marchés qui ont été négligés par le passé.
Le data mining permet aux entreprises de localiser et de déterminer avec plus de précision l’ampleur des risques. Des schémas et anomalies peuvent être découverts dans des domaines tels que la cybersécurité, la finance et le droit, permettant ainsi d’identifier des erreurs ou des menaces potentielles.
En explorant plusieurs bases de données pour trouver des relations étroites, le data mining peut relier précisément les comportements et les profils des clients aux ventes de produits spécifiques, permettant ainsi des campagnes plus ciblées pour stimuler les ventes.
Les problèmes des clients peuvent être détectés et résolus plus rapidement si toutes leurs actions (sur le site web, en ligne, via les applications mobiles ou par téléphone) sont analysées grâce au data mining. Les agents du service client peuvent ainsi disposer d’informations plus complètes et plus pertinentes pour mieux servir leurs clients.
Les données opérationnelles issues des équipements industriels peuvent être exploitées pour prédire les performances futures et les temps d’arrêt, permettant ainsi une planification proactive de la maintenance.
Le process mining utilise des techniques de data mining pour réduire les coûts des fonctions opérationnelles, ce qui permet aux entreprises de fonctionner plus efficacement. Cette pratique peut aider à identifier les goulets d’étranglement coûteux et à améliorer la prise de décision des dirigeants.
Le data mining permet de créer une source d’informations plus riche pour le service client, en aidant à déterminer les facteurs qui plaisent le plus aux clients ainsi que ceux qui provoquent des frictions ou de l’insatisfaction.
Les établissements d’enseignement utilisent désormais les données pour mieux comprendre leurs populations étudiantes et identifier les environnements propices à la réussite. Avec l’utilisation de plateformes en ligne, ils peuvent analyser diverses dimensions, comme les frappes au clavier, les profils étudiants, les cours suivis et le temps passé, afin d’évaluer les performances.
Lorsqu’elles évaluent les risques, les institutions financières et les banques utilisent des outils de data mining pour capturer une combinaison de facteurs qui pourraient influencer les flux de trésorerie. Ces outils peuvent être utiles pour trouver et évaluer une combinaison de facteurs qui indiquent un bon ou un mauvais risque.
Le data mining est un outil précieux pour diagnostiquer des conditions médicales, comme l’analyse des scanners et des images, et pour suggérer des traitements bénéfiques.
Les entreprises peuvent obtenir de nouvelles informations sur les performances et la satisfaction des employés en analysant plusieurs facteurs et en trouvant des modèles. Les données peuvent inclure la date d’entrée en fonction, l’ancienneté, les promotions, le salaire, la formation, les performances des pairs, la prestation de travail, l’utilisation des avantages sociaux et les déplacements.
De la gestion des matières premières à la livraison finale, tous les aspects du processus de fabrication peuvent être analysés pour améliorer la performance. Quel est le coût des matériaux et existe-t-il plusieurs options ? Quelle est l’efficacité de la production ? Où sont les goulets d’étranglement ? Quels sont les problèmes de qualité et où surviennent-ils, tant en interne qu’avec les clients ?
Grâce à l’analyse des données et des actions des clients, les détaillants peuvent identifier les campagnes, tarifications, promotions, offres spéciales et ventes croisées ou incitatives les plus productives.
Les entreprises collectent d’énormes quantités de données sur leurs clients et prospects. En observant les caractéristiques démographiques, les comportements clients et les réactions des médias, elles peuvent optimiser leurs campagnes marketing, améliorer la segmentation et le ciblage, et renforcer les programmes de fidélisation, augmentant ainsi le retour sur investissement (ROI) de leurs efforts marketing. Les analyses prédictives aident également les équipes à établir des attentes avec leurs parties prenantes, en fournissant des estimations de rendement pour tout changement d’investissement dans le marketing.
L’analyse des données des utilisateurs peut aider à identifier de nouvelles opportunités éditoriales ou des sources de revenus publicitaires pour des publics cibles spécifiques.
Grâce au data mining, les chefs de produit peuvent mieux prévoir la demande, augmenter la production, ajuster les fournisseurs ou adapter les efforts marketing. Les responsables de la chaîne d’approvisionnement peuvent ainsi mieux planifier l’expédition et la gestion des stocks.
Utilisez les outils et solutions de science des données pour découvrir des tendances et établir des prévisions à l’aide de diverses techniques impliquant des données, des algorithmes, le machine learning et l’IA.
Découvrez Cognos Analytics 12.0, des informations alimentées par l’IA pour une prise de décision plus éclairée.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.