Qu'est-ce que la fouille de données ?

Mise à jour : 28 juin 2024
Contributeur : Jim Holdsworth

Qu’est-ce que la fouille de données

La fouille de données consiste à utiliser le machine learning et l'analyse statistique pour révéler des modèles et d'autres informations précieuses à partir de vastes ensembles de données.

Avec l'évolution du machine learning (ML), de l'entreposage des données et la croissance des big data, l'adoption de la fouille de données, également appelée découverte de connaissances dans les bases de données (KDD), s'est accélérée ces dernières décennies. Toutefois, malgré les avancées de cette technologie pour traiter des volumes de données toujours plus importants, les responsables peuvent encore rencontrer des défis liés à l'évolutivité et à l'automatisation.

Les techniques de fouille de données utilisées pour les analyses peuvent répondre à deux objectifs principaux : décrire les ensembles de données cibles ou prédire des résultats à l'aide d'algorithmes de machine learning.

Ces méthodes permettent d'organiser et de filtrer les données, en faisant ressortir les informations les plus pertinentes, qu'il s'agisse de fraude, de comportements utilisateurs, de goulets d'étranglement, ou même de violations de la sécurité. L'utilisation des algorithmes de machine learning et de l'intelligence artificielle (IA) permet d'automatiser ces analyses, accélérant considérablement les processus.

Associée à des outils d'analyse de données et de visualisation, tels qu'Apache Spark, la fouille de données devient plus accessible, permettant d'extraire des insights pertinents plus rapidement que jamais. Les progrès constants de l'IA accélèrent son adoption dans de nombreux secteurs.

IA générative et ML au service des entreprises

Découvrez comment intégrer en toute confiance l’IA générative et le machine learning dans votre entreprise.

Avantages et défis

Avantages

Découvrir des informations et tendances cachées : la fouille de données prend des données brutes et trouve de l'ordre dans le chaos, permettant d'apercevoir la forêt derrière les arbres. Cela peut se traduire par une planification plus éclairée dans l'ensemble des fonctions de l'entreprise et des secteurs d'activité, notamment la publicité, la finance, l'administration, les soins de santé, les ressources humaines, la fabrication, le marketing, la recherche, les ventes et la gestion de la chaîne d'approvisionnement (SCM).

Économies de budget : en analysant les données de performance provenant de diverses sources, la fouille de données permet d'identifier les goulets d'étranglement dans les processus, accélérant ainsi leur résolution et augmentant l'efficacité.

Résoudre de multiples défis : la fouille de données est un outil polyvalent. Elle permet d'analyser les données de presque toutes les sources et tous les aspects d'une organisation, afin de découvrir des modèles et d'améliorer les pratiques. Presque chaque département qui collecte et analyse des données peut tirer profit de la fouille de données.

Défis

Complexité et risques : obtenir des informations utiles nécessite des données valides, ainsi que des experts ayant une expérience en programmation. La maîtrise de langages de fouille de données comme Python, R et SQL est souvent nécessaire. Une approche trop légère peut aboutir à des résultats trompeurs ou dangereux. Certaines données personnelles utilisées dans la fouille de données peuvent inclure des informations personnellement identifiables (PII) qui doivent être manipulées avec précaution pour éviter des problèmes légaux ou d'image.

Coût : pour obtenir les meilleurs résultats, il est souvent nécessaire de disposer de vastes ensembles de données. Si de nouvelles informations doivent être collectées par une organisation, la mise en place d’un pipeline de données peut représenter une nouvelle dépense. Si les données doivent être achetées auprès d’une source externe, cela a également un coût.

Incertitudes : un projet ambitieux de fouille de données peut ne pas toujours donner de résultats clairs ou bénéfiques. Des données inexactes peuvent entraîner des conclusions erronées, soit à cause d'une mauvaise sélection des données, soit d'un prétraitement incorrect. D'autres risques incluent des erreurs de modélisation ou l'utilisation de données obsolètes dans un marché en rapide évolution.

Il est aussi possible que des résultats semblent valides mais soient en réalité dus au hasard et non fiables. Il est essentiel de se rappeler que « corrélation n'est pas causalité ». Un exemple célèbre de « dragage de données » — c'est-à-dire l'observation d'une corrélation apparente et l'exagération de son importance — a été récemment présenté par le blogueur Tyler Vigen : « Le prix de l'action Amazon.com correspond de près au nombre d'enfants prénommés "Stevie" entre 2002 et 2022 ».¹ Bien sûr, nommer des enfants Stevie n'a aucune influence sur le cours des actions d'Amazon, et vice versa. Les applications de fouille de données permettent de détecter des modèles, mais le jugement humain reste primordial.

Fouille de données, fouille de texte et process mining

La fouille de données, ou « data mining » en anglais, est un processus global d'identification de motifs et d'extraction d'informations utiles à partir de vastes ensembles de données. Elle permet d'évaluer à la fois des données structurées et non structurées pour identifier des informations nouvelles. Ce processus est souvent utilisé par les équipes de marketing et de vente pour analyser les comportements des consommateurs. Par exemple, les méthodes de fouille de données permettent d'observer et de prédire des comportements comme le taux de désabonnement des clients, la détection des fraudes, l'analyse des paniers d'achat, etc.

La fouille de texte, ou « text mining » en anglais est un sous-domaine de la fouille de données, qui vise à transformer des textes non structurés en un format structuré afin d'identifier des motifs significatifs et de générer des insights. Les données non structurées peuvent inclure des textes provenant de sources telles que des publications sur les réseaux sociaux, des avis de produits, des articles, des courriels ou même des formats multimédias comme des fichiers vidéo ou audio. Une grande partie des données publiques disponibles est non structurée, ce qui rend la fouille de texte particulièrement précieuse

Le process mining se situe au carrefour du business process management (BPM) et de la fouille de données Le process mining permet d’appliquer des algorithmes aux données des journaux d’événements afin d’identifier les tendances, les schémas et les détails du déroulement des processus. Cette approche combine la science des données pour identifier les goulets d'étranglement, valider et améliorer les workflows.

Le BPM recueille généralement des données de manière plus informelle par le biais d’ateliers et d’entretiens, puis utilise un logiciel pour représenter le workflow sous la forme d’un diagramme de processus. Dans la mesure où les données qui alimentent ces diagrammes de processus sont souvent qualitatives, le process mining permet une approche plus quantitative à un problème de processus en détaillant le processus réel par le biais de données d’événements.

Les systèmes d’information comme les outils de planification des ressources d’entreprise (ERP) ou de gestion de la relation client (CRM) fournissent une piste d’audit des processus à partir des données de journal. Le process mining utilise ces données provenant des systèmes informatiques pour assembler un modèle de processus ou un graphique de processus. Ensuite, les organisations peuvent examiner le processus de bout en bout, en précisant les détails et toutes les variations.

Comment fonctionne la fouille de données ?

Le processus de fouille de données comporte plusieurs étapes, allant de la collecte des données à leur visualisation, dans le but d'extraire des informations précieuses à partir de grands ensembles de données. Les techniques de fouille de données peuvent être utilisées pour générer des descriptions et des prédictions à partir de l'ensemble de données cible.

Les data scientists ou spécialistes de la business intelligence (BI) analysent les données en observant des motifs, des associations et des corrélations. Ils classent et regroupent les données grâce à des méthodes de classification et de régression, et identifient des valeurs aberrantes, par exemple pour la détection de spams.

La fouille de données suit généralement cinq étapes principales : définition des objectifs, sélection des données, préparation des données, construction d'un modèle de données, et enfin, exploration des motifs et évaluation des résultats.

1. Définir les objectifs de l'entreprise : cette étape peut être la plus difficile du processus de fouille de données, et de nombreuses organisations y consacrent souvent trop peu de temps. Avant même d'identifier, d'extraire ou de nettoyer les données, les data scientists et les parties prenantes doivent collaborer pour définir précisément le problème commercial, ce qui aidera à orienter les questions liées aux données et les paramètres du projet. Les analystes pourraient également avoir besoin de recherches supplémentaires pour bien comprendre le contexte de l'entreprise.

2. Sélection des données : une fois le problème bien défini, il devient plus facile pour les data scientists d'identifier les ensembles de données nécessaires pour répondre aux questions pertinentes. Avec l'équipe informatique, ils déterminent également où ces données doivent être stockées et sécurisées..

3. Préparation des données : les données pertinentes sont collectées puis nettoyées afin d’éliminer tout bruit, tel que les doublons, les valeurs manquantes ou aberrantes. Selon l’ensemble de données, une étape supplémentaire de gestion des données peut être nécessaire pour réduire le nombre de dimensions, car trop de caractéristiques peuvent ralentir les calculs.

Les data scientists s'efforcent de conserver les prédicteurs les plus significatifs pour garantir une précision optimale des modèles. Une approche responsable de la science des données implique de considérer le modèle au-delà du code et des performances, en tenant compte de la qualité et de la fiabilité des données utilisées..

4. Construction de modèles et fouille de modèles : selon le type d'analyse, les data scientists peuvent rechercher des tendances ou des relations intéressantes entre les données, telles que des modèles séquentiels, des règles d'association ou des corrélations. Bien que les modèles à haute fréquence aient des applications larges, les écarts dans les données peuvent révéler des zones d'intérêt, comme la fraude potentielle. Les modèles prédictifs permettent d'anticiper les tendances ou résultats futurs. Dans les systèmes les plus avancés, ces modèles peuvent effectuer des prédictions en temps réel pour réagir rapidement aux changements de marché.

Les algorithmes d'apprentissage profond peuvent également être utilisés pour classer ou regrouper les données disponibles. Si les données d'entrée sont étiquetées (apprentissage supervisé), un modèle de classification peut être appliqué ; sinon, une régression peut être utilisée pour prédire la probabilité d'un résultat particulier. En l'absence d'étiquettes (apprentissage non supervisé), les points de données sont comparés pour découvrir des similitudes sous-jacentes, et regroupés en fonction de ces caractéristiques.

5. Évaluation des résultats et mise en œuvre des connaissances : une fois les données agrégées, elles peuvent être préparées pour la présentation, souvent grâce à des techniques de visualisation de données, permettant ainsi aux résultats d’être évalués et interprétés. Les résultats doivent idéalement être valides, nouveaux, utiles et compréhensibles. Lorsque ces critères sont remplis, les décideurs peuvent exploiter ces connaissances pour élaborer de nouvelles stratégies et atteindre leurs objectifs.

Techniques de fouille de données

Voici quelques techniques populaires de fouille de données :

Règles d'association : les règles d’association sont des méthodes de type « si/alors » qui permettent de trouver des relations entre des variables dans un ensemble de données. La force des relations est mesurée par le soutien et la confiance. Le niveau de confiance indique la fréquence à laquelle les affirmations « si » ou « alors » sont vraies, tandis que la mesure de soutien représente la fréquence d'apparition des éléments associés dans les données.

Ces méthodes sont souvent utilisées dans l’analyse des paniers d’achat, permettant aux entreprises de mieux comprendre quelles sont les associations de produits souvent achetés ensemble. La compréhension des habitudes des clients permet aux entreprises de développer de meilleures stratégies de vente croisée et d'optimiser leurs moteurs de recommandation..

Classification : les classes d'objets sont prédéfinies selon les besoins de l'organisation, avec des définitions des caractéristiques communes entre ces objets. Cela permet de regrouper les données sous-jacentes afin de faciliter leur analyse.

Par exemple, une entreprise de produits de consommation peut analyser sa stratégie de coupons en examinant les échanges de coupons passés, les données de vente, les statistiques d'inventaire et les données consommateurs disponibles pour affiner ses futures campagnes.

Regroupement : étroitement lié à la classification, le regroupement identifie des similitudes tout en proposant des groupements supplémentaires basés sur les différences. Par exemple, un fabricant de produits ménagers pourrait avoir des classifications prédéfinies telles que détergent, eau de Javel, adoucissant, nettoyant pour sol et cire pour sol. Le regroupement, en revanche, pourrait créer des groupes plus larges, tels que produits de lessive et entretien des sols..

Arbre de décision : cette technique de fouille de données utilise des analyses de classification ou de régression pour classer ou prédire les résultats potentiels en fonction d'un ensemble de décisions. Comme son nom l'indique, l’arbre de décision utilise une visualisation en forme d’arbre pour représenter les résultats potentiels de ces décisions.

K-plus proches voisins (KNN) : également connu sous le nom d'algorithme KNN, le K-plus proches voisins est un algorithme non paramétrique qui classe les points de données en fonction de leur proximité et de leur association à d'autres données disponibles. Cet algorithme suppose que des points de données similaires sont situés à proximité les uns des autres. Il calcule donc la distance entre les points, généralement via la distance euclidienne, puis assigne une catégorie en fonction de la catégorie la plus fréquente ou de la moyenne.

Réseaux neuronaux : principalement utilisés pour les algorithmes d'apprentissage profond, les réseaux neuronaux traitent les données en imitant l'interconnectivité du cerveau humain par des couches de nœuds. Chaque nœud est composé d’entrées, de poids, d’un biais (ou seuil) et d’une sortie.

Si cette valeur de sortie dépasse un seuil donné, elle « déclenche » ou active le nœud, transmettant les données à la couche suivante du réseau. Les réseaux neuronaux apprennent cette fonction de mappage au moyen de l’apprentissage supervisé, apportant des ajustements basés sur la fonction de perte grâce au processus de descente de gradient. Lorsque la fonction de coût est proche de zéro, le modèle est considéré comme précis.

Analyse prédictive : en combinant la fouille de données avec des techniques de modélisation statistique et de machine learning, les données historiques peuvent être analysées via l'analyse prédictive pour créer des modèles graphiques ou mathématiques. Ces modèles permettent d'identifier des schémas, de prévoir des événements futurs, et d'identifier des risques ou des opportunités.

Analyse de régression: cette technique découvre des relations dans les données en prédisant des résultats à partir de variables prédéfinies. Cela peut inclure des arbres de décision, des régressions multivariées et des régressions linéaires. Les résultats sont souvent classés par ordre d'importance en fonction de la force de la relation, ce qui aide à identifier les données les plus significatives. Par exemple, un fabricant de boissons peut utiliser cette technique pour prévoir les stocks nécessaires avant une période de forte chaleur.

Cas d'utilisation de la fouille de données

Les techniques de fouille de données sont largement adoptées par les équipes de business intelligence et d'analyse de données, qui s'en servent pour extraire des informations précieuses pour leur organisation et leur secteur d'activité. Voici quelques exemples d'utilisation courante de la fouille de données :

Détection d'anomalies
Bien que les schémas récurrents dans les données puissent fournir des informations précieuses, l'observation des anomalies est également cruciale. Cela aide les organisations à détecter des fraudes, des intrusions dans les réseaux ou des défauts de produits. Ce cas d'utilisation est bien connu dans les secteurs bancaires et financiers, mais il est également de plus en plus adopté par les entreprises SaaS pour éliminer les faux comptes utilisateurs de leurs bases de données. La détection des anomalies peut également offrir l'opportunité de découvrir de nouvelles stratégies ou de cibler des marchés qui ont été négligés par le passé.

Évaluer les risques
La fouille de données permet aux organisations de localiser et de déterminer avec plus de précision l'ampleur des risques. Des schémas et anomalies peuvent être découverts dans des domaines tels que la cybersécurité, la finance et le droit, permettant ainsi d’identifier des erreurs ou des menaces potentielles.

Se concentrer sur les marchés cibles
En explorant plusieurs bases de données pour trouver des relations étroites, la fouille de données peut relier précisément les comportements et les profils des clients aux ventes de produits spécifiques, permettant ainsi des campagnes plus ciblées pour stimuler les ventes.

Améliorer le service client
Les problèmes des clients peuvent être détectés et résolus plus rapidement si toutes leurs actions (sur le site web, en ligne, via les applications mobiles ou par téléphone) sont analysées grâce à la fouille de données. Les agents du service clientèle peuvent ainsi disposer d’informations plus complètes et plus pertinentes pour mieux servir leurs clients.

Augmenter le temps de fonctionnement des équipements
Les données opérationnelles issues des équipements industriels peuvent être exploitées pour prédire les performances futures et les pannes, permettant ainsi une planification proactive de la maintenance.

Optimisation opérationnelle
Le process mining utilise des techniques de fouille de données pour réduire les coûts des fonctions opérationnelles, permettant ainsi aux organisations de fonctionner de manière plus efficace. Cela aide à identifier les goulets d’étranglement coûteux et à améliorer la prise de décision des dirigeants.

Cas d’utilisation dans l'industrie

Service client
La fouille de données permet de créer une source d’informations plus riche pour le service client, en identifiant les facteurs qui plaisent le plus aux clients ainsi que ceux qui provoquent des frictions ou de l'insatisfaction.

Éducation
Les établissements d'enseignement utilisent désormais les données pour mieux comprendre leurs populations étudiantes et identifier les environnements propices à la réussite. Avec l’utilisation de plateformes en ligne, ils peuvent analyser diverses dimensions, comme les frappes au clavier, les profils étudiants, les cours suivis et le temps passé, afin d’évaluer les performances.

Finance
Lorsqu’elles évaluent les risques, les institutions financières et les banques utilisent des outils de fouille de données pour capturer une combinaison de facteurs qui pourraient influencer les flux de trésorerie. Ces outils peuvent être utiles pour trouver et évaluer une combinaison de facteurs qui indiquent un bon ou un mauvais risque.

Santé
La fouille de données est un outil précieux pour diagnostiquer des conditions médicales, comme l’analyse des scanners et des images, et pour suggérer des traitements bénéfiques.

Ressources humaines
Les organisations peuvent obtenir de nouvelles informations sur les performances et la satisfaction des employés en analysant plusieurs facteurs et en trouvant des modèles. Les données peuvent inclure la date d'entrée en fonction, l'ancienneté, les promotions, le salaire, la formation, les performances des pairs, la prestation de travail, l'utilisation des avantages sociaux et les déplacements.

Fabrication
De la gestion des matières premières à la livraison finale, tous les aspects du processus de fabrication peuvent être analysés pour améliorer la performance. Quel est le coût des matériaux et existe-t-il plusieurs options ? Quelle est l'efficacité de la production ? Où sont les goulets d’étranglement ? Quels sont les problèmes de qualité et où surviennent-ils, tant en interne qu’avec les clients ?

Vente au détail
Grâce à l'analyse des données et des actions des clients, les détaillants peuvent identifier les campagnes, promotions, offres spéciales et ventes croisées ou incitatives les plus productives.

Ventes et marketing
Les entreprises collectent d'énormes quantités de données sur leurs clients et prospects. En observant les caractéristiques démographiques, les comportements clients et les réactions des médias, elles peuvent optimiser leurs campagnes marketing, améliorer la segmentation et le ciblage, et renforcer les programmes de fidélisation, augmentant ainsi le retour sur investissement (ROI) de leurs efforts marketing. Les analyses prédictives aident également les équipes à établir des attentes avec leurs parties prenantes, en fournissant des estimations de rendement pour tout changement d'investissement dans le marketing.

Réseaux sociaux
L'analyse des données des utilisateurs peut aider à identifier de nouvelles opportunités éditoriales ou des sources de revenus publicitaires pour des publics cibles spécifiques.

Gestion de la chaîne d’approvisionnement (SCM)
Grâce à la fouille de données, les gestionnaires de produits peuvent mieux prévoir la demande, accélérer la production, ajuster les fournisseurs ou adapter les efforts marketing. Les responsables de la chaîne d'approvisionnement peuvent ainsi mieux planifier l’expédition et la gestion des stocks.

Solutions connexes

Plateforme de recherche d'entreprise

Trouvez des réponses et des informations essentielles à partir de vos données métier grâce à une technologie de recherche d’entreprise alimentée par l’IA.

Découvrir IBM Watson Discovery

IBM Db2 Warehouse

Un entrepôt de données dans le cloud élastique et entièrement géré, conçu pour l’analytique et l’IA de haute performance.

Découvrir IBM Db2 Warehouse on Cloud

IBM SPSS Modeler

Importez de grands volumes de données provenant de plusieurs sources disparates afin de faire apparaître des schémas et des tendances cachés.

Essai gratuit de 30 jours

Ressources

Techniques de fouille de données

Identifier les modèles et les tendances à l’aide d’analyses prédictives et de techniques clés.

3 nouvelles étapes dans le processus d'exploration des données pour garantir une IA fiable

Découvrez comment réduire vos propres biais lors de la création de modèles de machine learning.

Passez à l’étape suivante

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio professionnel de nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai

Réserver une démo live

Notes de bas de page

¹ « Spurious Correlations » (lien externe à ibm.com), Tyler Vigen.