Qu’est-ce que l’enrichissement des données ?

Auteurs

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Qu’est-ce que l’enrichissement des données ?

L’enrichissement des données est une technique visant à améliorer la qualité et l’utilisabilité des données en complétant les jeux de données avec des informations supplémentaires provenant de sources internes ou externes.

 

Les entreprises collectent plus de données que jamais, mais souvent ces données manquent de contexte ou de signification. L’enrichissement des données aide à combler ces lacunes et à améliorer la compréhension des points de données existants, qu’ils soient sous forme de données brutes ou d’un ensemble de données structuré. L’enrichissement des données de cette manière peut transformer un jeu de données obscur en source d’informations éclairantes, permettant ainsi aux entreprises de prendre des décisions plus éclairées.

Les pratiques d’enrichissement des données font souvent partie des programmes de gestion des données et de gestion des données de référence d’une entreprise. Il existe plusieurs types d’enrichissement des données que les entreprises choisissent en fonction de leurs besoins métier et de leurs sources de données, tels que l’enrichissement démographique, firmographique et géographique. Si les équipes chargées des données peuvent procéder manuellement à l’enrichissement des données, l’intelligence artificielle (IA) et l’automatisation permettent d’optimiser les processus d’enrichissement des données.

Les cas d’utilisation courants de l’enrichissement des données se trouvent dans la stratégie marketing, mais les processus d’enrichissement des données peuvent également jouer un rôle dans des domaines tels que la cybersécurité, la santé et l’urbanisme. L’enrichissement des données s’est également révélé de plus en plus utile pour améliorer les performances des modèles de machine learning ; il fournit du contexte et des données plus complètes pour permettre des prévisions plus précises.

Pourquoi l’enrichissement des données est-il important ?

Imaginez une toile partiellement peinte, dont la moitié inférieure est recouverte de coups de pinceau bleus représentant un océan, tandis que quelques curieuses taches dorées flottent au milieu. Cependant, une fois le tableau terminé, il est clair que ces taches sont des reflets de lumière : le tableau achevé représente le soleil se couchant sur l’eau.

Si une toile inachevée peut être une œuvre d’art en soi, elle a également le potentiel de devenir quelque chose de plus. Il en va de même pour les jeux de données qui sont améliorés grâce à l’enrichissement des données.

Par exemple, lorsqu’un tableau de données clients contenant uniquement des noms et des numéros de téléphone est enrichi d’adresses e-mail, il devient un outil de prospection beaucoup plus puissant. Lorsqu’un jeu de données d’adresses de rue est enrichi de coordonnées géographiques, il peut fournir des informations plus approfondies sur l’utilisation des terrains d’un quartier.

Alors que les entreprises continuent de générer et de collecter des quantités massives de données brutes et de données non structurées, l’enrichissement des données est devenu de plus en plus urgent. Plus de données non structurées signifie plus de lacunes et un manque de contexte au sein des jeux de données. Grâce à l’enrichissement des données, les entreprises peuvent toutefois les corréler avec d’autres points de données qui leur donnent plus de sens, ce qui permet d’améliorer le retour sur investissement de leurs actifs de données.

Quels sont les avantages de l’enrichissement des données ?

L’enrichissement des données apporte divers avantages, notamment :

  • Une plus grande précision des données: l’enrichissement des données permet de combler les lacunes des données existantes, telles que des adresses postales incomplètes ou des titres professionnels manquants.
 
  • Une confiance accrue : la visualisation de différentes dimensions des données, comme un jeu de données de noms d’entreprises enrichi de codes de classification sectorielle, peut donner aux utilisateurs l’assurance qu’ils accèdent aux données pertinentes pour leurs besoins.
 
  • Une meilleure performance de l’IA : l’intelligence artificielle, y compris les modèles de machine learning et d’IA générative , fonctionne mieux lorsqu’elle est alimentée par des données complètes et de haute qualité.
 
  • Perspectives pour la prise de décision : des ensembles de données complets obtenus grâce à l’enrichissement des données peuvent aider les entreprises à découvrir de nouveaux schémas et opportunités liés aux exigences du marché, aux prix et plus encore. Par exemple, les informations sur les clients peuvent permettre de cibler les efforts de marketing en fonction des préférences des clients.
 
AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Quelle est la différence entre l’enrichissement des données et l’amélioration des données ?

Les termes « enrichissement des données » et « amélioration des données » sont souvent utilisés de manière interchangeable, mais ce sont des processus distincts. Si les deux peuvent améliorer la qualité des données, l’amélioration des données se concentre davantage sur le travail avec les données disponibles, tandis que l’enrichissement des données se concentre sur l’ajout de nouveaux points de données supplémentaires à un jeu de données.

Dans l’amélioration des données, le nettoyage et la mise à jour des données sont des fonctions essentielles. L’ajout de nouvelles données peut s’avérer nécessaire pour traiter les valeurs manquantes dans une colonne ou pour mettre à jour des informations obsolètes, mais la quantité de nouvelles données introduites n’est pas à l’échelle de l’enrichissement des données.

Grâce à l’enrichissement des données, de nouveaux champs sont souvent ajoutés aux ensembles de données existants. Comme pour l’amélioration des données, le nettoyage des données fait partie du processus, mais ici, il est effectué en préparation de l’ajout de nouvelles informations. (Voir « Étapes clés pour l’enrichissement des données » ci-dessous.)

Types d’enrichissement des données

Les entreprises utilisent couramment un ou plusieurs des types suivants d’enrichissement de données pour ajouter des informations à leurs ensembles de données existants :

  • Enrichissement des données comportementales : données sur le comportement et l’engagement des clients vis-à-vis des produits, des services et des différents canaux de communication, y compris les applications mobiles et les comptes de réseaux sociaux.
 
  • Enrichissement des données de contact : informations permettant d’enrichir les listes de contacts, y compris les numéros de téléphone, les adresses e-mail, les affiliations professionnelles et les profils de médias sociaux.
 
  • Enrichissement démographique : caractéristiques telles que l’âge, le sexe, l’origine ethnique, l’état civil et les revenus. On parle également d’enrichissement sociodémographique.
 
  • Enrichissement firmographique : informations sur une entreprise, telles que son secteur d’activité, sa taille, ses revenus et sa localisation.
 
  • Enrichissement géographique : informations sur la localisation d’une entité, telles que l’adresse, le code postal, le pays et les coordonnées géographiques.
 
  • Enrichissement psychographique : données sur le mode de vie, les intérêts, les attitudes et les convictions d’une personne.
 
  • Enrichissement technographique : données sur les types de technologies utilisées par un individu ou une entreprise, y compris les applications, outils, matériel, logiciels et infrastructures informatiques.

Étapes clés de l’enrichissement des données

Le processus d’enrichissement des données peut varier d’une entreprise à l’autre, mais il existe quelques étapes communes :

Nettoyage des données

Nettoyer le jeu de données ciblé pour l’enrichissement grâce à des techniques telles que la normalisation (en veillant à ce que les formats soient cohérents) et la déduplication des données.

Identifier les opportunités d’enrichissement

Déterminer les types d’informations qu’il serait utile d’ajouter au jeu de données.

Sourçage de données

Déterminer les sources des nouvelles données, en sélectionnant entre sources internes et externes si nécessaire.

Intégration des données

Ajouter les nouvelles données aux jeux de données ciblés à l’aide d’outils tels que les logiciels d’Intégration de données.

Quelles sources de données sont utilisées pour l’enrichissement des données ?

Les entreprises peuvent procéder à l’enrichissement des données en utilisant leurs données internes, y compris les données de première partie (données collectées directement auprès des clients), ainsi que les données provenant de sources tierces.

Les entreprises qui cherchent à utiliser des données provenant de sources internes peuvent se heurter à un obstacle : le cloisonnement des données. Heureusement, elles peuvent briser ces silos grâce à l’intégration des données, le processus qui consiste à rassembler des données provenant de sources disparates et à les transformer en un format unifié et utilisable. Par exemple, une entreprise peut enrichir un jeu de données clients en intégrant des données issues de systèmes de gestion de la relation client (CRM) et de bases de données marketing.

Les entreprises peuvent également se tourner vers des sources de données externes, à savoir des sources publiques gratuites et des fournisseurs de données tiers. Les sources de données publiques comprennent des jeux de données gouvernementaux (par exemple : données de recensement, rapports sur l’emploi), tandis que les fournisseurs de données tiers collectent et vendent différents types de données, y compris des données de contact, démographiques et firmographiques. Lorsqu’elles sélectionnent des données tierces, les entreprises doivent travailler uniquement avec des sources et des fournisseurs fiables afin d’être sûres que les données sont exactes, actuelles et répondent à leurs normes de qualité.

Toutes les données acquises et stockées dans le cadre d’un processus d’enrichissement des données doivent être gérées conformément aux règles régissant la confidentialité et la sécurité des données, telles que le RGPD et la loi Health Insurance Portability and Accountability Act (HIPAA).

Outils d’enrichissement des données

Avec la croissance de la prise de décision fondée sur les données et des besoins liés à l’IA, la demande pour des données de haute qualité et, par extension, pour des outils d’enrichissement des données, s’est intensifiée. Le marché mondial des solutions d’enrichissement des données devrait atteindre près de 4,6 milliards USD d’ici 2030, contre environ 2,4 milliards USD en 2023.

Si l’adoption de l’IA contribue à stimuler l’utilisation de solutions d’enrichissement des données, elle est également à la base de certains des outils d’enrichissement des données les plus avancés. Les types courants d’outils et de solutions d’enrichissement des données incluent :

  • Solutions d’intégration de données : Les solutions d’intégration de données prennent en charge les processus d’extraction, de transformation et de chargement (ETL) qui comprennent l’enrichissement des données ainsi que le nettoyage et d’autres modifications des données. Il est important de noter que les solutions d’intégration de données peuvent également opérationnaliser les données après leur enrichissement, en chargeant les données enrichies dans des entrepôts et d’autres destinations à des fins d’analyse.
 
  • Lacs de données ouverts : les principales solutions de data lakehouse peuvent automatiser l’ingestion et l’enrichissement des données non structurées et les unifier avec les données structurées.
 
 
  • Solutions de workflow d’enrichissement agentique : les agents IA peuvent encore simplifier les processus d’enrichissement des données. Dans un modèle d’enrichissement des données agentique, un utilisateur crée une feuille de calcul, déclenchant une interface de programmation d’applications (API) pour trouver et ingérer des données pertinentes en temps réel provenant du web. Les nouvelles informations sont traitées par un LLM, puis ajoutées à la feuille de calcul.1

Cas d’utilisation de l’enrichissement des données

L’enrichissement des données a des applications dans de nombreux domaines et secteurs.

Marketing et ventes

Les équipes de marketing et de vente utilisent fréquemment l’enrichissement des données, en particulier l’enrichissement des données comportementales, l’enrichissement démographique et l’enrichissement firmographique. Ils exploitent des données enrichies pour construire des profils clients, soutenir les stratégies de segmentation, créer des campagnes marketing personnalisées et offrir des expériences client personnalisées.

Urbanisme

Des données spatiales de haute qualité sont cruciales pour la planification et le développement urbains. Une forme d’enrichissement géographique appelée géocodage permet d’obtenir des coordonnées de latitude et de longitude à partir des adresses de rue, aidant les urbanistes à identifier les lieux avec plus de précision.

Santé et sciences de la vie

Les dispositifs portables, les applications de santé et de fitness ainsi que d’autres technologies de surveillance de la santé servent de nouvelles sources d’information pour enrichir les jeux de données des patients et les jeux de données de recherche. Cet enrichissement peut aider les professionnels de la santé à améliorer les soins aux patients et les chercheurs à découvrir des modèles et des informations importantes.

Cybersécurité

Les données relatives aux événements de sécurité peuvent être enrichies d’informations telles que les emplacements physiques (enrichissement géographique) et les appareils utilisés (enrichissement technographique) afin d’améliorer l’évaluation des risques et des vulnérabilités en matière de cybersécurité.

Rendu 3D d'une spirale de plusieurs icônes alignées comme un appareil photo, un bouton de volume et un clipboard
Solutions connexes
IBM StreamSets

Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.

Découvrir StreamSets
IBM watsonx.data

watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.

Découvrir watsonx.data
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.

  1. Découvrir les solutions de gestion des données
  2. Découvrir watsonx.data