Les entreprises collectent plus de données que jamais, mais souvent ces données manquent de contexte ou de signification. L’enrichissement des données aide à combler ces lacunes et à améliorer la compréhension des points de données existants, qu’ils soient sous forme de données brutes ou d’un ensemble de données structuré. L’enrichissement des données de cette manière peut transformer un jeu de données obscur en source d’informations éclairantes, permettant ainsi aux entreprises de prendre des décisions plus éclairées.
Les pratiques d’enrichissement des données font souvent partie des programmes de gestion des données et de gestion des données de référence d’une entreprise. Il existe plusieurs types d’enrichissement des données que les entreprises choisissent en fonction de leurs besoins métier et de leurs sources de données, tels que l’enrichissement démographique, firmographique et géographique. Si les équipes chargées des données peuvent procéder manuellement à l’enrichissement des données, l’intelligence artificielle (IA) et l’automatisation permettent d’optimiser les processus d’enrichissement des données.
Les cas d’utilisation courants de l’enrichissement des données se trouvent dans la stratégie marketing, mais les processus d’enrichissement des données peuvent également jouer un rôle dans des domaines tels que la cybersécurité, la santé et l’urbanisme. L’enrichissement des données s’est également révélé de plus en plus utile pour améliorer les performances des modèles de machine learning ; il fournit du contexte et des données plus complètes pour permettre des prévisions plus précises.
Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.
Imaginez une toile partiellement peinte, dont la moitié inférieure est recouverte de coups de pinceau bleus représentant un océan, tandis que quelques curieuses taches dorées flottent au milieu. Cependant, une fois le tableau terminé, il est clair que ces taches sont des reflets de lumière : le tableau achevé représente le soleil se couchant sur l’eau.
Si une toile inachevée peut être une œuvre d’art en soi, elle a également le potentiel de devenir quelque chose de plus. Il en va de même pour les jeux de données qui sont améliorés grâce à l’enrichissement des données.
Par exemple, lorsqu’un tableau de données clients contenant uniquement des noms et des numéros de téléphone est enrichi d’adresses e-mail, il devient un outil de prospection beaucoup plus puissant. Lorsqu’un jeu de données d’adresses de rue est enrichi de coordonnées géographiques, il peut fournir des informations plus approfondies sur l’utilisation des terrains d’un quartier.
Alors que les entreprises continuent de générer et de collecter des quantités massives de données brutes et de données non structurées, l’enrichissement des données est devenu de plus en plus urgent. Plus de données non structurées signifie plus de lacunes et un manque de contexte au sein des jeux de données. Grâce à l’enrichissement des données, les entreprises peuvent toutefois les corréler avec d’autres points de données qui leur donnent plus de sens, ce qui permet d’améliorer le retour sur investissement de leurs actifs de données.
L’enrichissement des données apporte divers avantages, notamment :
Les termes « enrichissement des données » et « amélioration des données » sont souvent utilisés de manière interchangeable, mais ce sont des processus distincts. Si les deux peuvent améliorer la qualité des données, l’amélioration des données se concentre davantage sur le travail avec les données disponibles, tandis que l’enrichissement des données se concentre sur l’ajout de nouveaux points de données supplémentaires à un jeu de données.
Dans l’amélioration des données, le nettoyage et la mise à jour des données sont des fonctions essentielles. L’ajout de nouvelles données peut s’avérer nécessaire pour traiter les valeurs manquantes dans une colonne ou pour mettre à jour des informations obsolètes, mais la quantité de nouvelles données introduites n’est pas à l’échelle de l’enrichissement des données.
Grâce à l’enrichissement des données, de nouveaux champs sont souvent ajoutés aux ensembles de données existants. Comme pour l’amélioration des données, le nettoyage des données fait partie du processus, mais ici, il est effectué en préparation de l’ajout de nouvelles informations. (Voir « Étapes clés pour l’enrichissement des données » ci-dessous.)
Les entreprises utilisent couramment un ou plusieurs des types suivants d’enrichissement de données pour ajouter des informations à leurs ensembles de données existants :
Le processus d’enrichissement des données peut varier d’une entreprise à l’autre, mais il existe quelques étapes communes :
Nettoyer le jeu de données ciblé pour l’enrichissement grâce à des techniques telles que la normalisation (en veillant à ce que les formats soient cohérents) et la déduplication des données.
Déterminer les types d’informations qu’il serait utile d’ajouter au jeu de données.
Déterminer les sources des nouvelles données, en sélectionnant entre sources internes et externes si nécessaire.
Ajouter les nouvelles données aux jeux de données ciblés à l’aide d’outils tels que les logiciels d’Intégration de données.
Les entreprises peuvent procéder à l’enrichissement des données en utilisant leurs données internes, y compris les données de première partie (données collectées directement auprès des clients), ainsi que les données provenant de sources tierces.
Les entreprises qui cherchent à utiliser des données provenant de sources internes peuvent se heurter à un obstacle : le cloisonnement des données. Heureusement, elles peuvent briser ces silos grâce à l’intégration des données, le processus qui consiste à rassembler des données provenant de sources disparates et à les transformer en un format unifié et utilisable. Par exemple, une entreprise peut enrichir un jeu de données clients en intégrant des données issues de systèmes de gestion de la relation client (CRM) et de bases de données marketing.
Les entreprises peuvent également se tourner vers des sources de données externes, à savoir des sources publiques gratuites et des fournisseurs de données tiers. Les sources de données publiques comprennent des jeux de données gouvernementaux (par exemple : données de recensement, rapports sur l’emploi), tandis que les fournisseurs de données tiers collectent et vendent différents types de données, y compris des données de contact, démographiques et firmographiques. Lorsqu’elles sélectionnent des données tierces, les entreprises doivent travailler uniquement avec des sources et des fournisseurs fiables afin d’être sûres que les données sont exactes, actuelles et répondent à leurs normes de qualité.
Toutes les données acquises et stockées dans le cadre d’un processus d’enrichissement des données doivent être gérées conformément aux règles régissant la confidentialité et la sécurité des données, telles que le RGPD et la loi Health Insurance Portability and Accountability Act (HIPAA).
Avec la croissance de la prise de décision fondée sur les données et des besoins liés à l’IA, la demande pour des données de haute qualité et, par extension, pour des outils d’enrichissement des données, s’est intensifiée. Le marché mondial des solutions d’enrichissement des données devrait atteindre près de 4,6 milliards USD d’ici 2030, contre environ 2,4 milliards USD en 2023.
Si l’adoption de l’IA contribue à stimuler l’utilisation de solutions d’enrichissement des données, elle est également à la base de certains des outils d’enrichissement des données les plus avancés. Les types courants d’outils et de solutions d’enrichissement des données incluent :
L’enrichissement des données a des applications dans de nombreux domaines et secteurs.
Les équipes de marketing et de vente utilisent fréquemment l’enrichissement des données, en particulier l’enrichissement des données comportementales, l’enrichissement démographique et l’enrichissement firmographique. Ils exploitent des données enrichies pour construire des profils clients, soutenir les stratégies de segmentation, créer des campagnes marketing personnalisées et offrir des expériences client personnalisées.
Des données spatiales de haute qualité sont cruciales pour la planification et le développement urbains. Une forme d’enrichissement géographique appelée géocodage permet d’obtenir des coordonnées de latitude et de longitude à partir des adresses de rue, aidant les urbanistes à identifier les lieux avec plus de précision.
Les dispositifs portables, les applications de santé et de fitness ainsi que d’autres technologies de surveillance de la santé servent de nouvelles sources d’information pour enrichir les jeux de données des patients et les jeux de données de recherche. Cet enrichissement peut aider les professionnels de la santé à améliorer les soins aux patients et les chercheurs à découvrir des modèles et des informations importantes.
Les données relatives aux événements de sécurité peuvent être enrichies d’informations telles que les emplacements physiques (enrichissement géographique) et les appareils utilisés (enrichissement technographique) afin d’améliorer l’évaluation des risques et des vulnérabilités en matière de cybersécurité.
Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.
watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.