Aujourd’hui, les entreprises génèrent des montagnes de données toujours plus importantes, dont le volume dépasse les 400 millions de téraoctets par jour. Une grande partie de ces données peuvent s’avérer extrêmement précieuses, mais seulement si les entreprises parviennent à les comprendre et à les exploiter correctement.
Dans le cadre d’une gestion efficace des données, la curation facilite l’extraction d’informations importantes à partir des données de l’entreprise et leur utilisation dans la prise de décision. De plus, des données bien curées sont considérées comme essentielles pour améliorer les performances des initiatives d’intelligence artificielle (IA) et garantir la conformité réglementaire, tant en matière de gestion que de confidentialité des données.
Au-delà des entreprises, la curation des données occupe une place centrale dans la recherche et l’enseignement supérieur. Elle permet notamment d’améliorer le partage et l’archivage des données de recherche entre développeurs, scientifiques, professionnels de santé et autres chercheurs.
Le processus de curation des données peut être manuel ou automatisé à l’aide de logiciels capables d’effectuer ces tâches à grande échelle.
À la base, la curation des données permet aux entreprises d’exploiter leurs données pour créer de la valeur. Toutefois, elle contribue également à gérer la croissance exponentielle des données, à soutenir des initiatives d’IA efficaces et responsables, à garantir la conformité réglementaire et à assurer l’utilisabilité des données.
La croissance exponentielle de la quantité de données fait que les organisations disposent aujourd’hui de plus de données utiles que jamais, certaines accumulant des jeux de données contenant des téraoctets, voire des pétaoctets d’informations provenant de diverses sources. Selon les estimations, 149 zettaoctets de données ont été générés dans le monde en 2024, et ce chiffre devrait plus que doubler à l’horizon 2028.
Effectuer les opérations d’assurance qualité et de découverte des données sur des jeux aussi volumineux et complexes, appelés « big data », n’est pas une mince affaire. Il s’agit pourtant d’une tâche essentielle, car les données d’entreprise constituent de plus en plus une source d’informations précieuses. Annoter et organiser les données à des fins décisionnelles permet aux entreprises de tous les secteurs d’activité de se démarquer de la concurrence et d’améliorer leurs performances.
Relever les défis liés à la qualité et à l’utilisabilité des données est d’autant plus urgent que les organisations considèrent les capacités offertes par l’IA comme un impératif stratégique. Les systèmes d’IA ont le potentiel de transformer les entreprises et d’accroître la productivité, mais leurs besoins en données sont considérables : ils ont en effet besoin de données de haute qualité pour fonctionner efficacement.
Des données de mauvaise qualité peuvent nuire aux performances des modèles, illustrant le principe de « garbage in, garbage out » (de mauvaises informations sont synonymes de mauvaises conclusions). Des jeux de données contenant des valeurs manquantes, des valeurs aberrantes ou des incohérences peuvent fausser les analyses et produire des résultats erronés.
La curation des données contribue également à garantir la conformité réglementaire, en particulier dans le contexte de l’IA. De nombreux secteurs, notamment ceux qui traitent des informations sensibles, tels que la santé ou les services financiers, doivent s’adapter à un environnement réglementaire en constante évolution qui dicte la manière dont ils collectent, traitent, stockent et sécurisent les données.
Des pratiques efficaces en matière de curation des données permettent de garantir que les données sont collectées, stockées, traitées et étiquetées conformément à ces règles. La loi européenne sur l’IA (EU AI Act), par exemple, exige que les systèmes d’IA à haut risque adoptent des pratiques rigoureuses en matière de gouvernance des données afin de garantir que les données d’entraînement, de validation et de test répondent à des critères de qualité bien précis. Il est par exemple essentiel de mettre en place une gouvernance efficace autour du processus de collecte des données.
La curation des données est également essentielle pour garantir la réutilisabilité des jeux de données de haute qualité. Par exemple, elle permet de créer et de maintenir un glossaire centralisé spécialement adapté à l’activité de l’entreprise. Grâce à cette source d’information unique, l’ensemble des utilisateurs de l’organisation peuvent mieux comprendre et exploiter les données. Lorsque les données sont accessibles et utilisables par tous, vous avez plus de chances que les utilisateurs s’y réfèrent régulièrement pour obtenir des informations.
Si les pratiques de curation des données varient d’une organisation à l’autre, les chercheurs ont identifié des tâches communes aux curateurs, ingénieurs, intendants, data scientists et autres professionnels de la gestion des données tout au long du cycle de vie du big data1. Elles comprennent :
Cette activité consiste à définir des stratégies et des critères pour la collecte, la production et l’ingestion des données. L’ingestion des données comprend l’acquisition de données provenant de diverses sources, notamment des bases de données structurées et des API, ainsi que des bases de données pour les données non structurées. L’étape de planification peut également porter sur la gouvernance des données, qui contribue à garantir leur intégrité et leur sécurité.
Il s’agit ici de créer, collecter, préserver et maintenir les métadonnées, c’est-à-dire des informations apportant des précisions sur un point ou un jeu de données, par exemple l’auteur, la date de création ou la taille de fichier. Une gestion efficace des métadonnées facilite la recherche des données, permet de suivre leur traçabilité et améliore l’interopérabilité des systèmes.
Cette étape vise à mettre en place des méthodes de préparation des données. Par exemple, le nettoyage des données désigne le processus d’identification et de correction des erreurs et des incohérences dans les jeux de données brutes. La transformation des données consiste à convertir des données brutes nettoyées en un format utilisable pour l’analyse. L’anonymisation des données sensibles contribue à garantir la confidentialité des données et la conformité réglementaire.
Cette tâche comprend l’évaluation et la validation de la qualité des données, le suivi de leur provenance et la protection des données sensibles. La qualité des données peut être classée à l’aide d’indicateurs tels que l’exactitude, l’exhaustivité et la cohérence. Parallèlement, le suivi de la provenance des données permet de confirmer leur fiabilité et de s’assurer que les autorisations d’utilisation nécessaires ont été obtenues auprès des fournisseurs de données.
Il est ici question de transférer les données des unités de traitement vers des référentiels et des systèmes de stockage, tels que des data lakes et des entrepôts de données. Parmi les considérations relatives à la préservation des données, on peut citer le stockage de différents types de données et la garantie de leur sécurité.
Cette tâche consiste à rendre les données consultables et accessibles en élaborant des taxonomies, en normalisant les métadonnées et en établissant des méthodes de récupération des données.
Les processus manuels peuvent rendre la curation des données lente, fastidieuse et inefficace. Cependant, des solutions de gouvernance et de gestion des données adaptées permettent aux entreprises d’automatiser les workflows et d’optimiser les pipelines de données.
Les solutions de pointe comprennent généralement les fonctionnalités suivantes :
Un catalogue de données répertorie de manière détaillée tous les actifs de données au sein d’une organisation. Les professionnels des données peuvent ainsi trouver rapidement les données dont ils ont besoin. Les catalogues gouvernés utilisent des fonctions de classification et de masquage afin de garantir la sécurité du traitement des données.
Les glossaires spécifiques à un secteur permettent d’améliorer la classification des données, la conformité réglementaire et d’autres activités de gouvernance.
Il est possible de déployer des grands modèles de langage (LLM) afin d’enrichir les métadonnées, en ajoutant simultanément davantage de contexte, d’étiquettes ou de descriptions à de grands volumes de données.
La recherche intelligente améliore l’accessibilité des données et élimine les silos. Grâce à l’IA, les utilisateurs peuvent extraire des informations de n’importe où (à l’intérieur ou à l’extérieur de l’entreprise), quel que soit leur format, et trouver rapidement et facilement les données dont ils ont besoin.
La curation des données joue un rôle important dans divers domaines et disciplines. En voici quelques exemples :
Les données curées contribuent à faire progresser et à révolutionner le traitement des maladies. Par exemple, une clinique américaine a récemment annoncé un partenariat avec une plateforme de données de santé basée sur l’IA afin de curer des jeux de données axés sur la sclérose en plaques, une maladie neurologique chronique.
L’objectif du projet, qui prévoit la collecte de données auprès de plus de 3 000 patients, est de développer des connaissances fondées sur les données concernant les sous-types de maladies, leur progression, etc2.
La curation des données permet de s’assurer que les organisations qui adoptent l’IA le font dans le respect des réglementations et des exigences applicables.
Par exemple, le secteur de l’assurance a largement adopté les technologies d’IA et de machine learning dans le cadre de sa modernisation. Cependant, le paysage réglementaire entourant l’adoption de l’IA dans ce secteur est complexe et dynamique. Les lois applicables, telles que la directive Solvabilité II, imposent aux assureurs des politiques strictes concernant « la suffisance et la qualité des données nécessaires aux processus de souscription et de provisionnement ». Ces réglementations exigent également que les données utilisées pour tester et entraîner les systèmes d’IA soient complètes, exactes et appropriées3.
Les détaillants physiques et en ligne curent souvent les données de leurs clients en les segmentant, c’est-à-dire en les regroupant en fonction de leurs caractéristiques, de leurs comportements et de leurs préférences. Cela leur permet de cibler plus efficacement différents groupes de clients avec des promotions, des recommandations de produits et d’autres initiatives marketing personnalisées.
Par exemple, une étude sur des campagnes d’e-mail marketing dans le secteur de la vente au détail a montré que les e-mails segmentés étaient lus 15 % plus souvent que les e-mails non segmentés.4
Générez des données pour l’IA et l’analytique grâce au catalogage intelligent et à la gestion des politiques. IBM Knowledge Catalog est un logiciel de gouvernance des données qui fournit un catalogue permettant d’automatiser la découverte des données, la gestion de leur qualité et leur protection.
Transformez rapidement les données brutes en informations exploitables, unifiez la gouvernance, la qualité, la traçabilité et le partage des données, et offrez aux consommateurs des données fiables et contextualisées.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.
1 « Big data curation framework: Curation actions and challenges ». Journal of Information Science. 11 novembre 2022.
2 « Exclusive: Century Heath, Nira Medical partner to provide AI-curated EHR data ». MobiHealthNews. 14 janvier 2025.
3 « Consultation Paper: On Opinion on Artificial Intelligence Governance and Risk Management ». European Insurance and Occupational Pensions Authority (EIOPA). 10 février 2025.
4 « Sophisticated email segmentation boosts open rates, engagement: report ». Retail Dive. Consulté le 28 mars 2025.