Qu’est-ce que la curation des données ?

Homme tapant sur un ordinateur portable devant deux grands écrans d’ordinateur.

Auteurs

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Qu’est-ce que la curation des données ?

La curation des données désigne le processus de création et de gestion de jeux de données permettant aux utilisateurs de trouver des données, d’y accéder, de les utiliser et de les réutiliser selon leurs besoins. Cela implique d’ajouter des actifs de données (collections de données de valeur) à un référentiel central afin de consolider les métadonnées des actifs, de les enrichir avec des informations supplémentaires, puis d’analyser et d’améliorer la qualité des données tout au long de leur cycle de vie.
 

Aujourd’hui, les entreprises génèrent des montagnes de données toujours plus importantes, dont le volume dépasse les 400 millions de téraoctets par jour. Une grande partie de ces données peuvent s’avérer extrêmement précieuses, mais seulement si les entreprises parviennent à les comprendre et à les exploiter correctement.

Dans le cadre d’une gestion efficace des données, la curation facilite l’extraction d’informations importantes à partir des données de l’entreprise et leur utilisation dans la prise de décision. De plus, des données bien curées sont considérées comme essentielles pour améliorer les performances des initiatives d’intelligence artificielle (IA) et garantir la conformité réglementaire, tant en matière de gestion que de confidentialité des données.

Au-delà des entreprises, la curation des données occupe une place centrale dans la recherche et l’enseignement supérieur. Elle permet notamment d’améliorer le partage et l’archivage des données de recherche entre développeurs, scientifiques, professionnels de santé et autres chercheurs.

Le processus de curation des données peut être manuel ou automatisé à l’aide de logiciels capables d’effectuer ces tâches à grande échelle.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Pourquoi la curation des données est-elle importante ?

À la base, la curation des données permet aux entreprises d’exploiter leurs données pour créer de la valeur. Toutefois, elle contribue également à gérer la croissance exponentielle des données, à soutenir des initiatives d’IA efficaces et responsables, à garantir la conformité réglementaire et à assurer l’utilisabilité des données.

Volumes de données croissants

La croissance exponentielle de la quantité de données fait que les organisations disposent aujourd’hui de plus de données utiles que jamais, certaines accumulant des jeux de données contenant des téraoctets, voire des pétaoctets d’informations provenant de diverses sources. Selon les estimations, 149 zettaoctets de données ont été générés dans le monde en 2024, et ce chiffre devrait plus que doubler à l’horizon 2028.

Effectuer les opérations d’assurance qualité et de découverte des données sur des jeux aussi volumineux et complexes, appelés « big data », n’est pas une mince affaire. Il s’agit pourtant d’une tâche essentielle, car les données d’entreprise constituent de plus en plus une source d’informations précieuses. Annoter et organiser les données à des fins décisionnelles permet aux entreprises de tous les secteurs d’activité de se démarquer de la concurrence et d’améliorer leurs performances.

Une intelligence artificielle efficace

Relever les défis liés à la qualité et à l’utilisabilité des données est d’autant plus urgent que les organisations considèrent les capacités offertes par l’IA comme un impératif stratégique. Les systèmes d’IA ont le potentiel de transformer les entreprises et d’accroître la productivité, mais leurs besoins en données sont considérables : ils ont en effet besoin de données de haute qualité pour fonctionner efficacement. 

Des données de mauvaise qualité peuvent nuire aux performances des modèles, illustrant le principe de « garbage in, garbage out » (de mauvaises informations sont synonymes de mauvaises conclusions). Des jeux de données contenant des valeurs manquantes, des valeurs aberrantes ou des incohérences peuvent fausser les analyses et produire des résultats erronés.

Conformité réglementaire

La curation des données contribue également à garantir la conformité réglementaire, en particulier dans le contexte de l’IA. De nombreux secteurs, notamment ceux qui traitent des informations sensibles, tels que la santé ou les services financiers, doivent s’adapter à un environnement réglementaire en constante évolution qui dicte la manière dont ils collectent, traitent, stockent et sécurisent les données. 

Des pratiques efficaces en matière de curation des données permettent de garantir que les données sont collectées, stockées, traitées et étiquetées conformément à ces règles. La loi européenne sur l’IA (EU AI Act), par exemple, exige que les systèmes d’IA à haut risque adoptent des pratiques rigoureuses en matière de gouvernance des données afin de garantir que les données d’entraînement, de validation et de test répondent à des critères de qualité bien précis. Il est par exemple essentiel de mettre en place une gouvernance efficace autour du processus de collecte des données.

Réutilisabilité des données

La curation des données est également essentielle pour garantir la réutilisabilité des jeux de données de haute qualité. Par exemple, elle permet de créer et de maintenir un glossaire centralisé spécialement adapté à l’activité de l’entreprise. Grâce à cette source d’information unique, l’ensemble des utilisateurs de l’organisation peuvent mieux comprendre et exploiter les données. Lorsque les données sont accessibles et utilisables par tous, vous avez plus de chances que les utilisateurs s’y réfèrent régulièrement pour obtenir des informations.

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Quelles sont les principales étapes de la curation des données ?

Si les pratiques de curation des données varient d’une organisation à l’autre, les chercheurs ont identifié des tâches communes aux curateurs, ingénieurs, intendants, data scientists et autres professionnels de la gestion des données tout au long du cycle de vie du big data1. Elles comprennent :

  • Planification
  • Description
  • Préparation
  • Assurance
  • Stockage et conservation
  • Découverte et accès

Planification

Cette activité consiste à définir des stratégies et des critères pour la collecte, la production et l’ingestion des données. L’ingestion des données comprend l’acquisition de données provenant de diverses sources, notamment des bases de données structurées et des API, ainsi que des bases de données pour les données non structurées. L’étape de planification peut également porter sur la gouvernance des données, qui contribue à garantir leur intégrité et leur sécurité.

Description

Il s’agit ici de créer, collecter, préserver et maintenir les métadonnées, c’est-à-dire des informations apportant des précisions sur un point ou un jeu de données, par exemple l’auteur, la date de création ou la taille de fichier. Une gestion efficace des métadonnées facilite la recherche des données, permet de suivre leur traçabilité et améliore l’interopérabilité des systèmes.

Préparation

Cette étape vise à mettre en place des méthodes de préparation des données. Par exemple, le nettoyage des données désigne le processus d’identification et de correction des erreurs et des incohérences dans les jeux de données brutes. La transformation des données consiste à convertir des données brutes nettoyées en un format utilisable pour l’analyse. L’anonymisation des données sensibles contribue à garantir la confidentialité des données et la conformité réglementaire.

Assurance

Cette tâche comprend l’évaluation et la validation de la qualité des données, le suivi de leur provenance et la protection des données sensibles. La qualité des données peut être classée à l’aide d’indicateurs tels que l’exactitude, l’exhaustivité et la cohérence. Parallèlement, le suivi de la provenance des données permet de confirmer leur fiabilité et de s’assurer que les autorisations d’utilisation nécessaires ont été obtenues auprès des fournisseurs de données.

Stockage et conservation

Il est ici question de transférer les données des unités de traitement vers des référentiels et des systèmes de stockage, tels que des data lakes et des entrepôts de données. Parmi les considérations relatives à la préservation des données, on peut citer le stockage de différents types de données et la garantie de leur sécurité.

Découverte et accès

Cette tâche consiste à rendre les données consultables et accessibles en élaborant des taxonomies, en normalisant les métadonnées et en établissant des méthodes de récupération des données.

Solutions logicielles de curation des données

Les processus manuels peuvent rendre la curation des données lente, fastidieuse et inefficace. Cependant, des solutions de gouvernance et de gestion des données adaptées permettent aux entreprises d’automatiser les workflows et d’optimiser les pipelines de données.

Les solutions de pointe comprennent généralement les fonctionnalités suivantes :

Catalogues de données gouvernées

Un catalogue de données répertorie de manière détaillée tous les actifs de données au sein d’une organisation. Les professionnels des données peuvent ainsi trouver rapidement les données dont ils ont besoin. Les catalogues gouvernés utilisent des fonctions de classification et de masquage afin de garantir la sécurité du traitement des données.

Glossaires curés

Les glossaires spécifiques à un secteur permettent d’améliorer la classification des données, la conformité réglementaire et d’autres activités de gouvernance.

Enrichissement des métadonnées alimenté par l’IA

Il est possible de déployer des grands modèles de langage (LLM) afin d’enrichir les métadonnées, en ajoutant simultanément davantage de contexte, d’étiquettes ou de descriptions à de grands volumes de données.

Recherche intelligente

La recherche intelligente améliore l’accessibilité des données et élimine les silos. Grâce à l’IA, les utilisateurs peuvent extraire des informations de n’importe où (à l’intérieur ou à l’extérieur de l’entreprise), quel que soit leur format, et trouver rapidement et facilement les données dont ils ont besoin.

Cas d’utilisation de la curation des données

La curation des données joue un rôle important dans divers domaines et disciplines. En voici quelques exemples :

Faire avancer la recherche médicale

Les données curées contribuent à faire progresser et à révolutionner le traitement des maladies. Par exemple, une clinique américaine a récemment annoncé un partenariat avec une plateforme de données de santé basée sur l’IA afin de curer des jeux de données axés sur la sclérose en plaques, une maladie neurologique chronique.

L’objectif du projet, qui prévoit la collecte de données auprès de plus de 3 000 patients, est de développer des connaissances fondées sur les données concernant les sous-types de maladies, leur progression, etc2.

Garantir la conformité de l’IA dans le secteur de l’assurance

La curation des données permet de s’assurer que les organisations qui adoptent l’IA le font dans le respect des réglementations et des exigences applicables.

Par exemple, le secteur de l’assurance a largement adopté les technologies d’IA et de machine learning dans le cadre de sa modernisation. Cependant, le paysage réglementaire entourant l’adoption de l’IA dans ce secteur est complexe et dynamique. Les lois applicables, telles que la directive Solvabilité II, imposent aux assureurs des politiques strictes concernant « la suffisance et la qualité des données nécessaires aux processus de souscription et de provisionnement ». Ces réglementations exigent également que les données utilisées pour tester et entraîner les systèmes d’IA soient complètes, exactes et appropriées3.

Personnaliser le marketing grand public

Les détaillants physiques et en ligne curent souvent les données de leurs clients en les segmentant, c’est-à-dire en les regroupant en fonction de leurs caractéristiques, de leurs comportements et de leurs préférences. Cela leur permet de cibler plus efficacement différents groupes de clients avec des promotions, des recommandations de produits et d’autres initiatives marketing personnalisées.

Par exemple, une étude sur des campagnes d’e-mail marketing dans le secteur de la vente au détail a montré que les e-mails segmentés étaient lus 15 % plus souvent que les e-mails non segmentés.4

Solutions connexes
IBM Knowledge Catalog

Générez des données pour l’IA et l’analytique grâce au catalogage intelligent et à la gestion des politiques. IBM Knowledge Catalog est un logiciel de gouvernance des données qui fournit un catalogue permettant d’automatiser la découverte des données, la gestion de leur qualité et leur protection.

Découvrir Knowledge Catalog
Solutions IBM Data Intelligence

Transformez rapidement les données brutes en informations exploitables, unifiez la gouvernance, la qualité, la traçabilité et le partage des données, et offrez aux consommateurs des données fiables et contextualisées.

Découvrir les solutions d’intelligence des données
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Trouvez, comprenez, organisez et bénéficiez d'un accès aux données, aux actifs de connaissances et à leurs relations, où qu’ils se trouvent, dans le cloud ou sur site. IBM Knowledge Catalog est un logiciel de gouvernance des données qui fournit un catalogue permettant d’automatiser la découverte des données, la gestion de leur qualité et leur protection.

Découvrir IBM Knowledge Catalog Découvrir les solutions d’intelligence des données
Notes de bas de page

« Big data curation framework: Curation actions and challenges ». Journal of Information Science. 11 novembre 2022.

2 « Exclusive: Century Heath, Nira Medical partner to provide AI-curated EHR data ». MobiHealthNews. 14 janvier 2025.

« Consultation Paper: On Opinion on Artificial Intelligence Governance and Risk Management ». European Insurance and Occupational Pensions Authority (EIOPA). 10 février 2025.

4 « Sophisticated email segmentation boosts open rates, engagement: report ». Retail Dive. Consulté le 28 mars 2025.