Qu'est-ce qu'un plan de gestion des données ?

Vous devez comprendre les composants de la gestion des données afin de favoriser la prise de décision basée sur les données au sein de votre entreprise.

Vue latérale d'un travailleur à un bureau en train de taper sur un clavier
Qu'est-ce que la gestion des données ?

Un plan de gestion des données (DMP) est un document qui définit la manière dont les données sont gérées tout au long du cycle de vie d'un projet, c'est-à-dire de son acquisition à son archivage. Bien que ces documents soient généralement utilisés pour des projets de recherche afin de répondre aux exigences des bailleurs de fonds, ils peuvent également être exploités dans un environnement d'entreprise pour créer une structure et un alignement entre les parties prenantes. Étant donné que les DMP mettent en évidence les types de données qui seront utilisées dans le cadre du projet et en traitent la gestion tout au long du cycle de vie des données, les parties prenantes, telles que les équipes de gouvernance, peuvent fournir des commentaires clairs sur le stockage et la diffusion de données sensibles, telles que les informations personnelles identifiables (PII), au début d'un projet. Ces documents permettent aux équipes d'éviter les pièges de la conformité et de la réglementation, et ils peuvent servir de modèles sur la façon d'aborder et de gérer les données pour les projets futurs.


Composantes d'un plan de gestion des données

Un plan de gestion des données comporte généralement cinq composants :

1. Une déclaration d'intention 
2. Définitions des données  
3. Collecte et accès aux données 
4. Foire aux questions (FAQ)  
5. Limites des données de recherche 

Chacun de ces domaines d'intervention permet aux agences de recherche et aux bailleurs de fonds de la recherche (ou peut-être à votre équipe de gestion des données) d'évaluer le niveau de risque associé à un projet donné. Le plan de gestion des données traite également de la manière de gérer ce risque. Par exemple, si des données sensibles sont utilisées dans un projet, est-il approprié de réutiliser ces données pour de futurs projets ? Selon la sensibilité de ces données, cela peut ne pas être approprié ou nécessiter un consentement supplémentaire de l'utilisateur.   

Chaque composant d'un plan de gestion des données se concentre sur un élément d'information particulier, nous approfondirons chacun d'entre eux.

1. Déclaration d'intention:  Cela explique pourquoi l'équipe doit acquérir des types de données spécifiques au cours du projet. Il doit clairement décrire la question à laquelle l'équipe tente de répondre avec cet ensemble de données.

2. Définitions des données :  Les descriptions de données aident les utilisateurs finaux et leurs publics à comprendre les conventions de dénomination et leur correspondance avec des ensembles de données spécifiques. Certaines de ces informations peuvent également être contenues dans les métadonnées, généralement en étiquetant les données par leurs sources de données et leurs formats de fichier. La création et le respect de normes de métadonnées prédéfinies tout au long du processus d'acquisition de données garantiront également une collecte plus cohérente et un processus d'intégration plus fluide.

3. Collecte et accès aux données :  Cette section d'un DMP met en évidence la manière dont les données seront collectées, stockées et accessibles à partir d'un référentiel de données. Elle traitera probablement de la source de données de toute donnée existante ou de l'approche qui sera adoptée pour créer de nouvelles données, comme une expérience. Il doit également contenir des informations sur le calendrier des données, c'est-à-dire à quelle fréquence elles seront mises à jour et sur quelle période. Le type et le moment des données informeront généralement leur stockage et leur accès à des tiers. Par exemple, les données non structurées nécessiteront un  système  non  relationnel  plutôt qu'une relation seule, et les ensembles de données plus volumineux nécessiteront plus de puissance de calcul que les plus petits. Il peut également y avoir des restrictions concernant le partage de données en raison de la confidentialité ou des droits de propriété intellectuelle. Étant donné que les parties prenantes du projet s'attendent à ce que les données sensibles, telles que les informations personnelles identifiables (PII), soient traitées avec le plus grand soin et la plus grande sécurité, il est important que les propriétaires de données soient clairs sur leurs pratiques concernant la gestion des données, en particulier dans ce domaine. Cela comprendra des réponses aux questions concernant la conservation à long terme des données, telles que l'archivage des données ou la réutilisation des données. Pour les données qui ne sont pas de nature sensible, on s'attendra à fournir une voie permettant à des tiers d'accéder aux données brutes et aux résultats de la recherche.

4. Questions fréquemment posées :  Cette section peut être considérée comme un "fourre-tout" pour d'autres questions courantes dans les projets de gestion de données, telles que les plans de partage, les préférences de citation et les méthodes de sauvegarde des données. Les chercheurs ou les propriétaires de données peuvent mettre en évidence tout identifiant d'objet numérique (DOI) pour les propriétaires de projets adjacents ou connexes. De plus, si les propriétaires de projet archivent des données, ils devront également tenir compte de la durée d'existence de l'archive. Vivra-t-il un an, cinq ans ou peut-être indéfiniment ?

5. Limites des données de recherche :  Cette section aborde les limites initiales de l'ensemble de données, ce qui limitera sa capacité à généraliser plus largement aux populations. Par exemple, les données peuvent être axées sur un groupe démographique spécifique, tel qu'une géographie, un sexe, une race, un groupe d'âge, etc.


Qu'est-ce que la gestion des données ?

Les plans de gestion des données sont principalement utilisés dans des contextes plus universitaires, en particulier pour les programmes financés par le gouvernement fédéral, tels que les National Institutes of Health (NIH) et la National Science Foundation (NSF), mais les entreprises peuvent également les exploiter dans leurs fonctions de recherche ou de gouvernance des données. Alors que les universitaires et les chercheurs doivent se conformer aux exigences des bailleurs de fonds dans les demandes de subvention, de nombreux instituts de recherche créent un outil DMP pour fournir aux participants le modèle pertinent pour leur projet de recherche. Les équipes de gouvernance des données au sein des organisations peuvent mettre en place des protocoles similaires pour ingérer les demandes de données des parties prenantes préconisant de nouvelles initiatives de données.

Découvrez les outils et solutions de gouvernance des données

Cas d'utilisation de la gestion des données

Demandes de subvention

Les chercheurs des secteurs privé et public se tournent vers différents organismes de financement pour parrainer des initiatives de recherche et d'innovation. Les DMP atténuent les risques pour les deux parties, garantissant que les propriétaires de données ont évalué la valeur ainsi que leur propre responsabilité personnelle (c'est-à-dire les mesures de sécurité et de reprise après sinistre) pour rechercher la gestion des données.


Initiatives de gouvernance des données

Les plans de gestion des données sont également extrêmement utiles pour les nouvelles initiatives de données dans les environnements commerciaux, aidant toutes les parties prenantes à comprendre l'importance des nouvelles sources de données et comment elles peuvent être liées aux résultats commerciaux. Au fur et à mesure des développements au sein de nuage hybrideintelligence artificielle, l'internet des objets (IdO) et l'informatique de pointe  continuent de stimuler la croissance du Big Data, les entreprises devront trouver des moyens d'en gérer la complexité au sein de leurs systèmes de données.


Rationalisez la collecte et la gestion des données

Découvrez les solutions IBM infusées d'IA et construites sur la plate-forme ouverte Red Hat® OpenShift® qui rendent la gestion des données plus simple et plus intelligente.

Autres solutions à explorer Explorer les partenariats open source Qu'est-ce qu'un cloud hybride ? Qu'est-ce que l'intelligence artificielle ? Qu'est-ce que le calcul intensif ?