Un plan de gestion des données (DMP) est un document qui définit la manière dont les données sont traitées tout au long du cycle de vie d’un projet, c’est-à-dire de leur acquisition à leur archivage.
Bien que ces documents soient généralement utilisés dans le cadre de projets de recherche afin de répondre aux exigences des bailleurs de fonds, ils peuvent également être exploités en entreprise à des fins de structuration et d’harmonisation entre les parties prenantes.
Étant donné que les DMP précisent les types de données qui seront utilisées dans le cadre du projet et traitent de leur gestion tout au long de leur cycle de vie, les parties prenantes, telles que les équipes de gouvernance, peuvent fournir un retour d’information clair sur le stockage et la diffusion des données sensibles, par exemple les données personnelles, dès le début du projet. Ces documents permettent aux équipes d’éviter les écueils en matière de conformité et de réglementation, et peuvent servir de modèles pour l’approche et la gestion des données dans le cadre de projets futurs.
Un plan de gestion des données est généralement composé de cinq éléments :
1. Une déclaration d’intention
2. Des définitions de données
3. La collecte et l’accès aux données
4. Une foire aux questions (FAQ)
5. Les limites des données de recherche
Chacun de ces domaines d’intérêt permet aux organismes de recherche et aux bailleurs de fonds (ou peut-être à votre équipe de gestion des données) d’évaluer le niveau de risque associé à un projet donné. Le plan de gestion des données aborde également la manière de gérer ce risque. Par exemple, si des données sensibles sont utilisées dans le cadre d’un projet, est-il approprié de les réutiliser pour de futurs projets ? Selon le degré de sensibilité de ces données, cela peut ne pas être approprié ou nécessiter un consentement supplémentaire de la part des utilisateurs.
Chaque composant d’un plan de gestion des données se concentre sur un élément d’information particulier, que nous allons examiner plus en détail.
1. Déclaration d’intention : elle explique pourquoi l’équipe a besoin d’acquérir certains types de données au cours du projet. Elle doit clairement définir la question à laquelle l’équipe tente de répondre à l’aide de ce jeu de données.
2. Définitions de données : les descriptions des données aident les utilisateurs finaux et leur public à comprendre les conventions de dénomination et leur correspondance avec certains jeux de données. Une partie de ces informations peut également être contenue dans les métadonnées, qui indiquent généralement la source et le format de fichier des données. La création et le respect de normes de métadonnées prédéfinies tout au long du processus d’acquisition des données garantissent également une collecte plus cohérente et une intégration plus fluide.
3. Collecte et accès aux données : cette section du DMP détaille la manière dont les données seront collectées, stockées et accessibles à partir d’un référentiel. Elle aborde généralement la source des données existantes ou l’approche retenue pour créer de nouvelles données, par exemple dans le cadre d’une expérience. Elle doit également contenir des informations sur le calendrier des données, c’est-à-dire la fréquence de leur mise à jour et la période couverte. Le type et le calendrier des données déterminent généralement leur stockage et leur accès par des tiers. Par exemple, les données non structurées nécessiteront un système non relationnel plutôt que relationnel, et les jeux de données plus volumineux nécessiteront une puissance de calcul plus importante que les plus petits. Des restrictions peuvent également s’appliquer au partage des données pour des raisons de confidentialité ou de droits de propriété intellectuelle. Étant donné que les parties prenantes du projet s’attendent à ce que les données sensibles, telles que les données personnelles, soient traitées avec le plus grand soin et la plus grande sécurité, il est important que les propriétaires de données énoncent clairement leurs pratiques en matière de gestion des données, en particulier dans cette section. Cela inclut des réponses aux questions relatives à la conservation à long terme des données, notamment leur archivage ou leur réutilisation. Pour les données qui ne sont pas de nature sensible, il sera attendu que les tiers aient accès aux données brutes et aux résultats de la recherche.
4. Foire aux questions : cette section peut être considérée comme un « fourre-tout » pour les autres questions courantes dans le cadre des projets de gestion des données, par exemple les plans de partage, les préférences de référencement et les méthodes de sauvegarde des données. Les chercheurs ou les propriétaires de données peuvent indiquer les identifiants d’objet numérique (digital object identifier ou DOI) pour les propriétaires de projets connexes ou similaires. En outre, si les propriétaires de projet archivent des données, ils devront également préciser la durée de conservation des archives. Seront-elles conservées pendant un an, cinq ans ou peut-être indéfiniment ?
5. Limites des données de recherche : cette section traite des limites initiales du jeu de données, qui restreignent sa capacité à être généralisé à des populations plus larges. Par exemple, les données peuvent se concentrer sur un groupe démographique particulier (zone géographique, sexe, origine ethnique, tranche d’âge, etc.).
Les plans de gestion des données sont principalement utilisés dans des contextes plus académiques, en particulier pour les programmes financés par le gouvernement, mais les entreprises peuvent également les exploiter dans le cadre de leurs fonctions de recherche ou de gouvernance des données. Alors que les universitaires et les chercheurs doivent se conformer aux exigences des bailleurs de fonds dans leurs demandes de subventions, de nombreux instituts de recherche mettent en place un outil DMP afin de fournir aux participants un modèle adapté à leur projet de recherche. Les équipes chargées de la gouvernance des données au sein des organisations peuvent mettre en place des protocoles similaires pour traiter les demandes de données émanant des parties prenantes qui préconisent de nouvelles initiatives en la matière.
Les chercheurs des secteurs privé et public se tournent vers différents organismes pour financer leurs initiatives de recherche et d’innovation. Les DMP atténuent les risques pour les deux parties, en garantissant que les propriétaires de données ont évalué la valeur de leurs données ainsi que leur propre responsabilité (c’est-à-dire les mesures de sécurité et de reprise après sinistre) en concernant leur gestion à des fins de recherche.
Les plans de gestion des données sont également extrêmement utiles pour les nouvelles initiatives relatives aux données en entreprise, car ils permettent à toutes les parties prenantes de comprendre l’importance des nouvelles sources de données et leur lien avec les résultats de l’entreprise. Alors que l’évolution du cloud hybride, de l’intelligence artificielle, de l’Internet des objets (IdO) et de l’edge computing continue de stimuler la croissance du big data, les entreprises devront trouver des moyens de gérer la complexité de ces données au sein de leurs systèmes.
Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.
Watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.