Un piano di gestione dei dati (DMP) è un documento che definisce il modo in cui i dati vengono gestiti durante il ciclo di vita di un progetto, dall'acquisizione all'archiviazione.
Sebbene questi documenti siano utilizzati generalmente per progetti di ricerca per soddisfare i requisiti dei finanziatori, possono essere utilizzati all'interno di un ambiente aziendale per creare struttura e allineamento tra gli stakeholder.
Dal momento che i DMP mettono in evidenza i tipi di dati che verranno utilizzati all'interno del progetto e ne gestiscono l'intero ciclo di vita dei dati, gli stakeholder, esattamente come i team di governance, possono fornire un feedback chiaro sullo storage e la diffusione di dati sensibili, come le informazioni di identificazione personale (PII), all'inizio di un progetto. Questi documenti consentono ai team di evitare insidie normative e di conformità e possono avere funzione di modello su come affrontare e gestire i dati per progetti futuri.
Un piano di gestione dei dati in genere comprende cinque componenti:
1. Una dichiarazione di intenti
2. Definizioni dei dati
3. Raccolta e accesso ai dati
4. Domande frequenti (FAQ)
5. Limitazioni dei dati di ricerca
Ognuna di queste aree di interesse consente alle agenzie di ricerca e ai finanziatori della ricerca (o forse al tuo team di gestione dei dati) di valutare l'entità del rischio associato a un determinato progetto. Il piano di gestione dei dati affronta anche le modalità di gestione di tale rischio. Ad esempio, se all'interno di un progetto vengono utilizzati dati sensibili, è opportuno riutilizzarli per progetti futuri? A seconda della sensibilità di tali dati, potrebbe non essere appropriato o potrebbe richiedere un consenso aggiuntivo dell'utente.
Ogni componente di un piano di gestione dei dati si concentra su una particolare informazione, approfondiremo ognuna di esse.
1. Dichiarazione di intenti: spiega perché il team deve acquisire determinati tipi di dati nel corso del progetto. Dovrebbe definire chiaramente la domanda a cui il team sta tentando di rispondere con questo set di dati.
2. Definizioni dei dati: le descrizioni dei dati aiutano gli utenti finali e i loro destinatari a conoscere le convenzioni di denominazione e la relativa corrispondenza con specifici set di dati. Alcune di queste informazioni possono anche essere conservate all'interno dei metadati, in genere etichettando i dati in base alle fonti dei dati e ai formati di file. La creazione e il rispetto di standard di metadati predefiniti durante tutto il processo di acquisizione dei dati garantirà anche una raccolta più coerente e un processo di integrazione più fluido.
3. Raccolta e accesso ai dati: questa sezione di un DMP mette in evidenza il modo in cui i dati saranno raccolti, memorizzati e accessibili da un repository di dati. Probabilmente si occuperà della fonte dei dati di tutti i dati esistenti o dell'approccio che verrà adottato per creare nuovi dati, come ad esempio un esperimento. Dovrebbe inoltre contenere informazioni sulla tempistica dei dati, vale a dire con quale frequenza verranno aggiornati e in quale periodo di tempo. Il tipo e la tempistica dei dati in genere ne determinano la storage e l'accesso a terze parti. Ad esempio, i dati non strutturati richiederanno un sistema non relazionale rispetto a uno relazionale, e i set di dati più grandi richiederanno una maggiore potenza di calcolo rispetto a quelli più piccoli. Potrebbero inoltre esserci delle restrizioni sulla condivisione dei dati a causa della privacy o dei diritti di proprietà intellettuale. Dal momento che gli stakeholder del progetto si aspettano che i dati sensibili, come le informazioni di identificazione personale (PII), vengano trattati con la massima cura e sicurezza, è importante che i proprietari dei dati siano chiari sulle loro pratiche di gestione dei dati, in particolare in quest'area. Questo includerà le risposte alle domande sulla conservazione a lungo termine dei dati, come l'archiviazione o il riutilizzo dei dati. Per i dati che non sono di natura sensibile, ci si aspetta di fornire un percorso di accesso ai dati non elaborati e ai risultati da parte di terze parti.
4. Domande frequenti: questa sezione può essere considerata un "factotum" per altre domande frequenti nei progetti di gestione dei dati, come piani di condivisione, preferenze di citazione e metodi di data backup. I ricercatori o i proprietari dei dati possono mettere in evidenza eventuali identificatori di oggetti digitali (DOI) per i proprietari di progetti adiacenti o correlati. Inoltre, se i proprietari dei progetti stanno archiviando dati, dovranno anche affrontare il problema della durata dell'esistenza dell'archivio. Durerà un anno, cinque anni o forse indefinitamente?
5. Limitazioni dei dati di ricerca: questa sezione affronta le limitazioni iniziali del set di dati, che limiteranno la sua capacità di generalizzare in modo più ampio alle popolazioni. Ad esempio, i dati possono essere incentrati su una fascia demografica specifica, come un'area geografica, un sesso, una razza, una fascia d'età, eccetera.
I piani di gestione dei dati sono utilizzati prevalentemente in ambito accademico, in particolare per i programmi finanziati dal governo federale, come l'National Institutes of Health (NIH) e la National Science Foundation (NSF), ma anche le aziende possono utilizzare tali piani nelle loro funzioni di ricerca o di governance dei dati. Mentre accademici e ricercatori devono soddisfare i requisiti dei finanziatori nelle richieste di sovvenzioni, numerosi istituti di ricerca creano uno strumento DMP per offrire ai partecipanti il modello pertinente al loro progetto di ricerca. I team di governance dei dati all'interno delle organizzazioni possono impostare protocolli simili per inserire le richieste di dati provenienti dagli stakeholder che sostengono nuove iniziative sui dati.
I ricercatori del settore pubblico e privato si rivolgono a diverse agenzie di finanziamento per sponsorizzare iniziative di ricerca e innovazione. I DMP mitigano il rischio per entrambe le parti, assicurando che i proprietari dei dati abbiano valutato il valore nonché la propria responsabilità personale (ossia misure di sicurezza e di disaster recovery) per la gestione dei dati di ricerca.
I piani di gestione dei dati sono anche incredibilmente utili per nuove iniziative sui dati in ambito aziendale, aiutando tutti gli stakeholder a capire l'importanza delle nuove fonti di dati e come possono collegarsi ai risultati aziendali. Dal momento che gli sviluppi nell'hybrid cloud, nell'artificial intelligence, nell'Internet of Things (IoT) e nell'edge computing continuano a stimolare la crescita dei big data, le aziende dovranno trovare il modo di gestirne la complessità all'interno dei propri sistemi di dati.
Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.
Watsonx.data ti consente di scalare l'analytics e l'AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.
Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.