Cos'è un piano di gestione dei dati?

Comprendi i componenti di un piano di gestione dei dati per guidare il processo decisionale basato sui dati all'interno della tua organizzazione.

Vista laterale di un dipendente seduto alla scrivania mentre digita su una tastiera
Cos'è un piano di gestione dei dati?

Un piano di gestione dei dati (Data Management Plan, DMP) è un documento che definisce in che modo i dati vengono gestiti attraverso il ciclo di vita di un progetto, ovvero dall'acquisizione all'archiviazione. Sebbene questi documenti siano normalmente utilizzati per i progetti di ricerca per soddisfare i requisiti dei finanziatori, possono essere utilizzati anche in un ambiente aziendale per creare una struttura e l'allineamento tra le varie parti interessate. Poiché i DMP mettono in luce i tipi di dati che verranno utilizzati nel progetto e rispondono della loro gestione attraverso l'intero  ciclo di vita dei dati, le parti interessate quali i team di governance possono fornire un feedback trasparente sull'archiviazione e la distribuzione dei dati sensibili, ad esempio le informazioni sull'identità (PII, Personally Identifiable Information), al principio di un progetto. Questi documenti consentono ai team di evitare di incappare in problematiche relative alla conformità e alle normative e possono fungere da modelli su come affrontare e gestire i dati per i progetti futuri.


Componenti di un piano di gestione dei dati

Un piano di gestione dei dati, normalmente, è suddiviso in cinque componenti:

1. Una dichiarazione di intenti 
2. Definizioni dei dati  
3. Raccolta e accesso ai dati 
4. Domande frequenti (FAQ)  
5. Limitazioni dei dati della ricerca 

Ognuna di queste aree di interesse consentono alle agenzie di ricerca e ai finanziatori della ricerca (oppure al tuo team di gestione dei dati) di valutare la quantità di rischio associata a un determinato progetto. Inoltre, il piano di gestione dei dati determina come gestire tale rischio. Ad esempio, se in un progetto vengono utilizzati dati sensibili, è appropriato riutilizzare quei dati per futuri progetti? A seconda della sensibilità di quei dati, potrebbe non essere appropriato; oppure, potrebbe essere necessario ottenere ulteriori consensi da parte degli utenti.   

Ogni componente di un piano di gestione dei dati è incentrato su una specifica porzione di informazioni; approfondiremo ulteriormente ciascuna di esse.

1. Dichiarazione di intenti: Spiega il motivo per cui il team necessita di acquisire specifici tipi di dati nel corso del progetto. Deve delineare in modo chiaro la domanda a cui il team sta tentando di dare una risposta con questo dataset.

2. Definizioni dei dati: Le descrizioni dei dati consentono agli utenti finali e ai loro destinatari di comprendere le convenzioni di denominazione e le loro corrispondenze con dataset specifici. Alcune di queste informazioni potrebbero essere contenute anche dai metadati, normalmente etichettando i dati in base alle loro origini dati e ai formati dei file. La creazione e l'osservanza di tali standard dei metadati predefiniti durante l'intero processo di acquisizione dei dati garantirà anche una raccolta più coerente e un processo di integrazione più fluido.

3. Raccolta e accesso ai dati: Questa sezione di un DMP illustra in che modo i dati verranno raccolti, memorizzati e come verrà effettuato l'accesso ad essi da un repository di dati. Con tutta probabilità, indicherà l'origine dati di eventuali dati esistenti o l'approccio che verrà intrapreso per creare nuovi dati, ad esempio un esperimento. Inoltre, deve contenere informazioni relative alle tempistiche dei dati, ovvero quanto spesso verranno aggiornati e durante quale periodo di tempo. Il tipo e le tempistiche dei dati, generalmente, ne determineranno la memorizzazione e l'accesso a terze parti. Ad esempio, i dati non strutturati richiederanno un sistema  non relazionale  rispetto a uno  relazionale  e i dataset di grandi dimensioni richiederanno una maggiore potenza di calcolo rispetto a quelli di piccole dimensioni. Inoltre, potrebbero esistere delle limitazioni alla condivisione dei file a causa di diritti alla privacy o alla proprietà intellettuale. Poiché le parti interessate al progetto si aspettano che i dati sensibili, ad esempio le informazioni di identificazione (PII, Personally Identifiable Information) vengano trattati con la massima attenzione e sicurezza, è importante che i proprietari dei dati siano chiari in merito alle loro pratiche di gestione dei dati, particolarmente in quest'area. Ciò includerà le risposte alle domande relative alla conservazione a lungo termine dei dati, ad esempio l'archiviazione o il riutilizzo dei dati. Per i dati che non hanno una natura sensibile, vi sarà un'aspettativa di fornire un percorso che consenta alle terze parti di accedere ai dati non elaborati e ai risultati della ricerca.

4. Domande frequenti (FAQ): Questa sezione può essere considerata un punto centrale per tutte le altre domande comuni relative ai progetti di gestione dei dati, ad esempio la condivisione dei piani, le preferenze per le citazioni e i metodi di backup dei dati. I ricercatori o i proprietari dei dati potrebbero voler evidenziare i DOI (Digital Object Identifier, identificativi degli oggetti digitali) per i proprietari di progetti adiacenti o correlati. Inoltre, se i proprietari dei progetti archiviano i dati, dovranno occuparsi della durata dell'esistenza dell'archivio. Avrà una durata di un anno, cinque anni o forse indefinita?

5. Limitazioni dei dati della ricerca: Questa sezione tratta le limitazioni applicate in fase iniziale al dataset, che ne limiteranno la capacità di effettuare generalizzazioni più ampie sulle popolazioni. Ad esempio, i dati potrebbero essere incentrati su uno specifico gruppo demografico, ad esempio relativo a un'area geografica, un genere, un'etnia, una fascia di età e così via.


Chi utilizza i piani di gestione dei dati?

I piani di gestione dei dati vengono prevalentemente utilizzati in ambienti accademici, in particolar modo per i programmi sovvenzionati dai governi, ad esempio NIH (National Institutes of Health) e NSF (National Science Foundation), ma anche le aziende possono trarne vantaggio per le loro ricerche o le funzioni di governance dei dati. Mentre i professionisti in ambito accademico e i ricercatori devono rispettare i requisiti dei finanziatori nelle domande di sovvenzione, molti istituti di ricerca creano uno strumento DMP per fornire ai partecipanti il modello idoneo per il loro progetto di ricerca. I team di governance dei dati all'interno delle organizzazioni possono configurare protocolli simili per acquisire le richieste di dati dalle parti interessate che promuovono nuove iniziative sui dati.

Scopri gli strumenti e le soluzioni per la governance dei dati

Casi di utilizzo della gestione dei dati

Domande di sovvenzione

I ricercatori, sia del settore pubblico che di quello privato, si rivolgono a diverse agenzie di sovvenzionamento per finanziare le iniziative di ricerca e innovazione. I DMP mitigano i rischi per entrambe le parti, garantendo che i proprietari dei dati abbiano valutato il valore e le loro responsabilità personali (ovvero le misure di sicurezza e disaster recovery) rispetto alla gestione dei dati della ricerca.


Iniziative di governance dei dati

I piani di gestione dei dati sono incredibilmente utili per le nuove iniziative sui dati negli ambienti aziendali, consentendo a tutte le parti interessati di comprendere l'importanza di nuove origini dati e di come possano legarsi agli esiti di business. Mentre gli sviluppi nell'ambito del  cloud ibrido,  l'intelligenza artificiale, IoT (internet of Things) e l' edge computing  continuano a incentivare la crescita dei big data, le aziende dovranno trovare nuovi modi per gestirne la complessità nei loro sistemi di dati.


Semplifica la raccolta e la gestione dei dati

Scopri le soluzioni IBM dotate di funzionalità di AI basate sulla piattaforma aperta Red Hat® OpenShift® che rendono la gestione dei dati più semplice e intelligente.

Altri modi di esplorare Esplora le partnership open source Cos'è il cloud ibrido? Cos'è l'intelligenza artificiale? Cos'è l'edge computing?