Gli amministratori dei dati, o data steward, sono incaricati di gestire i programmi di gestione responsabile dei dati. Le responsabilità specifiche del data steward includono la definizione delle metriche di qualità dei dati, la gestione dei metadati e dei dati di riferimento, il tracciamento del data lineage e la classificazione dei dati sensibili.
Diverse tecnologie e strumenti possono supportare i workflow di gestione responsabile dei dati, tra cui intelligenza artificiale (AI), cataloghi di dati, database relazionali, piattaforme per la qualità dei dati e software di governance dei dati.
Le aziende stanno raccogliendo e analizzando più dati che mai nella speranza di sbloccare insight utili. Tuttavia, la raccolta di dati e l'analytics non sono sufficienti per garantire risultati positivi. La gestione responsabile dei dati e i data steward possono supportare e guidare un uso efficace dei dati all'interno di una cultura basata sui dati.
Negli ultimi anni, con la crescente adozione dell'AI, la gestione dei dati ha assunto ulteriore importanza. I sistemi di AI consumano e producono enormi quantità di dati. La gestione responsabile dei dati aiuta a garantire la qualità e l'integrità di tali dati affinché i processi aziendali basati su AI siano efficaci, conformi alle normative governative e allineati alla governance e agli standard dell'AI etica.
I buoni programmi di gestione responsabile dei dati consentono una valida data curation migliorando la qualità dei dati, l'accessibilità, l'usabilità e la sicurezza. I data steward aiutano a garantire che i dipendenti possano accedere a dati aziendali utili e corretti per supportare il processo decisionale basato sui dati e gli aumenti di produttività basati sull'AI. Gli ulteriori benefici della gestione responsabile dei dati includono un'interpretazione più coerente dei dati e una migliore preparazione agli audit.
Per ottenere questi benefici, i data steward collaborano spesso con una serie di stakeholder, tra cui proprietari di dati, analisti, esperti di data science e utenti business.
I dipendenti che non sono formalmente riconosciuti come «data steward» potrebbero comunque avere responsabilità di gestione dei dati e dedicare molto tempo a soddisfare le esigenze di dati delle loro organizzazioni, come l'inventario e la valutazione della qualità dei dati. Tuttavia, alcuni esperti di gestione dei dati affermano che la formalizzazione dei ruoli di gestione dei dati è importante, in quanto indica che un'azienda prende sul serio la gestione della qualità dei dati.1
La governance dei dati e la gestione dei dati sono concetti distinti ma correlati. I programmi di governance dei dati delle aziende aiutano a garantire l'integrità e la sicurezza dei dati attraverso policy, standard e procedure per la raccolta, la proprietà, lo storage, l'elaborazione e l'utilizzo dei dati. Molte responsabilità, nella gestione responsabile dei dati, comportano l'implementazione delle regole delineate nei framework di governance dei dati. Come tale, questa gestione responsabile può essere considerata "l'aspetto operativo" della governance dei dati.2
Le aziende con programmi di gestione dei dati più maturi potrebbero prevedere diversi tipi di ruoli di data steward, tra cui:
I casi d'uso per la gestione responsabile dei dati includono:
La gestione dei dati è spesso fondamentale per il Master Data Management (MDM), che è un approccio alla gestione dei dati critici di un'organizzazione attraverso tecnologia, strumenti e processi. Le organizzazioni utilizzano l'MDM per creare una singola fonte affidabile che integri i dati provenienti da varie fonti in modo che tutti gli utenti dei dati lavorino con le stesse informazioni.
Le aziende e i data steward spesso iniziano a implementare un'iniziativa MDM in un singolo dominio di dati (raggruppamenti logici di dati simili, come i dati dei clienti o i dati dei dipendenti) prima di scalare tale lavoro in tutti gli asset di dati dell'organizzazione.4
I data steward possono migliorare la qualità dei dati esaminando il contenuto di un database attraverso la profilazione dei dati. Collaborano anche con gli stakeholder dei dati per creare definizioni dei dati, progettare metriche sulla qualità dei dati e stabilire business rules per i dati, ad esempio quali valori siano considerati validi o meno.
Ad esempio, come spiegato nel libro "Data Stewardship", quando i dati raccolti sono lo stato civile di un cliente, una regola potrebbe indicare che "single", "sposato", "vedovo" o "divorziato" siano valori validi, mentre una risposta vuota sarebbe considerata non valida.5 I data steward possono anche fornire input su come risolvere eventuali problemi di qualità dei dati.
I metadati sono informazioni che descrivono un punto dati o un set di dati, come la data di creazione dei dati o i dettagli dell'autore. I data steward possono essere responsabili della creazione di metadati di alta qualità e della valutazione della qualità dei metadati esistenti. Come per la qualità dei dati, i data steward hanno il compito di risolvere i problemi di qualità dei metadati.
I data steward spesso si occupano di mantenere i dati di riferimento, ovvero dati che classificano altri dati all'interno dell'azienda. Esempi di dati di riferimento includono i codici dei paesi, le informazioni sulla valuta e i codici dei prodotti. Attraverso la documentazione dei dati, i data steward possono registrare valori validi per i dati di riferimento, valutare se siano necessari nuovi valori validi e riconciliare i valori dei dati di riferimento tra diversi sistemi.
In quest'ultimo caso, utilizzando l'esempio dello stato civile, un data steward potrebbe avere il compito di determinare quali azioni intraprendere quando un sistema ammette "vedovo" e "divorziato" come stato civile, mentre un altro accetta solo "coniugato" e "celibe".
Spesso, più istanze di dati rappresentano la stessa entità. Consideriamo, ad esempio, un singolo cliente che compare più volte nel database di una catena di farmacie perché ha ricevuto prescrizioni per farmaci diversi che sono state erogate presso punti vendita diversi.
Attraverso un processo noto come risoluzione dell'identità, i data steward determinano quando diverse istanze di dati fanno riferimento alla stessa entità. Nel caso del cliente della farmacia, ad esempio, la risoluzione dell'identità può aiutare a garantire che le interazioni farmacologiche potenzialmente pericolose siano individuate durante l'erogazione del servizio relativo alle prescrizioni del cliente.7
La sicurezza delle informazioni è la protezione di informazioni importanti contro l'accesso, la divulgazione, l'uso, l'alterazione o l'interruzione non autorizzati. In base alle normative sulla privacy dei dati, le aziende sono tenute a implementare protezioni avanzate per le informazioni sensibili come i dati sanitari. Sono inoltre tenute a rispettare le norme che regolano la condivisione dei dati, la limitazione della raccolta dei dati e molto altro. I data steward possono svolgere un ruolo nella protezione dei dati e nella conformità normativa, creando e stabilendo classificazioni di sicurezza per diversi tipi di dati.
Il data lineage è il processo di tracciamento dei cicli di vita dei dati, che fornisce una chiara comprensione dell'origine dei dati, dei loro cambiamenti e della loro destinazione finale. I data steward possono tracciare il lineage, aiutando l'organizzazione ad confermare l'integrità dei dati ai fini della rendicontazione normativa.
Una scarsa qualità dei dati può mettere a rischio i processi aziendali. I data steward possono collaborare con i responsabili dei processi aziendali per determinare l'uso dei dati in un processo, così come quanto il processo rischi di fallire in caso di scarsa qualità dei dati.8
Le organizzazioni possono implementare varie soluzioni e strumenti per supportare le attività di gestione responsabile dei dati, tra cui:
L'AI e la gestione responsabile dei dati hanno una relazione che alcuni considerano simbiotica. Mentre la gestione responsabile dei dati aiuta a garantire che i sistemi di AI funzionino con dati di alta qualità, gli strumenti basati su AI possono ottimizzare le attività di gestione responsabile dei dati. Ad esempio, gli strumenti di preparazione dei dati basati su AI possono eseguire controlli di convalida e segnalare errori come una formattazione impropria, mentre gli strumenti di prevenzione della perdita di dati basati sull'AI possono rilevare informazioni sensibili e applicare, se necessario, i controlli di sicurezza.
Un catalogo di dati è un inventario di tutti gli asset di dati di un'organizzazione. È progettato per aiutare i data steward e altri professionisti dei dati a trovare le informazioni in modo facile e veloce. I metadati associati a ciascun asset di dati migliorano la facilità di ricerca all'interno del catalogo.
Gli strumenti di profilazione e analisi dei dati possono valutare la coerenza e la qualità dei dati. Le funzioni di tali strumenti potrebbero includere funzionalità per identificare le anomalie, convalidare le fonti di dati e riassumere i risultati delle analisi attraverso report personalizzati.
Un modo in cui i data steward organizzano i dati è rappresentato dall'utilizzo di database relazionali. Un database relazionale (RDB) è un tipo di database in cui i dati sono organizzati in righe e colonne. Le tabelle risultanti potrebbero essere collegate tra loro per dimostrare le relazioni tra i punti dati. I sistemi di gestione di database relazionali (RDBMS) sono soluzioni software che i data steward e altri possono utilizzare per mantenere e aggiornare gli RDB.
I programmi software per la governance dei dati spesso incorporano strumenti di profilazione e analisi dei dati e funzionalità basate sull'AI. Le funzioni potrebbero includere l'arricchimento dei metadati basato su AI, la creazione di cataloghi di dati, il tracciamento del data lineage e l'istituzione di un controllo dell'accesso ai dati basato sui ruoli.
Tutti i link sono esterni a ibm.com.
1, 4 Allen et al. “Multi-Domain Master Data Management.” Morgan Kaufmann. 10 aprile 2015.
2, 3, 5, 6, 7, 8 Plotkin. “Data Stewardship, Second Edition.” Academic Press. 20 novembre 2020.
Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.
Watsonx.data ti consente di scalare l'analytics e l'AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.
Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.