Poiché la produzione globale di dati procede a un ritmo incalzante, una gestione efficace aiuta le aziende a evitare dati di bassa qualità, il che può portare a costosi errori e inefficienze nei processi aziendali. Con dati affidabili a portata di mano, le aziende possono sbloccare informazioni preziose, migliorare il processo decisionale e integrare l'intelligenza artificiale (AI) nelle loro operazioni aziendali.
La gestione della qualità comprende pratiche quali la profilazione, la pulizia, la convalida, il monitoraggio della qualità dei dati e la gestione dei metadati. Una gestione efficace della qualità produce set di dati ottimizzati per dimensioni chiave della qualità come accuratezza, completezza, coerenza, tempestività, unicità e validità.
Le soluzioni software aiutano le organizzazioni e i professionisti dei dati ad affrontare i problemi di qualità e a creare pipeline di dati di alta qualità. Questi strumenti offrono caratteristiche come l'analisi della qualità, il rilevamento delle anomalie, gli avvisi sugli incidenti in tempo reale e altro ancora.
Per comprendere l'importanza della gestione della qualità dei dati, considera cosa può accadere se non viene applicata: poiché le aziende danno priorità alle funzioni basate sui dati, una scarsa qualità può causare errori, ritardi, perdite finanziarie e danni alla reputazione, tra le gravi conseguenze possibili. Tali rischi si moltiplicano nell'era dei "big data", poiché le organizzazioni sono alle prese con set di dati enormi e complessi.
Immagina i seguenti scenari di "dati errati":
Al contrario, dati di alta qualità contribuiscono alle iniziative di business intelligence, garantendo efficienza operativa, workflow ottimizzati, conformità normativa, soddisfazione del cliente e crescita aziendale.
I vantaggi della qualità dei dati si sono ulteriormente intensificati con l'adozione diffusa dell'intelligenza artificiale. Gli algoritmi richiedono infatti dati di alta qualità per garantire prestazioni efficaci dei modelli: una buona qualità dei dati consente output di modelli AI più precisi e utili.
Le aziende con grandi quantità di dati attendibili da stakeholder interni ed esterni realizzano infatti quasi il doppio del ritorno sull'investimento sulle loro funzionalità di AI, secondo una ricerca dell'IBM Institute for Business Value.
Una gestione efficace della qualità garantisce che i dati di un'organizzazione soddisfino sei dimensioni chiave:
Garantire dati accurati, cioè che rappresentano correttamente eventi e valori del mondo reale, comporta l'identificazione e la correzione di errori o rappresentazioni errate in un set di dati.
La completezza dei dati si ottiene quando un set di dati contiene tutti i record necessari ed è privo di lacune o valori mancanti.
I dati sono coerenti e standardizzati in tutta l'organizzazione, garantendo che i record in diversi set di dati siano compatibili l'uno con l'altro.
La tempestività dei dati è una misura dell'aggiornamento dei valori dei dati, che consente alle organizzazioni di evitare di prendere decisioni basate su informazioni obsolete.
L'unicità dei dati si riferisce all'assenza di dati ridondanti o record duplicati che possono distorcere l'analisi.
La validità dei dati chiarisce se i dati sono conformi alle regole aziendali. Ad esempio, rientrano negli intervalli consentiti per determinati valori e soddisfano gli standard di formato dei dati specificati.
Sebbene queste siano tra le dimensioni della qualità dei dati più comunemente utilizzate dai professionisti dei dati, altre metriche di qualità includono accessibilità, pertinenza, rappresentazione concisa e quantità o volumi adeguati di dati.1
Le pratiche comuni e complementari di gestione della qualità dei dati tra gli amministratori e altri professionisti dei dati comprendono:
Prima di migliorare i dati, è importante determinare le aree di miglioramento. La profilazione dei dati è il processo di revisione della struttura e del contenuto dei dati esistenti per valutarne la qualità e stabilire una linea di base rispetto alla quale misurare la correzione.
Un'analisi condotta durante la profilazione dei dati può fornire informazioni sui tipi di dati, rivelare anomalie, identificare valori di dati non validi o incompleti e valutare le relazioni tra i set di dati.
La pulizia dei dati è la correzione di errori e incongruenze nei set di dati grezzi. I metodi per ottenere dati puliti includono la standardizzazione (rendere coerenti i formati e le strutture), la regolazione o la rimozione degli outlier, la deduplicazione e la risoluzione degli outlier mancanti.
A volte considerata parte degli approcci di pulizia dei dati, la convalida è la verifica che i dati siano puliti, accurati e che soddisfino regole e requisiti di qualità dei dati specifici (come i vincoli di intervallo o di integrità referenziale) che li rendono pronti per l'uso.
Garantire la qualità dei dati è un processo continuo. Le modifiche allo schema, l'obsolescenza dei dati e i record duplicati possono compromettere la loro integrità nel tempo. Il monitoraggio continuo dei dati identifica gli asset esistenti che non soddisfano più gli standard di qualità e gli indicatori chiave di prestazione (KPI) di un'organizzazione.
Sebbene la gestione dei metadati supporti molteplici funzionalità, come sicurezza e governance, è spesso inclusa anche nell'ambito del DQM. Le tecniche di gestione dei metadati come l'arricchimento possono garantire che includano informazioni sulle regole dei dati, sulle definizioni dei dati e sul data lineage. In questo modo è possibile informare e semplificare le attività di gestione dei dati, comprese le iniziative sulla qualità.
La gestione della qualità, la gestione dei dati e dei dati master e la governance dei dati sono processi distinti ma correlati che ottimizzano il valore degli asset di dati di un'organizzazione.
La gestione dei dati comprende la supervisione e la gestione dei dati durante tutto il loro ciclo di vita. Le strategie di gestione aiutano le organizzazioni ad affrontare l'uso di diverse fonti di dati e a pianificare il disaster recovery, tra le altre questioni. La gestione della qualità dei dati può essere considerata una disciplina o un sottoinsieme della gestione dei dati.
La gestione dei dati è un approccio complessivo che stabilisce la coerenza per la gestione dei dati critici (master data) in un'organizzazione.
Attraverso la gestione dati master, i dati critici vengono condivisi e utilizzati da varie applicazioni e sistemi all'interno dell'organizzazione per ridurre la frammentazione dei dati, i dati in silos, la duplicazione e le imprecisioni. Questo avviene attraverso una raccolta di processi e strumenti tecnologici, alcuni dei quali sono incorporati anche nella gestione della qualità, come la pulizia dei dati.
La governance dei dati definisce e implementa politiche, standard e procedure per la raccolta dei dati, data storage, proprietà, elaborazione e utilizzo dei dati. Come la gestione della qualità, anche la governance dei dati può essere considerata una disciplina di gestione dei dati. Allo stesso tempo, le procedure stabilite attraverso i framework di governance dei dati, come le politiche sulla gestione coerente dei dati, possono supportare le iniziative DQM.
Gli strumenti e le soluzioni software di gestione della qualità dei dati possono ridurre significativamente gli sforzi manuali di DQM. E mentre la proliferazione dell'AI è uno dei fattori trainanti alla base della necessità di gestione della qualità dei dati, l'AI propone anche soluzioni di gestione della qualità dei dati più potenti. Il machine learning, ad esempio, può essere utilizzato per il rilevamento automatico delle anomalie nei dati.
Altre funzionalità offerte dalle soluzioni di gestione della qualità dei dati includono:
1 “Overview of Data Quality: Examining the Dimensions, Antecedents, and Impacts of Data Quality.” Journal of the Knowledge Economy. 10 febbraio 2023.