Che cos'è la gestione della qualità dei dati?

Una donna è seduta a un bancone circondata da grandi monitor che mostrano grafici.

Autori

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Che cos'è la gestione della qualità dei dati?

La gestione della qualità dei dati, o DQM, è un insieme di pratiche volte a migliorare e mantenere la qualità dei dati di un'organizzazione.

 

Poiché la produzione globale di dati procede a un ritmo incalzante, una gestione efficace aiuta le aziende a evitare dati di bassa qualità, il che può portare a costosi errori e inefficienze nei processi aziendali. Con dati affidabili a portata di mano, le aziende possono sbloccare informazioni preziose, migliorare il processo decisionale e integrare l'intelligenza artificiale (AI) nelle loro operazioni aziendali.

La gestione della qualità comprende pratiche quali la profilazione, la pulizia, la convalida, il monitoraggio della qualità dei dati e la gestione dei metadati. Una gestione efficace della qualità produce set di dati ottimizzati per dimensioni chiave della qualità come accuratezza, completezza, coerenza, tempestività, unicità e validità.

Le soluzioni software aiutano le organizzazioni e i professionisti dei dati ad affrontare i problemi di qualità e a creare pipeline di dati di alta qualità. Questi strumenti offrono caratteristiche come l'analisi della qualità, il rilevamento delle anomalie, gli avvisi sugli incidenti in tempo reale e altro ancora.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Perché la gestione della qualità dei dati è importante?

Per comprendere l'importanza della gestione della qualità dei dati, considera cosa può accadere se non viene applicata: poiché le aziende danno priorità alle funzioni basate sui dati, una scarsa qualità può causare errori, ritardi, perdite finanziarie e danni alla reputazione, tra le gravi conseguenze possibili. Tali rischi si moltiplicano nell'era dei "big data", poiché le organizzazioni sono alle prese con set di dati enormi e complessi.

Immagina i seguenti scenari di "dati errati":

  • La tabella dei dati dei clienti di un rivenditore è piena di imprecisioni, il che dà origine a strategie di marketing mal indirizzate e inefficaci.

  • Uno studio clinico contiene formati incoerenti, il che rende difficile confrontare gli elementi di dati e ostacola la ricerca sulla progressione delle malattie e sull'assistenza sanitaria.

  • Un'azienda in un settore altamente regolamentato è afflitta da problemi di qualità dei dati, incorrendo in violazioni di leggi e regolamenti ufficiali come il GDPR o il Sarbanes-Oxley (SOX) Act.

Al contrario, dati di alta qualità contribuiscono alle iniziative di business intelligence, garantendo efficienza operativa, workflow ottimizzati, conformità normativa, soddisfazione del cliente e crescita aziendale.

I vantaggi della qualità dei dati si sono ulteriormente intensificati con l'adozione diffusa dell'intelligenza artificiale. Gli algoritmi richiedono infatti dati di alta qualità per garantire prestazioni efficaci dei modelli: una buona qualità dei dati consente output di modelli AI più precisi e utili.

Le aziende con grandi quantità di dati attendibili da stakeholder interni ed esterni realizzano infatti quasi il doppio del ritorno sull'investimento sulle loro funzionalità di AI, secondo una ricerca dell'IBM Institute for Business Value.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Quali sono le sei dimensioni della qualità dei dati?

Una gestione efficace della qualità garantisce che i dati di un'organizzazione soddisfino sei dimensioni chiave:

  • di accuratezza
  • Completezza
  • Consistenza
  • Tempestività
  • Unicità
  • Validità
Accuratezza dei dati

Garantire dati accurati, cioè che rappresentano correttamente eventi e valori del mondo reale, comporta l'identificazione e la correzione di errori o rappresentazioni errate in un set di dati.

Completezza dei dati

La completezza dei dati si ottiene quando un set di dati contiene tutti i record necessari ed è privo di lacune o valori mancanti.

Coerenza dei dati

I dati sono coerenti e standardizzati in tutta l'organizzazione, garantendo che i record in diversi set di dati siano compatibili l'uno con l'altro.

Tempestività dei dati

La tempestività dei dati è una misura dell'aggiornamento dei valori dei dati, che consente alle organizzazioni di evitare di prendere decisioni basate su informazioni obsolete.

Unicità dei dati

L'unicità dei dati si riferisce all'assenza di dati ridondanti o record duplicati che possono distorcere l'analisi.

Validità dei dati

La validità dei dati chiarisce se i dati sono conformi alle regole aziendali. Ad esempio, rientrano negli intervalli consentiti per determinati valori e soddisfano gli standard di formato dei dati specificati.

Sebbene queste siano tra le dimensioni della qualità dei dati più comunemente utilizzate dai professionisti dei dati, altre metriche di qualità includono accessibilità, pertinenza, rappresentazione concisa e quantità o volumi adeguati di dati.1

Quali pratiche comprendono la gestione della qualità dei dati?

Le pratiche comuni e complementari di gestione della qualità dei dati tra gli amministratori e altri professionisti dei dati comprendono:

  • Profilazione dei dati
  • Pulizia dei dati
  • Convalida dei dati
  • Monitoraggio della qualità dei dati
  • Gestione metadati

Profilazione dei dati

Prima di migliorare i dati, è importante determinare le aree di miglioramento. La profilazione dei dati è il processo di revisione della struttura e del contenuto dei dati esistenti per valutarne la qualità e stabilire una linea di base rispetto alla quale misurare la correzione.

Un'analisi condotta durante la profilazione dei dati può fornire informazioni sui tipi di dati, rivelare anomalie, identificare valori di dati non validi o incompleti e valutare le relazioni tra i set di dati.

Pulizia dei dati

La pulizia dei dati è la correzione di errori e incongruenze nei set di dati grezzi. I metodi per ottenere dati puliti includono la standardizzazione (rendere coerenti i formati e le strutture), la regolazione o la rimozione degli outlier, la deduplicazione e la risoluzione degli outlier mancanti.

Convalida dei dati

A volte considerata parte degli approcci di pulizia dei dati, la convalida è la verifica che i dati siano puliti, accurati e che soddisfino regole e requisiti di qualità dei dati specifici (come i vincoli di intervallo o di integrità referenziale) che li rendono pronti per l'uso.

Monitoraggio della qualità dei dati

Garantire la qualità dei dati è un processo continuo. Le modifiche allo schema, l'obsolescenza dei dati e i record duplicati possono compromettere la loro integrità nel tempo. Il monitoraggio continuo dei dati identifica gli asset esistenti che non soddisfano più gli standard di qualità e gli indicatori chiave di prestazione (KPI) di un'organizzazione.

Gestione dei metadati

Sebbene la gestione dei metadati supporti molteplici funzionalità, come sicurezza e governance, è spesso inclusa anche nell'ambito del DQM. Le tecniche di gestione dei metadati come l'arricchimento possono garantire che includano informazioni sulle regole dei dati, sulle definizioni dei dati e sul data lineage. In questo modo è possibile informare e semplificare le attività di gestione dei dati, comprese le iniziative sulla qualità.

Gestione della qualità dei dati e altri processi

La gestione della qualità, la gestione dei dati e dei dati master e la governance dei dati sono processi distinti ma correlati che ottimizzano il valore degli asset di dati di un'organizzazione.

Gestione dei dati

La gestione dei dati comprende la supervisione e la gestione dei dati durante tutto il loro ciclo di vita. Le strategie di gestione aiutano le organizzazioni ad affrontare l'uso di diverse fonti di dati e a pianificare il disaster recovery, tra le altre questioni. La gestione della qualità dei dati può essere considerata una disciplina o un sottoinsieme della gestione dei dati.

Master Data Management

La gestione dei dati è un approccio complessivo che stabilisce la coerenza per la gestione dei dati critici (master data) in un'organizzazione.

Attraverso la gestione dati master, i dati critici vengono condivisi e utilizzati da varie applicazioni e sistemi all'interno dell'organizzazione per ridurre la frammentazione dei dati, i dati in silos, la duplicazione e le imprecisioni. Questo avviene attraverso una raccolta di processi e strumenti tecnologici, alcuni dei quali sono incorporati anche nella gestione della qualità, come la pulizia dei dati.

Governance dei dati

La governance dei dati definisce e implementa politiche, standard e procedure per la raccolta dei dati, data storage, proprietà, elaborazione e utilizzo dei dati. Come la gestione della qualità, anche la governance dei dati può essere considerata una disciplina di gestione dei dati. Allo stesso tempo, le procedure stabilite attraverso i framework di governance dei dati, come le politiche sulla gestione coerente dei dati, possono supportare le iniziative DQM.

Strumenti di gestione della qualità dei dati

Gli strumenti e le soluzioni software di gestione della qualità dei dati possono ridurre significativamente gli sforzi manuali di DQM. E mentre la proliferazione dell'AI è uno dei fattori trainanti alla base della necessità di gestione della qualità dei dati, l'AI propone anche soluzioni di gestione della qualità dei dati più potenti. Il machine learning, ad esempio, può essere utilizzato per il rilevamento automatico delle anomalie nei dati.

Altre funzionalità offerte dalle soluzioni di gestione della qualità dei dati includono:

  • Controlli di qualità dei dati predefiniti e regole personalizzabili

  • Cataloghi di dati con analisi integrata della qualità

  • Dashboard completi per la gestione degli incidenti relativi ai dati

  • Avvisi in tempo reale per anomalie e altri problemi relativi ai dati

  • Analisi della causa principale per la risoluzione degli incidenti

  • Monitoraggio del lineage dei metadati per la trasparenza nella trasformazione dei dati
Note a piè di pagina