Il diavolo è nei dati: in che modo le metriche sulla qualità dei dati aiutano le aziende ad andare avanti

Un product manager guida una riunione e spiega i dati su uno schermo con grafici.

Autori

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Coltivare un ambiente di dati dinamico aiuta le aziende ad accelerare la crescita, secondo una nuova ricerca dell'IBM Institute for Business Value. Ma come possono le organizzazioni sapere se i loro dati sono effettivamente vivaci e pronti ad alimentare la crescita?

L'uso di metriche sulla qualità dei dati può aiutare.

Le metriche sulla qualità dei dati sono misure quantitative che valutano la qualità dei dati. Le organizzazioni possono utilizzare le metriche sulla qualità dei dati per tracciare e monitorare la qualità dei dati nel tempo, aiutando a identificare dati di alta qualità adatti ai processi decisionali basati sui dati e ai casi d'uso dell'intelligenza artificiale (AI).

Le metriche variano a seconda dell'organizzazione e possono riflettere le dimensioni tradizionali della qualità dei dati, come precisione, tempestività e unicità, nonché le caratteristiche specifiche delle pipeline di dati moderne, come la durata della pipeline. Attraverso metriche sulla qualità, le dimensioni della qualità dei dati possono essere mappate con valori numerici.

Gli strumenti di qualità dei dati basati sull'automazione e sul machine learning aiutano gli ingegneri dei dati a valutare le metriche sulla qualità dei dati e identificare i problemi in tempo reale. Questo consente alle organizzazioni e ai loro team di adottare le misure necessarie per ottimizzare l'affidabilità dei loro set e pipeline di dati.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Perché le metriche sulla qualità dei dati sono importanti?

Mantenere dati affidabili e di alta qualità è un obiettivo di molte organizzazioni moderne, e per una buona ragione.

Avere dati accurati aiuta a fornire una business intelligence preziosa, efficienza operativa, workflow ottimizzati, conformità normativa, soddisfazione dei clienti, crescita aziendale e progressi negli indicatori chiave di prestazione (KPI). L'elevata qualità dei dati è fondamentale anche per l'efficacia delle iniziative di AI, poiché i modelli AI richiedono un addestramento basato su dati affidabili e accurati per fornire risultati utili.

Tuttavia, per ottenere questi vantaggi, le organizzazioni devono garantire che i propri dati siano di alta qualità. È qui che le metriche di qualità svolgono un ruolo fondamentale, perché possono aiutare a determinare la qualità dei tuoi dati mappando le dimensioni della qualità con valori numerici, come i punteggi.

Attraverso le valutazioni della qualità dei dati, le organizzazioni possono determinare l'usabilità dei propri dati per le decisioni aziendali e la formazione dei modelli AI. I dati di bassa qualità identificati attraverso misure di qualità spesso possono essere migliorati attraverso iniziative di correzione dei dati.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Dimensioni chiave della qualità dei dati

Le sei dimensioni tradizionali tracciate tramite metriche di qualità dei dati sono:

  • Accuratezza dei dati: i dati rappresentano correttamente eventi e valori reali.
  • Completezza dei dati: i dati contengono tutti i record necessari senza valori mancanti.
  • Coerenza dei dati: i dati sono coerenti e standardizzati in tutta l'organizzazione, garantendo che i record in diversi set di dati siano compatibili.
  • Tempestività dei dati: i valori dei dati sono aggiornati e consentono alle organizzazioni di evitare di prendere decisioni basate su informazioni obsolete.
  • Univocità dei dati: i dati sono privi di ridondanze o record duplicati che possono distorcere l'analisi.
  • Validità dei dati: i dati sono conformi alle regole aziendali. Ad esempio, rientrano negli intervalli consentiti per determinati valori e soddisfano gli standard di formato dei dati specificati.

Le dimensioni comuni della qualità dei dati possono spesso essere misurate attraverso rapporti semplici, come quello tra il numero di risultati preferiti (il numero di punti dati accurati, immissioni valide, ecc.) e il numero totale di risultati.2

Ad esempio, un modo di base per calcolare la completezza dei dati è:

Completezza = (numero di elementi di dati completi) / (numero totale di elementi di dati)

In alternativa, è possibile utilizzare anche una metrica inversa incentrata su dati errati:

Completezza = 1 – [(elementi dati mancanti) / (numero totale di elementi dati)]

Altri metodi per misurare le dimensioni richiedono calcoli più complessi.

Le formule per il calcolo della tempestività dei dati, per esempio, potrebbero basarsi su variabili come l'età dei dati, il tempo di consegna (quando i dati vengono consegnati), il tempo di input (quando i dati vengono ricevuti) e la volatilità (la quantità di tempo in cui i dati sono validi).

Metriche aggiuntive sulla qualità dei dati

Oltre alle metriche che rappresentano le dimensioni tradizionali della qualità dei dati, altre metriche chiave possono aiutare le organizzazioni a mantenere le proprie pipeline di dati funzionanti senza intoppi. Ecco alcuni esempi:

  • Freschezza dei dati: a volte usata come sinonimo di tempestività dei dati, la freschezza dei dati si riferisce nello specifico alla frequenza con cui i dati vengono aggiornati in un sistema. L'obsolescenza dei dati si verifica quando vi sono intervalli significativi tra gli aggiornamenti.
  • Data lineage: il data lineage, cioè il processo di osservazione e tracciamento dei punti di contatto lungo il percorso dei dati, aiuta le organizzazioni a confermare l'accuratezza e la coerenza dei dati.
  • Conteggi Null: i data engineer e gli analisti dei dati possono tenere traccia del numero di valori Null o delle percentuali di valori Null in una colonna. L'aumento del numero di valori Null potrebbe indicare problemi come valori mancanti e deriva dei dati.
  • Modifiche allo schema: modifiche frequenti allo schema, come le modifiche al tipo di dati delle colonne o nuove colonne, potrebbero indicare un'origine dati inaffidabile.
  • Fallimenti della pipeline: i fallimenti della pipeline possono causare problemi allo stato di salute dei dati, come modifiche allo schema, operazioni sui dati mancanti e dati obsoleti.
  • Durata della pipeline: le pipeline di dati complesse richiedono in genere quantità di tempo simili per completare esecuzioni diverse. Eventuali modifiche importanti nella durata potrebbero comportare il trattamento di dati obsoleti.

Scopri di più sulle principali metriche di qualità dei dati per il tuo ambiente.

Metriche sulla qualità nei processi chiave relativi ai dati

Le metriche sulla qualità dei dati supportano processi chiave come la governance, l'osservabilità la gestione della qualità dei dati.

Governance dei dati

La governance dei dati è una disciplina di gestione dei dati che contribuisce a garantire l'integrità e la sicurezza dei dati definendo e implementando politiche, standard di qualità e procedure per la raccolta, la proprietà, lo storage, l'elaborazione e l'uso dei dati. Le metriche sulla qualità dei dati, come la coerenza e la completezza, aiutano le organizzazioni a valutare i progressi verso il rispetto degli standard stabiliti attraverso le pratiche di governance.

Osservabilità dei dati

L'osservabilità dei dati è la pratica di monitorare e gestire i dati in modo da garantirne la qualità, la disponibilità e l'affidabilità nei vari processi, sistemi e pipeline all'interno di un'organizzazione. Le metriche sulla qualità dei dati tracciate attraverso le pratiche di osservabilità includono l'aggiornamento dei dati, i conteggi Null e le modifiche allo schema.

Gestione della qualità dei dati

La gestione della qualità dei dati, o DQM, è una raccolta di pratiche volta a migliorare e mantenere la qualità dei dati di un'organizzazione. Una pratica fondamentale della DQM è la profilazione dei dati, che prevede la revisione della struttura e del contenuto dei dati esistenti per valutarne la qualità e stabilire una linea di base rispetto alla quale misurare la correzione. La qualità dei dati viene valutata in base alle dimensioni e alle metriche di qualità.

La scarsa qualità dei dati rivelata attraverso la profilazione può essere risolta con un'altra pratica di DQM: la pulizia dei dati. La pulizia dei dati è la correzione di errori e incongruenze nei set di dati grezzi. È un primo passo essenziale per la trasformazione dei dati, che converte i dati non elaborati in un formato utilizzabile per l'analisi.

Strumenti per tracciare le metriche sulla qualità dei dati

Le soluzioni software possono fornire il monitoraggio della qualità dei dati in tempo reale, incluso quello delle prestazioni sulle metriche di qualità. Le soluzioni leader potrebbero includere caratteristiche quali:

Dashboard complete

Una visualizzazione aggregata delle pipeline e degli asset di dati di un'organizzazione, che consente la gestione degli incidenti relativi ai dati in tutto lo stack.

Monitoraggio in tempo reale

Monitoraggio dei controlli di qualità dei dati e delle violazioni delle regole dell'accordo sul livello di servizio (SLA) relative a mancate consegne di dati, modifiche allo schema e anomalie.

Avvisi personalizzati

Notifiche personalizzate e automatiche inviate agli stakeholder tramite strumenti e piattaforme come Slack, PagerDuty ed e-mail.

Grafici a livello di tendenza

I grafici su righe e le operazioni scritte e lette ogni giorno aiutano le aziende a identificare le tendenze importanti e i modelli problematici.

Lineage end-to-end

Il lineage dei dati end-to-end mostra i set di dati e le pipeline dipendenti interessati da problemi di qualità dei dati.

Soluzioni correlate
Soluzioni per la qualità dei dati

IBM offre soluzioni per la qualità dei dati che ottimizzano dimensioni strategiche quali precisione, completezza e coerenza.

Esplora le soluzioni per la qualità dei dati
IBM Databand

IBM Databand fornisce un monitoraggio della qualità dei dati in tempo reale per rilevare eventuali problemi e assicurare dati di qualità più elevata.

Esplora Databand
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Esplora le soluzioni di gestione dei dati Scopri watsonx.data
Note a piè di pagina

1, 2A Survey of Data Quality Measurement and Monitoring Tools.” Frontiers in Big Data. 30 marzo 2022.