Coltivare un ambiente di dati dinamico aiuta le aziende ad accelerare la crescita, secondo una nuova ricerca dell'IBM Institute for Business Value. Ma come possono le organizzazioni sapere se i loro dati sono effettivamente vivaci e pronti ad alimentare la crescita?
L'uso di metriche sulla qualità dei dati può aiutare.
Le metriche sulla qualità dei dati sono misure quantitative che valutano la qualità dei dati. Le organizzazioni possono utilizzare le metriche sulla qualità dei dati per tracciare e monitorare la qualità dei dati nel tempo, aiutando a identificare dati di alta qualità adatti ai processi decisionali basati sui dati e ai casi d'uso dell'intelligenza artificiale (AI).
Le metriche variano a seconda dell'organizzazione e possono riflettere le dimensioni tradizionali della qualità dei dati, come precisione, tempestività e unicità, nonché le caratteristiche specifiche delle pipeline di dati moderne, come la durata della pipeline. Attraverso metriche sulla qualità, le dimensioni della qualità dei dati possono essere mappate con valori numerici.
Gli strumenti di qualità dei dati basati sull'automazione e sul machine learning aiutano gli ingegneri dei dati a valutare le metriche sulla qualità dei dati e identificare i problemi in tempo reale. Questo consente alle organizzazioni e ai loro team di adottare le misure necessarie per ottimizzare l'affidabilità dei loro set e pipeline di dati.
Mantenere dati affidabili e di alta qualità è un obiettivo di molte organizzazioni moderne, e per una buona ragione.
Avere dati accurati aiuta a fornire una business intelligence preziosa, efficienza operativa, workflow ottimizzati, conformità normativa, soddisfazione dei clienti, crescita aziendale e progressi negli indicatori chiave di prestazione (KPI). L'elevata qualità dei dati è fondamentale anche per l'efficacia delle iniziative di AI, poiché i modelli AI richiedono un addestramento basato su dati affidabili e accurati per fornire risultati utili.
Tuttavia, per ottenere questi vantaggi, le organizzazioni devono garantire che i propri dati siano di alta qualità. È qui che le metriche di qualità svolgono un ruolo fondamentale, perché possono aiutare a determinare la qualità dei tuoi dati mappando le dimensioni della qualità con valori numerici, come i punteggi.
Attraverso le valutazioni della qualità dei dati, le organizzazioni possono determinare l'usabilità dei propri dati per le decisioni aziendali e la formazione dei modelli AI. I dati di bassa qualità identificati attraverso misure di qualità spesso possono essere migliorati attraverso iniziative di correzione dei dati.
Le sei dimensioni tradizionali tracciate tramite metriche di qualità dei dati sono:
Le dimensioni comuni della qualità dei dati possono spesso essere misurate attraverso rapporti semplici, come quello tra il numero di risultati preferiti (il numero di punti dati accurati, immissioni valide, ecc.) e il numero totale di risultati.2
Ad esempio, un modo di base per calcolare la completezza dei dati è:
Completezza = (numero di elementi di dati completi) / (numero totale di elementi di dati)
In alternativa, è possibile utilizzare anche una metrica inversa incentrata su dati errati:
Completezza = 1 – [(elementi dati mancanti) / (numero totale di elementi dati)]
Altri metodi per misurare le dimensioni richiedono calcoli più complessi.
Le formule per il calcolo della tempestività dei dati, per esempio, potrebbero basarsi su variabili come l'età dei dati, il tempo di consegna (quando i dati vengono consegnati), il tempo di input (quando i dati vengono ricevuti) e la volatilità (la quantità di tempo in cui i dati sono validi).
Oltre alle metriche che rappresentano le dimensioni tradizionali della qualità dei dati, altre metriche chiave possono aiutare le organizzazioni a mantenere le proprie pipeline di dati funzionanti senza intoppi. Ecco alcuni esempi:
Scopri di più sulle principali metriche di qualità dei dati per il tuo ambiente.
Le metriche sulla qualità dei dati supportano processi chiave come la governance, l'osservabilità la gestione della qualità dei dati.
La governance dei dati è una disciplina di gestione dei dati che contribuisce a garantire l'integrità e la sicurezza dei dati definendo e implementando politiche, standard di qualità e procedure per la raccolta, la proprietà, lo storage, l'elaborazione e l'uso dei dati. Le metriche sulla qualità dei dati, come la coerenza e la completezza, aiutano le organizzazioni a valutare i progressi verso il rispetto degli standard stabiliti attraverso le pratiche di governance.
L'osservabilità dei dati è la pratica di monitorare e gestire i dati in modo da garantirne la qualità, la disponibilità e l'affidabilità nei vari processi, sistemi e pipeline all'interno di un'organizzazione. Le metriche sulla qualità dei dati tracciate attraverso le pratiche di osservabilità includono l'aggiornamento dei dati, i conteggi Null e le modifiche allo schema.
La gestione della qualità dei dati, o DQM, è una raccolta di pratiche volta a migliorare e mantenere la qualità dei dati di un'organizzazione. Una pratica fondamentale della DQM è la profilazione dei dati, che prevede la revisione della struttura e del contenuto dei dati esistenti per valutarne la qualità e stabilire una linea di base rispetto alla quale misurare la correzione. La qualità dei dati viene valutata in base alle dimensioni e alle metriche di qualità.
La scarsa qualità dei dati rivelata attraverso la profilazione può essere risolta con un'altra pratica di DQM: la pulizia dei dati. La pulizia dei dati è la correzione di errori e incongruenze nei set di dati grezzi. È un primo passo essenziale per la trasformazione dei dati, che converte i dati non elaborati in un formato utilizzabile per l'analisi.
Le soluzioni software possono fornire il monitoraggio della qualità dei dati in tempo reale, incluso quello delle prestazioni sulle metriche di qualità. Le soluzioni leader potrebbero includere caratteristiche quali:
Una visualizzazione aggregata delle pipeline e degli asset di dati di un'organizzazione, che consente la gestione degli incidenti relativi ai dati in tutto lo stack.
Monitoraggio dei controlli di qualità dei dati e delle violazioni delle regole dell'accordo sul livello di servizio (SLA) relative a mancate consegne di dati, modifiche allo schema e anomalie.
Notifiche personalizzate e automatiche inviate agli stakeholder tramite strumenti e piattaforme come Slack, PagerDuty ed e-mail.
I grafici su righe e le operazioni scritte e lette ogni giorno aiutano le aziende a identificare le tendenze importanti e i modelli problematici.
Il lineage dei dati end-to-end mostra i set di dati e le pipeline dipendenti interessati da problemi di qualità dei dati.
IBM offre soluzioni per la qualità dei dati che ottimizzano dimensioni strategiche quali precisione, completezza e coerenza.
IBM Databand fornisce un monitoraggio della qualità dei dati in tempo reale per rilevare eventuali problemi e assicurare dati di qualità più elevata.
Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.
1, 2 “A Survey of Data Quality Measurement and Monitoring Tools.” Frontiers in Big Data. 30 marzo 2022.