Home
topics
Affidabilità dei dati
L'affidabilità dei dati si riferisce alla completezza e all'accuratezza dei dati come misura della capacità di contare su di essi per essere coerenti e privi di errori nel tempo e nelle fonti.
Più i dati sono affidabili, più diventano attendibili. La fiducia nei dati fornisce una solida base per trarre insight significativi e prendere decisioni ben informate, sia nella ricerca accademica che nel business analytics o nelle politiche pubbliche.
Dati imprecisi o inaffidabili possono portare a conclusioni errate, a modelli sbagliati e a un processo decisionale inadeguato. È per questo motivo che sempre più aziende stanno introducendo i Chief Data Officer, un numero che è raddoppiato tra le principali società quotate in borsa tra il 2019 e il 2021.1
I rischi di dati errati, combinati con i vantaggi competitivi di dati accurati, fanno sì che le iniziative di affidabilità dei dati debbano essere la priorità di ogni azienda. Per avere successo, è importante capire cosa comporta la valutazione e il miglioramento dell'affidabilità, che si basa in gran parte sull'osservabilità dei dati, e quindi stabilire responsabilità e obiettivi chiari per il miglioramento.
L'implementazione dell'osservabilità dei dati end-to-end aiuta i team di data engineering a garantire l'affidabilità dei dati in tutto il loro stack di dati, identificando e risolvendo i problemi prima che si diffondano.
Scopri in che modo l’osservabilità proattiva dei dati può aiutarti a rilevare prima gli incidenti di dati e a risolverli più rapidamente.
La misurazione dell'affidabilità dei dati richiede l'analisi di tre fattori fondamentali:
1. Sono validi?
La validità dei dati è determinata dal fatto che siano memorizzati e formattati nel modo corretto e che stiano misurando ciò che sono destinati a misurare. Ad esempio, se stai raccogliendo nuovi dati su un particolare fenomeno del mondo reale, i dati sono validi solo se riflettono accuratamente quel fenomeno e non sono influenzati da fattori estranei.
2. Sono completi?
La completezza dei dati identifica se manca qualcosa nelle informazioni. Sebbene i dati possano essere validi, potrebbero comunque essere incompleti se non sono presenti campi critici che potrebbero modificare la comprensione delle informazioni da parte di qualcuno. I dati incompleti possono portare a analisi distorte o errate.
3. Sono unici?
L'unicità dei dati verifica la presenza di eventuali duplicati nel set di dati. Questa unicità è importante per evitare una rappresentazione eccessiva, che sarebbe imprecisa.
Per fare un ulteriore passo avanti, alcuni team di dati esaminano anche vari altri fattori, tra cui:
Misurare l’affidabilità dei dati è essenziale per aiutare i team a creare fiducia nei propri set di dati e a identificare tempestivamente potenziali problemi. Test regolari ed efficaci sui dati possono aiutare i team che si occupano di dati a individuare rapidamente i problemi per determinarne l'origine e intervenire per risolverli.
Una piattaforma dati moderna è supportata non solo dalla tecnologia, ma anche da DevOps, DataOps e filosofie agili. Sebbene DevOps e DataOps abbiano scopi completamente diversi, ciascuno è simile alla filosofia agile, che è progettata per accelerare i cicli di lavoro dei progetti.
DevOps si concentra sullo sviluppo del prodotto, mentre DataOps si concentra sulla creazione e il mantenimento di un sistema di architettura dei dati distribuito che offra valore aziendale dai dati.
La filosofia agile per lo sviluppo di software promuove velocità ed efficienza, ma senza eliminare il fattore "umano". Pone l'accento sulle conversazioni faccia a faccia come un modo per massimizzare le comunicazioni, sottolineando anche l'automazione come mezzo per ridurre al minimo gli errori.
L'affidabilità e la validità dei dati affrontano due aspetti distinti della qualità dei dati.
Nel contesto della gestione dei dati, entrambe le qualità svolgono un ruolo cruciale nel garantire l'integrità e l'utilità dei dati a portata di mano.
Sebbene l'affidabilità e la validità dei dati siano correlate, non sono intercambiabili. Ad esempio, potresti avere un processo di raccolta dati altamente affidabile (che fornisce risultati coerenti e ripetibili), ma se i dati raccolti non vengono convalidati (non sono conformi alle regole o ai formati richiesti), i risultati finali saranno comunque dati di bassa qualità.
Al contrario, potresti avere dati perfettamente validi (che soddisfano tutte le regole di formato e integrità), ma se il processo di raccolta di tali dati non è affidabile (fornisce risultati diversi con ogni misurazione o osservazione), l'utilità e l'affidabilità di tali dati diventano discutibili.
Per mantenere l'affidabilità dei dati, è necessario stabilire e seguire attentamente un metodo coerente per la raccolta e l'elaborazione di tutti i tipi di dati. Per la validità dei dati, devono essere adottati rigorosi protocolli di convalida dei dati. Ciò potrebbe includere controlli del tipo di dati, controlli dell'intervallo, controlli dell'integrità referenziale e altro. Questi protocolli contribuiranno a garantire che i dati siano nel formato corretto e aderiscano a tutte le regole necessarie.
Tutte le iniziative di affidabilità dei dati pongono problemi e sfide considerevoli in molte aree della ricerca e dell'analisi dei dati, tra cui:
Il modo in cui i dati vengono raccolti può influire notevolmente sulla loro affidabilità. Se il metodo utilizzato per raccogliere i dati è difettoso o distorto, i dati non saranno affidabili. Inoltre, possono verificarsi errori di misurazione nel punto di raccolta dei dati, durante l'immissione dei dati o durante l'elaborazione o l'analisi dei dati.
I dati devono essere coerenti nel tempo e tra diversi contesti per essere affidabili. I dati incoerenti possono verificarsi a causa di cambiamenti nelle tecniche di misurazione, nelle definizioni o nei sistemi utilizzati per raccogliere i dati.
L'errore umano è sempre una fonte potenziale di inaffidabilità. Ciò può verificarsi in molti modi, ad esempio nell'immissione errata dei dati, nella codifica dei dati incoerente e nell'interpretazione errata dei dati.
In alcuni casi, ciò che viene misurato può cambiare nel tempo, causando problemi di affidabilità. Ad esempio, un modello di machine learning che prevede il comportamento dei consumatori potrebbe essere affidabile quando viene creato per la prima volta, ma potrebbe diventare impreciso man mano che il comportamento dei consumatori sottostante cambia.
Pratiche incoerenti di governance dei dati e una mancanza di gestione dei dati possono comportare una mancanza di responsabilità per la qualità e l'affidabilità dei dati.
Quando le fonti di dati cambiano o vengono aggiornate, l'affidabilità dei dati può essere compromessa, soprattutto se cambiano i formati o le strutture dei dati. L'integrazione di dati provenienti da fonti diverse può anche portare a problemi di affidabilità dei dati nella propria moderna piattaforma di dati.
Record o voci duplicati possono portare a imprecisioni e risultati distorti. L'identificazione e la gestione dei duplicati rappresenta una sfida nel mantenere l'affidabilità dei dati.
Per affrontare questi problemi e queste sfide è necessaria una combinazione di processi di qualità dei dati, governance dei dati, convalida dei dati e pratiche di gestione dei dati.
Garantire l'affidabilità dei dati è un aspetto fondamentale di una corretta gestione dei dati. Ecco alcune best practice per mantenere e migliorare l'affidabilità dei dati nell'intero stack di dati:
L'osservabilità dei dati consiste nel comprendere la salute e lo stato dei dati nel sistema. Include una varietà di attività che vanno oltre la semplice descrizione di un problema. L'osservabilità dei dati può aiutare a identificare e risolvere i problemi relativi ai dati quasi in tempo reale.
È importante sottolineare che l'osservabilità dei dati è essenziale per affrontare i problemi legati ai dati non corretti, che sono alla base dell'affidabilità dei dati. Guardando più in profondità, l'osservabilità dei dati comprende attività come il monitoraggio, l'avviso, il tracciamento, i confronti, le analisi, la registrazione, il monitoraggio degli SLA e il data lineage, che lavorano tutti insieme per comprendere la qualità dei dati end-to-end, inclusa l'affidabilità dei dati.
Se eseguita correttamente, l'osservabilità dei dati può contribuire a migliorare l'affidabilità dei dati consentendo di identificare tempestivamente i problemi, in modo che l'intero team di dati possa rispondere più rapidamente, comprendere l'entità dell'impatto e ripristinare l'affidabilità.
Implementando pratiche e strumenti di osservabilità dei dati, le organizzazioni possono migliorare l'affidabilità dei dati, assicurando che siano accurati, coerenti e affidabili per l'intero ciclo di vita dei dati. Ciò è particolarmente importante negli ambienti basati sui dati in cui dati di alta qualità possono avere un impatto diretto sulla business intelligence, sulle decisioni basate sui dati e sui risultati aziendali.
IBM® Databand è un software di osservabilità per pipeline di dati e warehouse che raccoglie automaticamente i metadati per creare linee di base cronologiche, rilevare anomalie e assegnare priorità agli avvisi per correggere i problemi di qualità dei dati.
Supportando i modelli ETL e ELT, IBM® DataStage offre un'integrazione dei dati flessibile e quasi in tempo reale sia on-premise che nel cloud.
Catalogo intelligente di dati per l'era dell'AI, IBM® Knowledge Catalog ti consente di accedere, curare, categorizzare e condividere i dati, le risorse di conoscenza e le loro relazioni, ovunque si trovino.
Ora puoi scalare analytics e IA con uno storage dei dati adatto allo scopo, basato su un'architettura lakehouse aperta, supportata da query, governance e formati open data per accedere ai dati e condividerli.
Approfondisci per capire cos’è l’osservabilità dei dati, perché è importante, come si è evoluta con i moderni sistemi di dati e le best practice per implementare un framework di osservabilità dei dati.
Garantire dati di alta qualità è responsabilità degli ingegneri di dati e dell’intera organizzazione. Questo post descrive l’importanza della qualità dei dati, come controllare e monitorare i dati e come ottenere il consenso dai principali stakeholder.
Quando si tratta di qualità dei dati, ci sono un sacco di metriche importanti, tra cui completezza, coerenza, conformità, precisione, integrità, tempestività, disponibilità e continuità, solo per citarne alcune.
1. In data we trust , PwC, 28 aprile 2022