Cos'è l'affidabilità dei dati?

Affidabilità dei dati, definizione

L'affidabilità dei dati si riferisce alla completezza e all'accuratezza dei dati come misura di quanto possono essere considerati coerenti e privi di errori nel tempo e tra diverse fonti.

Più i dati sono affidabili, più diventano attendibili. La fiducia nei dati offre una solida base per ottenere insight significativi e per un processo decisionale ben informato, sia nella ricerca accademica, sia nell'analytics aziendale o nelle politiche pubbliche.

Dati imprecisi o inaffidabili possono portare a conclusioni errate, modelli sbagliati e a un processo decisionale inadeguato. È per questo che sempre più aziende stanno introducendo chief data officer, un numero che è raddoppiato tra il 2019 e il 2021 nelle principali società quotate in borsa.1

I rischi di dati errati, uniti ai vantaggi competitivi di dati accurati, fanno sì che le iniziative di affidabilità dei dati debbano essere la priorità di ogni azienda. Per avere successo, è importante capire cosa comporta la valutazione e il miglioramento dell'affidabilità, che si basa in gran parte sull'observability dei dati, e quindi stabilire responsabilità e obiettivi chiari per il miglioramento.

L'implementazione della data observability end-to-end aiuta i team di data engineering a garantire l'affidabilità dei dati in tutto lo stack di dati, individuando, risolvendo i problemi e affrontando la situazione prima che le problematiche relative a dati errati possano diffondersi.

Come viene misurata l'affidabilità dei dati

La misurazione dell'affidabilità dei dati richiede l'analisi di tre fattori fondamentali:

1. Sono validi?

La validità dei dati è determinata dal fatto che siano memorizzati e formattati correttamente e che misurino ciò che sono destinati a misurare. Ad esempio, se stai raccogliendo nuovi dati su un particolare fenomeno del mondo reale, i dati sono validi solo se riflettono accuratamente quel fenomeno e non sono influenzati da fattori estranei.

2. Sono completi?

La completezza dei dati identifica se manca qualcosa nelle informazioni. Sebbene i dati possano essere validi, potrebbero comunque essere incompleti se non sono presenti campi critici che potrebbero modificare la comprensione delle informazioni da parte di qualcuno. I dati incompleti possono portare a analisi distorte o errate.

3. Sono unici?

L'unicità dei dati verifica la presenza di eventuali duplicati nel set di dati. Questa unicità è importante per evitare una rappresentazione eccessiva, che sarebbe imprecisa.

Per fare un ulteriore passo avanti, alcuni team di dati esaminano anche vari altri fattori, tra cui:

  • Se e quando la sorgente dei dati è stata modificata
  • Quali modifiche sono state apportate ai dati
  • Con quale frequenza i dati sono stati aggiornati
  • Da dove provengono originariamente i dati
  • Quante volte i dati sono stati utilizzati

Misurare l’affidabilità dei dati è essenziale per aiutare i team a creare fiducia nei propri set di dati e a identificare tempestivamente potenziali problemi. Test regolari ed efficaci sui dati possono aiutare i team che si occupano di dati a individuare rapidamente i problemi per determinarne l'origine e intervenire per risolverli.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Affidabilità dei dati, qualità dei dati

L'affidabilità e la qualità dei dati sono concetti strettamente correlati. La qualità dei dati si riferisce alla misura in cui un set di dati soddisfa i criteri definiti per standard come precisione, completezza, validità, coerenza, unicità, tempestività e idoneità allo scopo. È un termine più ampio che racchiude molti aspetti dello stato di salute e dell'utilità dei dati.

L'affidabilità dei dati, al contrario, si concentra più strettamente sulla coerenza e affidabilità dei dati nel tempo, in particolare, se si può o meno contare sul fatto che producano risultati precisi quando vengono usati ripetutamente o in situazioni diverse.

Affidabilità dei dati, validità dei dati

L'affidabilità e la validità dei dati affrontano due aspetti distinti della qualità dei dati.

Nel contesto della gestione dei dati, entrambe le qualità svolgono un ruolo fondamentale nel garantire l'integrità e l'utilità dei dati a portata di mano.

  • L'affidabilità dei dati si concentra sulla coerenza e ripetibilità dei dati tra diverse osservazioni o misurazioni. In sostanza, dati affidabili dovrebbero produrre risultati uguali o molto simili ogni volta che una particolare misurazione o osservazione viene ripetuta. Si tratta di garantire che i dati siano stabili e coerenti nel tempo e in diversi contesti.

  • La validità dei dati, nel senso della convalida dei dati, riguarda l'accuratezza, la struttura e l'integrità dei dati. Garantisce che tutti i nuovi dati siano formattati correttamente, conformi alle regole necessarie e che siano accurati e privi di corruzione. Ad esempio, una colonna di date deve avere date e non caratteri alfanumerici. I dati non validi possono causare una serie di problemi, come errori nelle applicazioni, risultati errati dell'analisi dei dati e una qualità generale dei dati scadente.

Sebbene l'affidabilità e la validità dei dati siano correlate, non sono intercambiabili. Ad esempio, potresti avere un processo di raccolta dati altamente affidabile (che fornisce risultati coerenti e ripetibili), ma se i dati raccolti non vengono convalidati (non sono conformi alle regole o ai formati richiesti), i risultati finali saranno comunque dati di bassa qualità.

Al contrario, potresti avere dati perfettamente validi (che soddisfano tutte le regole di formato e integrità), ma se il processo di raccolta di tali dati non è affidabile (fornisce risultati diversi con ogni misurazione o osservazione), l'utilità e l'affidabilità di tali dati diventano discutibili.

Per mantenere l'affidabilità dei dati, è necessario stabilire e seguire attentamente un metodo coerente per la raccolta e l'elaborazione di tutti i tipi di dati. Per la validità dei dati, devono essere adottati rigorosi protocolli di convalida dei dati. Ciò potrebbe includere controlli del tipo di dati, controlli dell'intervallo, controlli dell'integrità referenziale e altro. Questi protocolli contribuiranno a garantire che i dati siano nel formato corretto e aderiscano a tutte le regole necessarie.

Problemi e sfide relative all'affidabilità dei dati

Tutte le iniziative di affidabilità dei dati pongono problemi e sfide considerevoli in molte aree della ricerca e dell'analisi dei dati, tra cui:

Raccolta e misurazione dei dati

Il modo in cui i dati vengono raccolti può influire notevolmente sulla loro affidabilità. Se il metodo utilizzato per raccogliere i dati è difettoso o distorto, i dati non saranno affidabili. Inoltre, possono verificarsi errori di misurazione nel punto di raccolta dei dati, durante l'immissione dei dati o durante l'elaborazione o l'analisi dei dati.

Coerenza dei dati

I dati devono essere coerenti nel tempo e tra diversi contesti per essere affidabili. I dati incoerenti possono verificarsi a causa di cambiamenti nelle tecniche di misurazione, nelle definizioni o nei sistemi utilizzati per raccogliere i dati.

Errore umano

L'errore umano è sempre una fonte potenziale di inaffidabilità. Ciò può verificarsi in molti modi, ad esempio nell'immissione errata dei dati, nella codifica dei dati incoerente e nell'interpretazione errata dei dati.

Modifiche nel tempo

In alcuni casi, quello che viene misurato può cambiare nel tempo, causando problemi di affidabilità. Ad esempio, un modello di apprendimento automatico che prevede il comportamento dei consumatori potrebbe essere affidabile quando viene creato per la prima volta, ma potrebbe diventare impreciso man mano che il comportamento dei consumatori sottostante cambia.

Controllo e governance dei dati

Pratiche incoerenti di governance dei dati e una mancanza di gestione dei dati possono comportare una mancanza di responsabilità per la qualità e l'affidabilità dei dati.

Modifica delle sorgenti dei dati

Quando le fonti di dati cambiano o vengono aggiornate, l'affidabilità dei dati può essere compromessa, soprattutto se cambiano i formati o le strutture dei dati. L'integrazione di dati provenienti da fonti diverse può anche portare a problemi di affidabilità dei dati nella propria moderna piattaforma di dati.

Duplicazione dei dati

Record o voci duplicati possono portare a imprecisioni e risultati distorti. L'identificazione e la gestione dei duplicati rappresenta una sfida nel mantenere l'affidabilità dei dati.

Passaggi per garantire l'affidabilità dei dati

Garantire l'affidabilità dei dati è un aspetto fondamentale di una corretta gestione dei dati. Ecco alcune best practice per mantenere e migliorare l'affidabilità dei dati nell'intero stack di dati:

  1. Standardizzazione della la raccolta dei dati: stabilisci procedure chiare e standardizzate per la raccolta dei dati. Ciò può aiutare a ridurre le variazioni e garantire la coerenza nel tempo.

  2. Addestramento degli addetti alla raccolta dei dati: le persone che raccolgono dati devono essere adeguatamente addestrate per comprendere i metodi, gli strumenti e i protocolli per ridurre al minimo gli errori umani. Devono essere consapevoli dell'importanza di dati affidabili e delle conseguenze di dati inaffidabili.

  3. Verifiche regolari: le verifiche regolari dei dati sono fondamentali per individuare incoerenze o errori che potrebbero incidere sull'affidabilità. Queste verifiche devono concentrarsi sulla ricerca degli errori, sull'individuazione della causa principale e sull'implementazione di misure correttive.

  4. Utilizzo di strumenti affidabili: utilizza strumenti di cui è stata testata l'affidabilità. Ad esempio, se utilizzi l'elaborazione dei flussi, testa e monitora i flussi di eventi per assicurarti che i dati non vengano persi o duplicati.

  5. Pulizia dei dati: impiega un processo di pulizia dei dati rigoroso. Questo deve includere l'individuazione e la risoluzione di outlier, valori mancanti e incoerenze. Utilizza metodi sistematici per gestire dati mancanti o problematici.

  6. Mantenimento di un dizionario dei dati: un dizionario dei dati è un archivio centralizzato di informazioni sui dati, come tipi di dati, significati, relazioni con altri dati, origine, utilizzo e formato. Aiuta a mantenere la coerenza dei dati e assicura che tutti utilizzino e interpretino i dati allo stesso modo.

  7. Garanzia della riproducibilità dei dati: la documentazione di tutte le fasi della raccolta e dell'elaborazione dei dati garantisce che altri possano riprodurre i tuoi risultati, il che è un aspetto importante dell'affidabilità. Ciò include la fornitura di spiegazioni chiare delle metodologie utilizzate e il mantenimento del controllo delle versioni per dati e codice.

  8. Implementazione della governance dei dati: le buone politiche di governance dei dati possono aiutare a migliorare l'affidabilità dei dati. Ciò implica l'adozione di politiche e procedure chiare su chi può accedere e modificare i dati e il mantenimento di record chiari di tutte le modifiche apportate ai set di dati.

  9. Data backup and recovery: occorre eseguire regolarmente il backup dei dati per evitare la perdita di dati e garantire un sistema affidabile per il recupero dei dati.

Migliorare l'affidabilità dei dati attraverso la data observability

La data observability consiste nel comprendere la salute e lo stato dei dati nel sistema. Include una varietà di attività che vanno oltre la semplice descrizione di un problema. La data observability può aiutare a identificare e risolvere i problemi relativi ai dati quasi in tempo reale.

È importante sottolineare che la data observability è essenziale per affrontare i problemi legati ai dati non corretti, che sono alla base dell'affidabilità dei dati. Guardando più in profondità, la data observability comprende attività come il monitoraggio, l'avviso, il tracciamento, i confronti, le analisi, la registrazione, il monitoraggio degli SLA e il data lineage, che lavorano tutti insieme per comprendere la qualità dei dati end-to-end, inclusa l'affidabilità dei dati.

Se eseguita correttamente, la data observability può contribuire a migliorare l'affidabilità dei dati consentendo di identificare tempestivamente i problemi, in modo che l'intero team di dati possa rispondere più rapidamente, comprendere l'entità dell'impatto e ripristinare l'affidabilità.

Implementando pratiche e strumenti di data observability, le organizzazioni possono migliorare l'affidabilità dei dati, assicurando che siano accurati, coerenti e affidabili per l'intero ciclo di vita dei dati. Questo aspetto è particolarmente importante negli ambienti basati sui dati in cui dati di alta qualità possono avere un impatto diretto sulla business intelligence, sulle decisioni basate sui dati e sui risultati aziendali.

Techsplainers | Podcast

Ascolta: "Cos'è l'affidabilità dei dati?"

Segui Techsplainers su Spotify e Apple Podcasts.

Rendering 3D di una spirale di diverse icone allineate, come una fotocamera, una manopola del volume e una lavagnetta
Soluzioni correlate
IBM StreamSets

Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.

Esplora StreamSets
IBM watsonx.data™

Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

  1. Esplora le soluzioni di gestione dei dati
  2. Scopri watsonx.data
Note a piè di pagina

1 Value-creating chief data officers: Cementing a seat at the top table. Strategy+Business, una pubblicazione di PwC, 7 dicembre 2022.