Cos'è l'affidabilità dei dati?

Cos'è l'affidabilità dei dati?

L'affidabilità dei dati si riferisce alla completezza e all'accuratezza dei dati come misura della capacità di contare su di essi per essere coerenti e privi di errori nel tempo e nelle fonti.

Più i dati sono affidabili, più diventano attendibili. La fiducia nei dati offre una solida base per ottenere insight significativi e per un processo-decisionale ben informato, sia nella ricerca accademica, sia nell'analytics aziendale o nelle politiche pubbliche.

Dati imprecisi o inaffidabili possono portare a conclusioni errate, a modelli sbagliati e a un processo-decisionale inadeguato. È per questo motivo che sempre più aziende stanno introducendo i Chief Data Officer, un numero che tra il 2019 e il 2021 tra le principali società quotate in borsa è raddoppiato.1

I rischi di dati errati, uniti ai vantaggi competitivi di dati accurati, fanno sì che le iniziative di affidabilità dei dati debbano essere la priorità di ogni azienda. Per avere successo, è importante capire cosa comporta la valutazione e il miglioramento dell'affidabilità, che si basa in gran parte sull'osservabilità dei dati, per poi stabilire responsabilità e obiettivi chiari per il miglioramento.

L'implementazione dell'osservabilità dei dati end-to-end aiuta i team di data engineering a garantire l'affidabilità dei dati in tutto il loro stack di dati, identificando e risolvendo i problemi prima che si diffondano.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Come viene misurata l'affidabilità dei dati

La misurazione dell'affidabilità dei dati richiede l'analisi di tre fattori fondamentali:

1. Sono validi?

La validità dei dati è determinata dal fatto che siano memorizzati e formattati nel modo corretto e che stiano misurando ciò che sono destinati a misurare. Ad esempio, se stai raccogliendo nuovi dati su un particolare fenomeno del mondo reale, i dati sono validi solo se riflettono accuratamente quel fenomeno e non sono influenzati da fattori estranei.

2. Sono completi?

La completezza dei dati identifica se manca qualcosa nelle informazioni. Sebbene i dati possano essere validi, potrebbero comunque essere incompleti se non sono presenti campi critici che potrebbero modificare la comprensione delle informazioni da parte di qualcuno. I dati incompleti possono portare a analisi distorte o errate.

3. Sono unici?

L'unicità dei dati verifica la presenza di eventuali duplicati nel set di dati. Questa unicità è importante per evitare una rappresentazione eccessiva, che sarebbe imprecisa.

Per fare un ulteriore passo avanti, alcuni team di dati esaminano anche vari altri fattori, tra cui:

  • Se e quando la sorgente dei dati è stata modificata
  • Quali modifiche sono state apportate ai dati
  • Con quale frequenza i dati sono stati aggiornati
  • Da dove provengono originariamente i dati
  • Quante volte i dati sono stati utilizzati

Misurare l’affidabilità dei dati è essenziale per aiutare i team a creare fiducia nei propri set di dati e a identificare tempestivamente potenziali problemi. Test regolari ed efficaci sui dati possono aiutare i team che si occupano di dati a individuare rapidamente i problemi per determinarne l'origine e intervenire per risolverli.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Affidabilità dei dati, qualità dei dati

Una piattaforma dati moderna è supportata non solo dalla tecnologia, ma anche da DevOps, DataOps e filosofie agili. Sebbene DevOps e DataOps abbiano scopi completamente diversi, ciascuno di essi è simile alla filosofia agile, che è progettata per accelerare i cicli di lavoro dei progetti.

DevOps si concentra sullo sviluppo del prodotto, mentre DataOps si concentra sulla creazione e sulla manutenzione di un sistema di architettura dei dati distribuito che fornisce valore aziendale dai dati.

Agile è una filosofia per lo sviluppo del software che promuove la velocità e l'efficienza, ma senza eliminare il fattore "umano". Pone l'accento sulle conversazioni a tu per tu come un modo per massimizzare le comunicazioni, sottolineando anche l'importanza dell'automazione come mezzo per ridurre al minimo gli errori.

Affidabilità dei dati, validità dei dati

L'affidabilità e la validità dei dati affrontano due aspetti distinti della qualità dei dati.

Nel contesto della gestione dei dati, entrambe le qualità svolgono un ruolo fondamentale nel garantire l'integrità e l'utilità dei dati a portata di mano.

  • L'affidabilità dei dati si concentra sulla coerenza e ripetibilità dei dati tra diverse osservazioni o misurazioni. In sostanza, dati affidabili dovrebbero produrre risultati uguali o molto simili ogni volta che una particolare misurazione o osservazione viene ripetuta. Si tratta di garantire che i dati siano stabili e coerenti nel tempo e in diversi contesti.

  • La validità dei dati, nel senso della convalida dei dati, riguarda l'accuratezza, la struttura e l'integrità dei dati. Garantisce che tutti i nuovi dati siano formattati correttamente, conformi alle regole necessarie e che siano accurati e privi di corruzione. Ad esempio, una colonna di date deve avere date e non caratteri alfanumerici. I dati non validi possono causare una serie di problemi, come errori nelle applicazioni, risultati errati dell'analisi dei dati e una qualità generale dei dati scadente.

Sebbene l'affidabilità e la validità dei dati siano correlate, non sono intercambiabili. Ad esempio, potresti avere un processo di raccolta dati altamente affidabile (che fornisce risultati coerenti e ripetibili), ma se i dati raccolti non vengono convalidati (non sono conformi alle regole o ai formati richiesti), i risultati finali saranno comunque dati di bassa qualità.

Al contrario, potresti avere dati perfettamente validi (che soddisfano tutte le regole di formato e integrità), ma se il processo di raccolta di tali dati non è affidabile (fornisce risultati diversi con ogni misurazione o osservazione), l'utilità e l'affidabilità di tali dati diventano discutibili.

Per mantenere l'affidabilità dei dati, è necessario stabilire e seguire attentamente un metodo coerente per la raccolta e l'elaborazione di tutti i tipi di dati. Per la validità dei dati, devono essere adottati rigorosi protocolli di convalida dei dati. Ciò potrebbe includere controlli del tipo di dati, controlli dell'intervallo, controlli dell'integrità referenziale e altro. Questi protocolli contribuiranno a garantire che i dati siano nel formato corretto e aderiscano a tutte le regole necessarie.

Problemi e sfide relative all'affidabilità dei dati

Tutte le iniziative di affidabilità dei dati pongono problemi e sfide considerevoli in molte aree della ricerca e dell'analisi dei dati, tra cui:

Raccolta e misurazione dei dati

Il modo in cui i dati vengono raccolti può influire notevolmente sulla loro affidabilità. Se il metodo utilizzato per raccogliere i dati è difettoso o distorto, i dati non saranno affidabili. Inoltre, possono verificarsi errori di misurazione nel punto di raccolta dei dati, durante l'immissione dei dati o durante l'elaborazione o l'analisi dei dati.

Coerenza dei dati

I dati devono essere coerenti nel tempo e tra diversi contesti per essere affidabili. I dati incoerenti possono verificarsi a causa di cambiamenti nelle tecniche di misurazione, nelle definizioni o nei sistemi utilizzati per raccogliere i dati.

Errore umano

L'errore umano è sempre una fonte potenziale di inaffidabilità. Ciò può verificarsi in molti modi, ad esempio nell'immissione errata dei dati, nella codifica dei dati incoerente e nell'interpretazione errata dei dati.

Modifiche nel tempo

In alcuni casi, quello che viene misurato può cambiare nel tempo, causando problemi di affidabilità. Ad esempio, un modello di apprendimento automatico che prevede il comportamento dei consumatori potrebbe essere affidabile quando viene creato per la prima volta, ma potrebbe diventare impreciso man mano che il comportamento dei consumatori sottostante cambia.

Controllo e governance dei dati

Pratiche incoerenti di governance dei dati e una mancanza di gestione dei dati possono comportare una mancanza di responsabilità per la qualità e l'affidabilità dei dati.

Modifica delle sorgenti dei dati

Quando le fonti di dati cambiano o vengono aggiornate, l'affidabilità dei dati può essere compromessa, soprattutto se cambiano i formati o le strutture dei dati. L'integrazione di dati provenienti da fonti diverse può anche portare a problemi di affidabilità dei dati nella propria moderna piattaforma di dati.

Duplicazione dei dati

Record o voci duplicati possono portare a imprecisioni e risultati distorti. L'identificazione e la gestione dei duplicati rappresenta una sfida nel mantenere l'affidabilità dei dati.

Passaggi per garantire l'affidabilità dei dati

Garantire l'affidabilità dei dati è un aspetto fondamentale di una corretta gestione dei dati. Ecco alcune best practice per mantenere e migliorare l'affidabilità dei dati nell'intero stack di dati:

  1. Standardizzazione della la raccolta dei dati: stabilisci procedure chiare e standardizzate per la raccolta dei dati. Ciò può aiutare a ridurre le variazioni e garantire la coerenza nel tempo.

  2. Addestramento degli addetti alla raccolta dei dati: le persone che raccolgono dati devono essere adeguatamente addestrate per comprendere i metodi, gli strumenti e i protocolli per ridurre al minimo gli errori umani. Devono essere consapevoli dell'importanza di dati affidabili e delle conseguenze di dati inaffidabili.

  3. Verifiche regolari: le verifiche regolari dei dati sono fondamentali per individuare incoerenze o errori che potrebbero influire sull'affidabilità. Questi controlli devono riguardare la ricerca di errori, ma anche l'identificazione delle cause principali degli errori e l'implementazione di azioni correttive.

  4. Utilizzo di strumenti affidabili: utilizza strumenti di cui è stata testata l'affidabilità. Ad esempio, se utilizzi l'elaborazione dei flussi, testa e monitora i flussi di eventi per assicurarti che i dati non vengano persi o duplicati.

  5. Pulizia dei dati: impiega un processo di pulizia dei dati rigoroso. Questo deve includere l'individuazione e la risoluzione di outlier, valori mancanti e incoerenze. Utilizza metodi sistematici per gestire dati mancanti o problematici.

  6. Mantenimento di un dizionario dei dati: un dizionario dei dati è un archivio centralizzato di informazioni sui dati, come tipi di dati, significati, relazioni con altri dati, origine, utilizzo e formato. Aiuta a mantenere la coerenza dei dati e assicura che tutti utilizzino e interpretino i dati allo stesso modo.

  7. Garanzia della riproducibilità dei dati: la documentazione di tutte le fasi della raccolta e dell'elaborazione dei dati garantisce che altri possano riprodurre i tuoi risultati, il che è un aspetto importante dell'affidabilità. Ciò include la fornitura di spiegazioni chiare delle metodologie utilizzate e il mantenimento del controllo delle versioni per dati e codice.

  8. Implementazione della governance dei dati: le buone politiche di governance dei dati possono aiutare a migliorare l'affidabilità dei dati. Ciò implica l'adozione di politiche e procedure chiare su chi può accedere e modificare i dati e il mantenimento di record chiari di tutte le modifiche apportate ai set di dati.

  9. Data backup and recovery: esegui regolarmente il backup dei dati per evitare la perdita di dati. Inoltre, assicurati che esista un sistema affidabile per il recupero dei dati in caso di perdita di dati.

Migliorare l'affidabilità dei dati attraverso l'osservabilità dei dati

L'osservabilità dei dati consiste nel comprendere la salute e lo stato dei dati nel sistema. Include una varietà di attività che vanno oltre la semplice descrizione di un problema. L'osservabilità dei dati può aiutare a identificare e risolvere i problemi relativi ai dati quasi in tempo reale.

È importante sottolineare che l'osservabilità dei dati è essenziale per affrontare i problemi legati ai dati non corretti, che sono alla base dell'affidabilità dei dati. Guardando più in profondità, l'osservabilità dei dati comprende attività come il monitoraggio, l'avviso, il tracciamento, i confronti, le analisi, la registrazione, il monitoraggio degli SLA e il data lineage, che lavorano tutti insieme per comprendere la qualità dei dati end-to-end, inclusa l'affidabilità dei dati.

Se eseguita correttamente, l'osservabilità dei dati può contribuire a migliorare l'affidabilità dei dati consentendo di identificare tempestivamente i problemi, in modo che l'intero team di dati possa rispondere più rapidamente, comprendere l'entità dell'impatto e ripristinare l'affidabilità.

Implementando pratiche e strumenti di osservabilità dei dati, le organizzazioni possono migliorare l'affidabilità dei dati, assicurando che siano accurati, coerenti e affidabili per l'intero ciclo di vita dei dati. Questo è particolarmente importante negli ambienti basati sui dati in cui dati di alta qualità possono avere un impatto diretto sulla business intelligence, sulle decisioni basate sui dati e sui risultati aziendali.

Soluzioni correlate
Software e soluzioni per la gestione dei dati

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Esplora le soluzioni di gestione dei dati
IBM watsonx.data™

Watsonx.data ti consente di scalare l'analytics e l'AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Esplora le soluzioni di gestione dei dati Scopri watsonx.data
Note a piè di pagina

1 In data we trust, PwC, 28 April 2022