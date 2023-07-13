La qualità dei dati è essenzialmente la misura dell'integrità dei dati. La precisione, la completezza, la coerenza, la validità, l'unicità e la tempestività di un set di dati sono le misure di qualità dei dati utilizzate dalle organizzazioni per determinare l'utilità e l'efficacia dei dati per un determinato caso d'uso aziendale.

Come determinare la qualità dei dati

Gli analisti della qualità dei dati valuteranno un set di dati utilizzando le dimensioni sopra elencate e assegneranno un punteggio complessivo. Quando i dati sono ai primi posti in ogni dimensione, sono considerati dati di alta qualità affidabili e degni di fiducia per il caso d'uso o l'applicazione previsti. Per misurare e mantenere dati di alta qualità, le organizzazioni utilizzano regole di qualità dei dati, note anche come regole di convalida dei dati, per garantire che i set di dati soddisfino i criteri definiti dall'organizzazione.

I benefici della buona qualità dei dati

Miglioramento dell'efficienza

Gli utenti business e i data scientist non devono perdere tempo a localizzare o formattare i dati su sistemi eterogenei. Invece, possono accedere e analizzare facilmente i set di dati con maggiore sicurezza. Si risparmia tempo aggiuntivo che altrimenti sarebbe stato sprecato agendo su dati incompleti o imprecisi.

Aumento del valore dei dati

Poiché i dati sono formattati in modo coerente e contestualizzato per l'utente o l'applicazione, le organizzazioni possono ricavare valore da dati che altrimenti potrebbero essere stati scartati o ignorati.

Migliore collaborazione e migliore processo decisionale

I dati di alta qualità eliminano le incongruenze tra sistemi e reparti e garantiscono dati coerenti tra processi e procedure. La collaborazione e il processo decisionale tra stakeholder sono migliorati perché tutti si basano sugli stessi dati.

Riduzione dei costi e miglioramento della conformità normativa

I dati di alta qualità sono facili da trovare e da consultare. Poiché non è necessario ricreare o rintracciare i set di dati, i costi di manodopera sono ridotti e gli errori di immissione manuale dei dati diventano meno probabili. E poiché i dati di alta qualità sono facili da memorizzare nell'ambiente corretto e da raccogliere e compilare in report obbligatori, un'organizzazione può garantire meglio la conformità ed evitare sanzioni normative.

Miglioramento dell’esperienza del cliente e dei dipendenti

I dati di alta qualità forniscono insight più approfonditi e precisi che un'organizzazione può utilizzare per fornire un'esperienza più personalizzata e di impatto per dipendenti e clienti.

Le sei dimensioni della qualità dei dati

Per determinare la qualità dei dati e assegnare un punteggio complessivo, gli analisti valutano un set di dati utilizzando queste sei dimensioni, note anche come caratteristiche dei dati:

Precisione: i dati sono dimostrabilmente corretti e riflettono le conoscenze del mondo reale? Completezza: i dati comprendono tutte le informazioni pertinenti e disponibili? Ci sono elementi di dati mancanti o campi vuoti? Coerenza: i valori dei dati corrispondenti corrispondono in tutte le posizioni e gli ambienti? Validità: i dati vengono raccolti nel formato corretto per l'uso previsto? Unicità: i dati sono duplicati o si sovrappongono ad altri dati? Tempestività: i dati sono aggiornati e prontamente disponibili quando necessario?

Più alto è il punteggio di un set di dati in ognuna di queste dimensioni, maggiore è il suo punteggio complessivo. Un punteggio complessivo elevato indica che un set di dati è affidabile, facilmente accessibile e pertinente.

Come migliorare la qualità dei dati

Alcuni metodi e iniziative comuni utilizzati dalle organizzazioni per migliorare la qualità dei dati includono:

Profilazione dei dati

La profilazione dei dati, nota anche come valutazione della qualità dei dati, è il processo di verifica dei dati di un'organizzazione nel loro stato attuale. Questo viene fatto per scoprire errori, imprecisioni, lacune, dati incoerenti, duplicazioni e barriere di accessibilità. È possibile utilizzare numerosi strumenti per la qualità dei dati per profilare i set di dati e rilevare anomalie nei dati che necessitano di correzione.

Pulizia dei dati

La pulizia dei dati è il processo di correzione dei problemi di qualità dei dati e delle incoerenze rilevati durante la profilazione dei dati. Ciò include la deduplicazione dei set di dati, in modo che non esistano involontariamente più voci di dati in più posizioni.

Standardizzazione dei dati

Si tratta del processo di conformità di asset di dati eterogenei e big data non strutturati in un formato coerente che garantisca che i dati siano completi e pronti per l'uso, indipendentemente dalla fonte dei dati. Per standardizzare i dati, vengono applicate business rules per garantire che i set di dati siano conformi agli standard e alle esigenze di un'organizzazione.

Geocodifica

La geocodifica è il processo di aggiunta di metadati sulla posizione ai set di dati di un'organizzazione. Etichettando i dati con coordinate geografiche per tracciare da dove provengono, dove sono stati e dove risiedono, un'organizzazione può garantire il rispetto degli standard nazionali e globali in materia di dati geografici. Ad esempio, i metadati geografici possono aiutare un'organizzazione a garantire che la gestione dei dati dei clienti sia conforme al GDPR.

Corrispondenza o collegamento

Questo è il metodo per identificare, unire e risolvere i dati duplicati o ridondanti.

Monitoraggio della qualità dei dati

Il mantenimento di una buona qualità dei dati richiede una gestione continua della qualità dei dati. Il monitoraggio della qualità dei dati è la pratica di rivisitare i set di dati con punteggi precedenti e rivalutarli in base alle sei dimensioni della qualità dei dati. Molti analisti di dati utilizzano una dashboard di controllo della qualità dei dati per visualizzare e monitorare i KPI sulla qualità dei dati.

Convalida in batch e in tempo reale

Si tratta dell'implementazione di regole di convalida dei dati in tutte le applicazioni e i tipi di dati su larga scala per garantire che tutti i set di dati aderiscano a standard specifici. Questa operazione può essere eseguita periodicamente come processo batch o in modo continuo e in tempo reale attraverso processi come l'acquisizione dei dati di modifica.

Master Data Management

Il Master Data Management (MDM) è l'atto di creare e mantenere un registro di dati centralizzato a livello di organizzazione in cui tutti i dati vengono catalogati e tracciati. Ciò offre all'organizzazione un'unica posizione per visualizzare e valutare rapidamente i suoi set di dati indipendentemente da dove risiedono i dati o dal loro tipo. Ad esempio, i dati dei clienti, le informazioni sulla supply chain e i dati di marketing risiederebbero tutti in un ambiente MDM.