Power the agentic enterprise Guarda il Think Keynote

Cos'è la qualità dei dati?

Cos'è la qualità dei dati?

La qualità dei dati stabilisce in che misura un set di dati soddisfa i criteri di precisione, completezza, validità, coerenza, unicità, tempestività e idoneità allo scopo ed è fondamentale per tutte le iniziative di governance dei dati all'interno di un'organizzazione.

Gli standard di qualità dei dati garantiscono che le aziende prendano decisioni basate sui dati per raggiungere i propri obiettivi aziendali. Se i problemi relativi ai dati, come dati duplicati, missing values e outlier, non vengono risolti correttamente, le aziende aumentano il rischio di risultati aziendali negativi. Secondo un report di Gartner, una scarsa qualità dei dati costa alle organizzazioni una media di 12,9 milioni di dollari all'anno 1. Proprio per questo motivo, sono emersi strumenti di qualità dei dati per mitigare l'impatto negativo associato alla scarsa qualità dei dati.

Quando la qualità dei dati rispetta lo standard per l'uso previsto, i consumatori di dati possono fidarsi dei dati. Questa fiducia consente loro di migliorare il processo decisionale e consente nuove strategie aziendali o l'ottimizzazione di quelle già adottate. Tuttavia, quando uno standard non viene soddisfatto, gli strumenti di qualità dei dati forniscono valore aiutando le aziende a diagnosticare i problemi di fondo dei dati. Un'analisi delle cause principali consente ai team di risolvere i problemi di qualità dei dati in modo rapido ed efficace.

La qualità dei dati non è una priorità solo per le operazioni aziendali quotidiane. Man mano che le aziende integrano nei workflow tecnologie di intelligenza artificiale (AI) e automazione, dati di alta qualità saranno fondamentali per l'adozione efficace di questi strumenti. Come dice il vecchio proverbio, "garbage in, garbage out", ovvero dati sbagliati producono risultati sbagliati, e questo principio vale anche per gli algoritmi di machine learning. Se l'algoritmo sta imparando a prevedere o classificare in base a dati errati, la conseguenza sarà la produzione di risultati imprecisi.

Qualità dei dati a confronto con integrità dei dati e profilazione dei dati

La qualità dei dati, l'integrità dei dati e la profilazione dei dati sono tutte interconnesse. La qualità dei dati è una categoria più ampia di criteri che le organizzazioni utilizzano per valutare i dati in termini di precisione, completezza, validità, coerenza, unicità, tempestività e idoneità allo scopo.

L'integrità dei dati è incentrata su un sottoinsieme di questi attributi, in particolare precisione, coerenza e completezza. Inoltre, si incentra su questo concetto maggiormente dal punto di vista della sicurezza dei dati, implementando misure di protezione per prevenire la corruzione dei dati da parte di attori malintenzionati.

La profilazione dei dati, al contrario, è incentrata sul processo di revisione e pulizia dei dati per mantenere gli standard di qualità dei dati all'interno di un'organizzazione. Questa pratica può comprendere anche la tecnologia che supporta questi processi.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Dimensioni della qualità dei dati

La qualità dei dati viene valutata in base a diverse dimensioni, che possono variare a seconda della fonte delle informazioni. Queste dimensioni vengono utilizzate per categorizzare le metriche della qualità dei dati:

  • Completezza: questa metrica rappresenta la quantità di dati utilizzabili o completi. Se è presente un'elevata percentuale di valori mancanti, l'analisi può risultare distorta o fuorviante se i dati non sono rappresentativi di un campione tipico.
  • Unicità: questa misura tiene conto della quantità di dati duplicati in un set di dati. Ad esempio, quando si esaminano le recensioni dei clienti, ci si deve attendere che ogni cliente abbia un ID cliente specifico.
  • Validità: questa dimensione misura la quantità di dati che corrispondono al formato richiesto per qualsiasi business rules. In genere, la formattazione include metadati, come tipi di dati validi, intervalli, modelli e altro ancora.
  • Tempestività: questa dimensione si riferisce alla disponibilità dei dati in un arco di tempo previsto. Ad esempio, i clienti si aspettano di ricevere un numero d'ordine immediatamente dopo aver effettuato un acquisto e quei dati devono essere generati in tempo reale.
  • Precisione: questa dimensione si riferisce alla correttezza dei valori dei dati in base alla "fonte di verità" concordata. Poiché possono essere presenti più fonti che forniscono valori diversi per la stessa metrica, è importante designare una fonte di dati principale. Altre fonti di dati possono quindi essere utilizzate per confermare la precisione di quella principale. Ad esempio, gli strumenti possono verificare che ogni fonte di dati mostri una tendenza nella stessa direzione per rafforzare la fiducia nella precisione dei dati.
  • Coerenza: questa dimensione valuta i record di dati provenienti da due set di dati diversi. Come accennato in precedenza, è possibile individuare più fonti per generare rapporti per una singola metrica. L'utilizzo di diverse fonti per verificare tendenze e comportamenti coerenti dei dati consente alle organizzazioni di affidarsi a tutti gli insight fruibili derivanti dalle loro analisi. Questa logica può essere applicata anche alle relazioni tra dati. Ad esempio, il numero di dipendenti in un reparto non deve superare il numero totale di dipendenti in un'azienda.
  • Idoneità allo scopo: infine, l'idoneità allo scopo aiuta a garantire che l'asset di dati soddisfi un'esigenza aziendale. Questa dimensione può essere difficile da valutare, soprattutto con nuovi set di dati emergenti. Queste metriche aiutano i team a condurre valutazioni della qualità dei dati in tutte le loro organizzazioni per stimare in che misura i dati siano informativi e utili per uno scopo specifico.

Queste metriche aiutano i team a condurre valutazioni della qualità dei dati in tutte le loro organizzazioni per stimare in che misura i dati siano informativi e utili per uno scopo specifico.rì

Perché la qualità dei dati è importante?

Negli ultimi dieci anni, gli sviluppi nell'ambito dell'hybrid cloud, dell'intelligenza artificiale, dell'Internet of Things (IoT) e dell'edge computing hanno portato alla crescita esponenziale dei big data. Di conseguenza, la pratica della gestione dei dati principale (MDM) è diventata più complessa, poiché richiede più amministratori dei dati e garanzie rigorose per assicurare una buona qualità dei dati stessi.

Le aziende si affidano alla gestione della qualità dei dati per supportare le iniziative di analytics dei dati, come le dashboard di business intelligence. Senza questa supervisione, possono esserci conseguenze devastanti, anche di tipo etico, a seconda del settore (ad esempio, quello sanitario). Le soluzioni per la qualità dei dati aiutano le aziende a massimizzare l'uso dei propri dati e hanno portato a vantaggi fondamentali, come:

  • Migliori decisioni aziendali: dati di alta qualità consentono alle organizzazioni di individuare gli indicatori chiave di prestazione (KPI) per misurare le prestazioni di diversi programmi, consentendo ai team di migliorarli o farli crescere in modo più efficace. Le organizzazioni che attribuiscono priorità alla qualità dei dati avranno senza dubbio un vantaggio rispetto ai concorrenti.
  • Processi aziendali migliorati: dati di buona qualità significano anche che i team possono individuare dove si verificano interruzioni dei workflow operativi. Questo requisito vale per il settore della supply chain, che si basa su dati in tempo reale per determinare l'inventario appropriato e la posizione dopo la spedizione.
  • Aumento della soddisfazione dei clienti: un'elevata qualità dei dati consente alle organizzazioni, in particolare ai team di marketing e di vendita, di acquisire incredibili insight sugli acquirenti target. Possono integrare diversi dati nel funnel di vendita e marketing, dunque possono vendere i loro prodotti in modo più efficace. Ad esempio, la combinazione di dati demografici e comportamento sul web può dare alle organizzazioni le indicazioni più utili su come creare messaggi, investire il budget di marketing o assegnare personale ai team di vendita per servire i clienti già acquisiti o potenziali.
Techsplainers | Podcast

Ascolta: Cos'è la qualità dei dati?

Segui Techsplainers su Spotify e Apple Podcasts.

Rendering 3D di una spirale di diverse icone allineate, come una fotocamera, una manopola del volume e una lavagnetta
Soluzioni correlate
IBM StreamSets

Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.

Esplora StreamSets
IBM watsonx.data™

Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

  1. Esplora le soluzioni di gestione dei dati
  2. Scopri watsonx.data