My IBM Accedi Iscriviti

Home

topics

Qualità dei dati

Cos'è la qualità dei dati?

Cos'è la qualità dei dati?

Esplora la soluzione IBM per la qualità dei dati Iscriviti per ricevere gli aggiornamenti sull'AI
 Illustrazione con collage di pittogrammi di cloud, grafici a torta, pittogrammi grafici su quanto segue
Cos'è la qualità dei dati?

Cos'è la qualità dei dati?

La qualità dei dati stabilisce in che misura un set di dati soddisfa i criteri di accuratezza, completezza, validità, coerenza, unicità, tempestività e idoneità allo scopo ed è fondamentale per tutte le iniziative di governance dei dati all'interno di un'organizzazione.

Gli standard di qualità dei dati garantiscono che le aziende prendano decisioni basate sui dati per raggiungere i propri obiettivi aziendali. Se i problemi relativi ai dati, come dati duplicati, missing values e outlier, non vengono risolti correttamente, le aziende aumentano il rischio di risultati aziendali negativi. Secondo un report di Gartner, una scarsa qualità dei dati costa alle organizzazioni una media di 12,9 milioni di dollari all'anno 1. Proprio per questo motivo, sono emersi strumenti di qualità dei dati per mitigare l'impatto negativo associato alla scarsa qualità dei dati.

Quando la qualità dei dati soddisfa gli standard per l'uso previsto, i consumatori di dati possono fidarsi dei dati e sfruttarli per migliorare il processo decisionale, portando allo sviluppo di nuove strategie aziendali o all'ottimizzazione di quelle esistenti. Tuttavia, quando uno standard non viene soddisfatto, gli strumenti di qualità dei dati forniscono un valore aggiunto aiutando le aziende a diagnosticare i problemi di fondo dei dati. Un'analisi delle cause principali consente ai team di risolvere i problemi di qualità dei dati in modo rapido ed efficace.

La qualità dei dati non è solo una priorità per le operazioni aziendali quotidiane: man mano che le aziende integrano le tecnologie di intelligenza artificiale (AI) e di automazione nei loro flussi di lavoro, i dati di alta qualità saranno fondamentali per l'adozione efficace di questi strumenti. Come dice il vecchio detto: "garbage in, garbage out". E questo vale anche per gli algoritmi di apprendimento automatico. Se l'algoritmo sta imparando a prevedere o classificare in base a dati errati, possiamo aspettarci che produca risultati imprecisi.

 

Crea flussi di lavoro AI responsabili con la governance AI

Scopri gli elementi costitutivi e le best practice per aiutare i tuoi team ad accelerare l’AI responsabile.

Contenuti correlati Leggi la guida per i responsabili dei dati
Qualità dei dati, integrità dei dati e profilazione dei dati

Qualità dei dati, integrità dei dati e profilazione dei dati

La qualità, l'integrità e la profilazione dei dati sono tutte correlate tra loro. La qualità dei dati è una categoria più ampia di criteri che le organizzazioni utilizzano per valutare l'accuratezza, la completezza, la validità, la coerenza, l'unicità, la tempestività e l'idoneità allo scopo dei loro dati. L'integrità dei dati si concentra solo su un sottoinsieme di questi attributi, in particolare accuratezza, coerenza e completezza. Inoltre, si concentra maggiormente su questo aspetto dal punto di vista della sicurezza dei dati, implementando misure di protezione per prevenire la corruzione dei dati da parte di soggetti malintenzionati.

La profilazione dei dati, invece, si concentra sul processo di revisione e pulizia dei dati per mantenere gli standard di qualità dei dati all'interno di un'organizzazione. Ciò può comprendere anche la tecnologia che supporta questi processi.

Dimensioni della qualità dei dati

Dimensioni della qualità dei dati

La qualità dei dati viene valutata in base a diverse dimensioni, che possono variare a seconda della fonte delle informazioni. Queste dimensioni vengono utilizzate per categorizzare le metriche della qualità dei dati:

  • Completezza: rappresenta la quantità di dati utilizzabili o completi. Un'alta percentuale di valori mancanti (missing values) può portare a un'analisi distorta o fuorviante se i dati non sono rappresentativi di un campione tipico.
  • Unicità: questo aspetto riguarda la quantità di dati duplicati in un set di dati. Ad esempio, quando si esaminano i dati dei clienti, ci si dovrebbe aspettare che ogni cliente abbia un ID cliente univoco.
  •  Validità: questa dimensione misura la quantità di dati che corrispondono al formato richiesto per qualsiasi business rules. La formattazione include in genere i metadati, ad esempio tipi di dati validi, intervalli, modelli e altro ancora.
  • Tempestività: questa dimensione si riferisce alla disponibilità dei dati in un arco di tempo previsto. Ad esempio, i clienti si aspettano di ricevere un numero d'ordine subito dopo aver effettuato un acquisto e che i dati devono essere generati in tempo reale.
  • Accuratezza: questa dimensione si riferisce alla correttezza dei valori dei dati in base alla "fonte affidabile" concordata. Poiché possono esserci più fonti che riportano la stessa metrica, è importante designare una fonte di dati primaria; altre fonti di dati possono essere utilizzate per confermare l'accuratezza di quella primaria. Ad esempio, gli strumenti possono verificare che ogni fonte di dati abbia una tendenza nella stessa direzione per rafforzare la fiducia nell'accuratezza dei dati.
  • Coerenza: questa dimensione valuta i record di dati provenienti da due serie di dati diverse. Come accennato in precedenza, è possibile identificare più fonti per generare rapporti su una singola metrica. L'utilizzo di diverse fonti per verificare tendenze e comportamenti coerenti dei dati consente alle organizzazioni di affidarsi a tutte le informazioni fruibili derivanti dalle loro analisi. Questa logica può essere applicata anche alle relazioni tra dati. Ad esempio, il numero di dipendenti in un reparto non deve superare il numero totale di dipendenti in un'azienda.
  • Idoneità allo scopo: infine, l'idoneità allo scopo aiuta a garantire che l'asset di dati soddisfi un'esigenza aziendale. Questa dimensione può essere difficile da valutare, in particolare con i nuovi set di dati emergenti.                                                                                                          

Queste metriche aiutano i team a condurre valutazioni della qualità dei dati all'interno delle loro organizzazioni per valutare il livello di informazione e utilità dei dati per un determinato scopo.

Perché la qualità dei dati è importante?

Perché la qualità dei dati è importante?

Nell'ultimo decennio, gli sviluppi nell'ambito del cloud ibrido, dell'intelligenza artificiale, dell'Internet of Things (IoT) e dell'edge computing hanno portato a una crescita esponenziale dei big data. Di conseguenza, la pratica del master data management (MDM) è diventata più complessa e richiede più amministratori dei dati e garanzie rigorose per assicurare una buona qualità dei dati.

Le aziende si affidano alla gestione della qualità dei dati per supportare le loro iniziative di analisi dei dati, come le dashboard di business intelligence. In caso contrario, le conseguenze possono essere devastanti, anche dal punto di vista etico, a seconda del settore (ad esempio, quello sanitario). Le soluzioni per la qualità dei dati servono ad aiutare le aziende a massimizzare l'uso dei propri dati e hanno apportato vantaggi chiave, come:

  • Migliori decisioni aziendali: dati di alta qualità consentono alle organizzazioni di identificare gli indicatori chiave di prestazione (KPI) per misurare le prestazioni di vari programmi, il che consente ai team di migliorarli o farli crescere in modo più efficace. Le organizzazioni che danno priorità alla qualità dei dati avranno senza dubbio un vantaggio rispetto ai loro concorrenti.
  • Miglioramento dei processi aziendali: la disponibilità di dati validi consente inoltre ai team di individuare le interruzioni nei flussi di lavoro operativi. Ciò è particolarmente vero per il settore della supply chain, che si basa su dati in tempo reale per determinare l'inventario appropriato e la relativa ubicazione dopo la spedizione.
  • Aumento della soddisfazione dei clienti: un'elevata qualità dei dati fornisce alle organizzazioni, in particolare ai team di marketing e di vendita, un'incredibile conoscenza dei loro acquirenti target. Possono integrare diversi dati nel funnel di vendita e marketing, il che gli consente di vendere i loro prodotti in modo più efficace. Ad esempio, la combinazione di dati demografici e comportamento sul web può fornire alle organizzazioni preziose informazioni su come creare i propri messaggi, investire il loro budget di marketing o assegnare personale ai loro team di vendita per servire i clienti esistenti o potenziali.
Risorse

Risorse

Governance e privacy dei dati per i responsabili dei dati

Consulta una guida IBM sugli elementi costitutivi della governance e della privacy dei dati.

Tre passaggi per la qualità dei dati e le prestazioni dell'AI

Grazie agli esperti che hanno redatto questa guida, imparerai passo dopo passo come adottare un approccio valoriale alla qualità dei dati e alle pratiche di AI.

Gartner Magic Quadrant™

IBM è stata nominata Leader per il diciottesimo anno consecutivo nel Gartner Magic Quadrant™ 2023 nella categoria Data Integration Tools

Fasi successive

Scala i workload AI per tutti i tuoi dati, ovunque, con IBM watsonx.data, uno storage dei dati adatto allo scopo costruito su un'architettura open data lakehouse.

Esplora watsonx.data Prenota una demo live
Citazione

1 Gartner, "How to Improve Your Data Quality" (link esterno a ibm.com), 14 luglio 2021