Integrità dei dati e qualità dei dati: c'è differenza?

Illustrazione di una persona con in mano una chiave davanti a una finestra di sicurezza, circondata da icone che rappresentano il cloud computing e la protezione con password.

In breve, sì. Quando parliamo di integrità dei dati, ci riferiamo alla completezza, alla precisione, alla coerenza, all'accessibilità e alla sicurezza generali dei dati di un'organizzazione. Insieme, questi fattori determinano l'affidabilità dei dati dell'organizzazione. La qualità dei dati utilizza tali criteri per misurare il livello di integrità dei dati e, a sua volta, la loro affidabilità e applicabilità per l'uso previsto. La qualità dei dati e l'integrità sono fondamentali per un'organizzazione basata sui dati che utilizza gli analytics per le decisioni aziendali, offre accesso ai dati self-service per gli stakeholder interni e fornisce offerte di dati ai clienti.

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Integrità dei dati

Per raggiungere un elevato livello di integrità dei dati, un'organizzazione implementa processi, regole e standard che regolano il modo in cui i dati vengono raccolti, memorizzati, consultati, modificati e utilizzati. Questi processi, regole e standard lavorano in tandem per:

  • Convalidare dati e input
  • Rimuovere i dati duplicati
  • Fornire data backup e garantire la continuità aziendale
  • Salvaguardare i dati tramite controlli di accesso
  • Mantenere una traccia di controllo per la responsabilità e la conformità

Un'organizzazione può utilizzare qualsiasi numero di strumenti e ambienti cloud privati o pubblici durante tutto il ciclo di vita dei dati per mantenere l'integrità dei dati attraverso una cosiddetta governance dei dati. Questa è la pratica di creare, aggiornare e applicare in modo coerente i processi, le regole e gli standard che prevengono errori, perdita di dati, danneggiamento dei dati, cattiva gestione di dati sensibili o regolamentati e violazioni dei dati.

I benefici dell'integrità dei dati

Un'organizzazione con un elevato livello di integrità dei dati può:

  • Aumentare la probabilità e la velocità di recupero dei dati in caso di violazione o tempi di inattività non pianificati
  • Proteggere da accessi non autorizzati e modifiche dei dati
  • Raggiungere e mantenere la conformità in modo più efficace

Una buona integrità dei dati può anche migliorare i risultati delle decisioni aziendali aumentando l'accuratezza degli analytics di un'organizzazione. Quanto più un set di dati è completo, accurato e coerente, tanto più informati diventano i processi aziendali e la business intelligence. Di conseguenza, i leader sono meglio attrezzati per fissare e raggiungere obiettivi a beneficio della loro organizzazione e aumentare la fiducia di dipendenti e consumatori.

Anche le attività di data science come il machine learning traggono grande beneficio da una buona integrità dei dati. Quando un modello di machine learning sottostante viene addestrato su record di dati affidabili e accurati, migliore sarà il modello nel fare previsioni aziendali o automatizzare le attività.

I diversi tipi di integrità dei dati

Ci sono due categorie principali di integrità dei dati: integrità fisica dei dati e integrità logica dei dati.

L'integrità fisica dei dati è la protezione della completezza dei dati (il che significa che nei dati non mancano informazioni importanti), dell'accessibilità e della precisione mentre i dati sono memorizzati o in transito. Disastri naturali, interruzioni di corrente, errori umani e attacchi informatici rappresentano un rischio per l'integrità fisica dei dati.

L'integrità logica dei dati si riferisce alla protezione della coerenza e della completezza dei dati durante l'accesso da parte di diversi stakeholder e applicazioni tra reparti, discipline e sedi. L'integrità logica dei dati si ottiene:

  • Prevenendo la duplicazione (integrità dell'entità)
  • Stabilendo come i dati vengono memorizzati e utilizzati (integrità referenziale)
  • Conservando i dati in un formato accettabile (integrità del dominio)
  • Garantendo che i dati soddisfino le esigenze uniche dell'organizzazione o del settore di appartenenza (integrità definita dall'utente)

In che modo l'integrità dei dati differisce dalla sicurezza dei dati

La sicurezza dei dati è una sottocomponente dell'integrità dei dati e si riferisce alle misure adottate per impedire l'accesso ai dati o la manipolazione non autorizzati dei dati. Protocolli e strumenti efficaci per la sicurezza dei dati contribuiscono a garantire una forte integrità dei dati. In altre parole, la sicurezza dei dati è il mezzo mentre l'integrità dei dati è l'obiettivo. La recuperabilità dei dati – in caso di violazione, attacco, interruzione di corrente o interruzione del servizio – rientra nel campo della sicurezza dei dati.

Le conseguenze di una scarsa integrità dei dati

Errori umani, errori di trasferimento, atti dolosi, sicurezza insufficiente e malfunzionamenti hardware contribuiscono tutti a "dati errati", che influiscono negativamente sull'integrità dei dati di un'organizzazione. Un'organizzazione alle prese con uno o più di questi problemi rischia di riscontrare:

Scarsa qualità dei dati

I dati di bassa qualità portano a un processo decisionale inadeguato a causa di analytics imprecisi e disinformati. La ridotta qualità dei dati può comportare perdite di produttività, calo dei ricavi e danni alla reputazione.

Sicurezza dei dati insufficiente

I dati che non sono adeguatamente protetti sono esposti a un rischio maggiore di violazione dei dati o di essere persi a causa di un disastro naturale o di altri eventi non pianificati. E senza insight e controllo adeguati sulla sicurezza dei dati, un'organizzazione può non essere più conforme alle normative locali, regionali e globali, come il Regolamento generale sulla protezione dei dati dell'Unione europea.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Qualità dei dati

La qualità dei dati è essenzialmente la misura dell'integrità dei dati. La precisione, la completezza, la coerenza, la validità, l'unicità e la tempestività di un set di dati sono le misure di qualità dei dati utilizzate dalle organizzazioni per determinare l'utilità e l'efficacia dei dati per un determinato caso d'uso aziendale.

Come determinare la qualità dei dati

Gli analisti della qualità dei dati valuteranno un set di dati utilizzando le dimensioni sopra elencate e assegneranno un punteggio complessivo. Quando i dati sono ai primi posti in ogni dimensione, sono considerati dati di alta qualità affidabili e degni di fiducia per il caso d'uso o l'applicazione previsti. Per misurare e mantenere dati di alta qualità, le organizzazioni utilizzano regole di qualità dei dati, note anche come regole di convalida dei dati, per garantire che i set di dati soddisfino i criteri definiti dall'organizzazione.

I benefici della buona qualità dei dati

Miglioramento dell'efficienza

Gli utenti business e i data scientist non devono perdere tempo a localizzare o formattare i dati su sistemi eterogenei. Invece, possono accedere e analizzare facilmente i set di dati con maggiore sicurezza. Si risparmia tempo aggiuntivo che altrimenti sarebbe stato sprecato agendo su dati incompleti o imprecisi.

Aumento del valore dei dati

Poiché i dati sono formattati in modo coerente e contestualizzato per l'utente o l'applicazione, le organizzazioni possono ricavare valore da dati che altrimenti potrebbero essere stati scartati o ignorati.

Migliore collaborazione e migliore processo decisionale

I dati di alta qualità eliminano le incongruenze tra sistemi e reparti e garantiscono dati coerenti tra processi e procedure. La collaborazione e il processo decisionale tra stakeholder sono migliorati perché tutti si basano sugli stessi dati.

Riduzione dei costi e miglioramento della conformità normativa

I dati di alta qualità sono facili da trovare e da consultare. Poiché non è necessario ricreare o rintracciare i set di dati, i costi di manodopera sono ridotti e gli errori di immissione manuale dei dati diventano meno probabili. E poiché i dati di alta qualità sono facili da memorizzare nell'ambiente corretto e da raccogliere e compilare in report obbligatori, un'organizzazione può garantire meglio la conformità ed evitare sanzioni normative.

Miglioramento dell’esperienza del cliente e dei dipendenti

I dati di alta qualità forniscono insight più approfonditi e precisi che un'organizzazione può utilizzare per fornire un'esperienza più personalizzata e di impatto per dipendenti e clienti.

Le sei dimensioni della qualità dei dati

Per determinare la qualità dei dati e assegnare un punteggio complessivo, gli analisti valutano un set di dati utilizzando queste sei dimensioni, note anche come caratteristiche dei dati:

  1. Precisione: i dati sono dimostrabilmente corretti e riflettono le conoscenze del mondo reale?
  2. Completezza: i dati comprendono tutte le informazioni pertinenti e disponibili? Ci sono elementi di dati mancanti o campi vuoti?
  3. Coerenza: i valori dei dati corrispondenti corrispondono in tutte le posizioni e gli ambienti?
  4. Validità: i dati vengono raccolti nel formato corretto per l'uso previsto?
  5. Unicità: i dati sono duplicati o si sovrappongono ad altri dati?
  6. Tempestività: i dati sono aggiornati e prontamente disponibili quando necessario?

Più alto è il punteggio di un set di dati in ognuna di queste dimensioni, maggiore è il suo punteggio complessivo. Un punteggio complessivo elevato indica che un set di dati è affidabile, facilmente accessibile e pertinente.

Come migliorare la qualità dei dati

Alcuni metodi e iniziative comuni utilizzati dalle organizzazioni per migliorare la qualità dei dati includono:

Profilazione dei dati

La profilazione dei dati, nota anche come valutazione della qualità dei dati, è il processo di verifica dei dati di un'organizzazione nel loro stato attuale. Questo viene fatto per scoprire errori, imprecisioni, lacune, dati incoerenti, duplicazioni e barriere di accessibilità. È possibile utilizzare numerosi strumenti per la qualità dei dati per profilare i set di dati e rilevare anomalie nei dati che necessitano di correzione.

Pulizia dei dati

La pulizia dei dati è il processo di correzione dei problemi di qualità dei dati e delle incoerenze rilevati durante la profilazione dei dati. Ciò include la deduplicazione dei set di dati, in modo che non esistano involontariamente più voci di dati in più posizioni.

Standardizzazione dei dati

Si tratta del processo di conformità di asset di dati eterogenei e big data non strutturati in un formato coerente che garantisca che i dati siano completi e pronti per l'uso, indipendentemente dalla fonte dei dati. Per standardizzare i dati, vengono applicate business rules per garantire che i set di dati siano conformi agli standard e alle esigenze di un'organizzazione.

Geocodifica

La geocodifica è il processo di aggiunta di metadati sulla posizione ai set di dati di un'organizzazione. Etichettando i dati con coordinate geografiche per tracciare da dove provengono, dove sono stati e dove risiedono, un'organizzazione può garantire il rispetto degli standard nazionali e globali in materia di dati geografici. Ad esempio, i metadati geografici possono aiutare un'organizzazione a garantire che la gestione dei dati dei clienti sia conforme al GDPR.

Corrispondenza o collegamento

Questo è il metodo per identificare, unire e risolvere i dati duplicati o ridondanti.

Monitoraggio della qualità dei dati

Il mantenimento di una buona qualità dei dati richiede una gestione continua della qualità dei dati. Il monitoraggio della qualità dei dati è la pratica di rivisitare i set di dati con punteggi precedenti e rivalutarli in base alle sei dimensioni della qualità dei dati. Molti analisti di dati utilizzano una dashboard di controllo della qualità dei dati per visualizzare e monitorare i KPI sulla qualità dei dati.

Convalida in batch e in tempo reale

Si tratta dell'implementazione di regole di convalida dei dati in tutte le applicazioni e i tipi di dati su larga scala per garantire che tutti i set di dati aderiscano a standard specifici. Questa operazione può essere eseguita periodicamente come processo batch o in modo continuo e in tempo reale attraverso processi come l'acquisizione dei dati di modifica.

Master Data Management

Il Master Data Management (MDM) è l'atto di creare e mantenere un registro di dati centralizzato a livello di organizzazione in cui tutti i dati vengono catalogati e tracciati. Ciò offre all'organizzazione un'unica posizione per visualizzare e valutare rapidamente i suoi set di dati indipendentemente da dove risiedono i dati o dal loro tipo. Ad esempio, i dati dei clienti, le informazioni sulla supply chain e i dati di marketing risiederebbero tutti in un ambiente MDM.

Integrità dei dati, qualità dei dati e IBM

IBM offre un'ampia gamma di funzionalità integrate di qualità dei dati e governance dei dati, tra cui profilazione dei dati, pulizia dei dati, monitoraggio dei dati, abbinamento dei dati e arricchimento dei dati per garantire che i consumatori di dati abbiano accesso a dati affidabili e di alta qualità. La soluzione di governance dei dati di IBM aiuta le organizzazioni a stabilire una base automatizzata, basata sui metadati che assegna punteggi di qualità dei dati agli asset e migliora la cura tramite regole di automazione pronte all'uso per semplificare la gestione della qualità dei dati.

Con le funzionalità di osservabilità dei dati, IBM può aiutare le organizzazioni a rilevare e risolvere più rapidamente i problemi all'interno delle pipeline di dati. La partnership con Manta per le funzionalità di data lineage automatizzate consente a IBM di aiutare i clienti a trovare, tracciare e prevenire i problemi più vicini alla fonte.

Soluzioni correlate
IBM StreamSets

Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.

Esplora StreamSets
IBM watsonx.data™

Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Esplora le soluzioni di gestione dei dati Scopri watsonx.data