In breve, sì. Quando parliamo di integrità dei dati, ci riferiamo alla completezza, alla precisione, alla coerenza, all'accessibilità e alla sicurezza generali dei dati di un'organizzazione. Insieme, questi fattori determinano l'affidabilità dei dati dell'organizzazione. La qualità dei dati utilizza tali criteri per misurare il livello di integrità dei dati e, a sua volta, la loro affidabilità e applicabilità per l'uso previsto. La qualità dei dati e l'integrità sono fondamentali per un'organizzazione basata sui dati che utilizza gli analytics per le decisioni aziendali, offre accesso ai dati self-service per gli stakeholder interni e fornisce offerte di dati ai clienti.
Newsletter di settore
Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.
L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.
Per raggiungere un elevato livello di integrità dei dati, un'organizzazione implementa processi, regole e standard che regolano il modo in cui i dati vengono raccolti, memorizzati, consultati, modificati e utilizzati. Questi processi, regole e standard lavorano in tandem per:
Un'organizzazione può utilizzare qualsiasi numero di strumenti e ambienti cloud privati o pubblici durante tutto il ciclo di vita dei dati per mantenere l'integrità dei dati attraverso una cosiddetta governance dei dati. Questa è la pratica di creare, aggiornare e applicare in modo coerente i processi, le regole e gli standard che prevengono errori, perdita di dati, danneggiamento dei dati, cattiva gestione di dati sensibili o regolamentati e violazioni dei dati.
Un'organizzazione con un elevato livello di integrità dei dati può:
Una buona integrità dei dati può anche migliorare i risultati delle decisioni aziendali aumentando l'accuratezza degli analytics di un'organizzazione. Quanto più un set di dati è completo, accurato e coerente, tanto più informati diventano i processi aziendali e la business intelligence. Di conseguenza, i leader sono meglio attrezzati per fissare e raggiungere obiettivi a beneficio della loro organizzazione e aumentare la fiducia di dipendenti e consumatori.
Anche le attività di data science come il machine learning traggono grande beneficio da una buona integrità dei dati. Quando un modello di machine learning sottostante viene addestrato su record di dati affidabili e accurati, migliore sarà il modello nel fare previsioni aziendali o automatizzare le attività.
Ci sono due categorie principali di integrità dei dati: integrità fisica dei dati e integrità logica dei dati.
L'integrità fisica dei dati è la protezione della completezza dei dati (il che significa che nei dati non mancano informazioni importanti), dell'accessibilità e della precisione mentre i dati sono memorizzati o in transito. Disastri naturali, interruzioni di corrente, errori umani e attacchi informatici rappresentano un rischio per l'integrità fisica dei dati.
L'integrità logica dei dati si riferisce alla protezione della coerenza e della completezza dei dati durante l'accesso da parte di diversi stakeholder e applicazioni tra reparti, discipline e sedi. L'integrità logica dei dati si ottiene:
La sicurezza dei dati è una sottocomponente dell'integrità dei dati e si riferisce alle misure adottate per impedire l'accesso ai dati o la manipolazione non autorizzati dei dati. Protocolli e strumenti efficaci per la sicurezza dei dati contribuiscono a garantire una forte integrità dei dati. In altre parole, la sicurezza dei dati è il mezzo mentre l'integrità dei dati è l'obiettivo. La recuperabilità dei dati – in caso di violazione, attacco, interruzione di corrente o interruzione del servizio – rientra nel campo della sicurezza dei dati.
Errori umani, errori di trasferimento, atti dolosi, sicurezza insufficiente e malfunzionamenti hardware contribuiscono tutti a "dati errati", che influiscono negativamente sull'integrità dei dati di un'organizzazione. Un'organizzazione alle prese con uno o più di questi problemi rischia di riscontrare:
I dati di bassa qualità portano a un processo decisionale inadeguato a causa di analytics imprecisi e disinformati. La ridotta qualità dei dati può comportare perdite di produttività, calo dei ricavi e danni alla reputazione.
I dati che non sono adeguatamente protetti sono esposti a un rischio maggiore di violazione dei dati o di essere persi a causa di un disastro naturale o di altri eventi non pianificati. E senza insight e controllo adeguati sulla sicurezza dei dati, un'organizzazione può non essere più conforme alle normative locali, regionali e globali, come il Regolamento generale sulla protezione dei dati dell'Unione europea.
La qualità dei dati è essenzialmente la misura dell'integrità dei dati. La precisione, la completezza, la coerenza, la validità, l'unicità e la tempestività di un set di dati sono le misure di qualità dei dati utilizzate dalle organizzazioni per determinare l'utilità e l'efficacia dei dati per un determinato caso d'uso aziendale.
Gli analisti della qualità dei dati valuteranno un set di dati utilizzando le dimensioni sopra elencate e assegneranno un punteggio complessivo. Quando i dati sono ai primi posti in ogni dimensione, sono considerati dati di alta qualità affidabili e degni di fiducia per il caso d'uso o l'applicazione previsti. Per misurare e mantenere dati di alta qualità, le organizzazioni utilizzano regole di qualità dei dati, note anche come regole di convalida dei dati, per garantire che i set di dati soddisfino i criteri definiti dall'organizzazione.
Gli utenti business e i data scientist non devono perdere tempo a localizzare o formattare i dati su sistemi eterogenei. Invece, possono accedere e analizzare facilmente i set di dati con maggiore sicurezza. Si risparmia tempo aggiuntivo che altrimenti sarebbe stato sprecato agendo su dati incompleti o imprecisi.
Poiché i dati sono formattati in modo coerente e contestualizzato per l'utente o l'applicazione, le organizzazioni possono ricavare valore da dati che altrimenti potrebbero essere stati scartati o ignorati.
I dati di alta qualità eliminano le incongruenze tra sistemi e reparti e garantiscono dati coerenti tra processi e procedure. La collaborazione e il processo decisionale tra stakeholder sono migliorati perché tutti si basano sugli stessi dati.
I dati di alta qualità sono facili da trovare e da consultare. Poiché non è necessario ricreare o rintracciare i set di dati, i costi di manodopera sono ridotti e gli errori di immissione manuale dei dati diventano meno probabili. E poiché i dati di alta qualità sono facili da memorizzare nell'ambiente corretto e da raccogliere e compilare in report obbligatori, un'organizzazione può garantire meglio la conformità ed evitare sanzioni normative.
I dati di alta qualità forniscono insight più approfonditi e precisi che un'organizzazione può utilizzare per fornire un'esperienza più personalizzata e di impatto per dipendenti e clienti.
Per determinare la qualità dei dati e assegnare un punteggio complessivo, gli analisti valutano un set di dati utilizzando queste sei dimensioni, note anche come caratteristiche dei dati:
Più alto è il punteggio di un set di dati in ognuna di queste dimensioni, maggiore è il suo punteggio complessivo. Un punteggio complessivo elevato indica che un set di dati è affidabile, facilmente accessibile e pertinente.
Alcuni metodi e iniziative comuni utilizzati dalle organizzazioni per migliorare la qualità dei dati includono:
La profilazione dei dati, nota anche come valutazione della qualità dei dati, è il processo di verifica dei dati di un'organizzazione nel loro stato attuale. Questo viene fatto per scoprire errori, imprecisioni, lacune, dati incoerenti, duplicazioni e barriere di accessibilità. È possibile utilizzare numerosi strumenti per la qualità dei dati per profilare i set di dati e rilevare anomalie nei dati che necessitano di correzione.
La pulizia dei dati è il processo di correzione dei problemi di qualità dei dati e delle incoerenze rilevati durante la profilazione dei dati. Ciò include la deduplicazione dei set di dati, in modo che non esistano involontariamente più voci di dati in più posizioni.
Si tratta del processo di conformità di asset di dati eterogenei e big data non strutturati in un formato coerente che garantisca che i dati siano completi e pronti per l'uso, indipendentemente dalla fonte dei dati. Per standardizzare i dati, vengono applicate business rules per garantire che i set di dati siano conformi agli standard e alle esigenze di un'organizzazione.
La geocodifica è il processo di aggiunta di metadati sulla posizione ai set di dati di un'organizzazione. Etichettando i dati con coordinate geografiche per tracciare da dove provengono, dove sono stati e dove risiedono, un'organizzazione può garantire il rispetto degli standard nazionali e globali in materia di dati geografici. Ad esempio, i metadati geografici possono aiutare un'organizzazione a garantire che la gestione dei dati dei clienti sia conforme al GDPR.
Questo è il metodo per identificare, unire e risolvere i dati duplicati o ridondanti.
Il mantenimento di una buona qualità dei dati richiede una gestione continua della qualità dei dati. Il monitoraggio della qualità dei dati è la pratica di rivisitare i set di dati con punteggi precedenti e rivalutarli in base alle sei dimensioni della qualità dei dati. Molti analisti di dati utilizzano una dashboard di controllo della qualità dei dati per visualizzare e monitorare i KPI sulla qualità dei dati.
Si tratta dell'implementazione di regole di convalida dei dati in tutte le applicazioni e i tipi di dati su larga scala per garantire che tutti i set di dati aderiscano a standard specifici. Questa operazione può essere eseguita periodicamente come processo batch o in modo continuo e in tempo reale attraverso processi come l'acquisizione dei dati di modifica.
Il Master Data Management (MDM) è l'atto di creare e mantenere un registro di dati centralizzato a livello di organizzazione in cui tutti i dati vengono catalogati e tracciati. Ciò offre all'organizzazione un'unica posizione per visualizzare e valutare rapidamente i suoi set di dati indipendentemente da dove risiedono i dati o dal loro tipo. Ad esempio, i dati dei clienti, le informazioni sulla supply chain e i dati di marketing risiederebbero tutti in un ambiente MDM.
IBM offre un'ampia gamma di funzionalità integrate di qualità dei dati e governance dei dati, tra cui profilazione dei dati, pulizia dei dati, monitoraggio dei dati, abbinamento dei dati e arricchimento dei dati per garantire che i consumatori di dati abbiano accesso a dati affidabili e di alta qualità. La soluzione di governance dei dati di IBM aiuta le organizzazioni a stabilire una base automatizzata, basata sui metadati che assegna punteggi di qualità dei dati agli asset e migliora la cura tramite regole di automazione pronte all'uso per semplificare la gestione della qualità dei dati.
Con le funzionalità di osservabilità dei dati, IBM può aiutare le organizzazioni a rilevare e risolvere più rapidamente i problemi all'interno delle pipeline di dati. La partnership con Manta per le funzionalità di data lineage automatizzate consente a IBM di aiutare i clienti a trovare, tracciare e prevenire i problemi più vicini alla fonte.
Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.
Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.
Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.