Cosa si intende per dati errati?

Definizione di dati errati

I dati errati si riferiscono a informazioni che compromettono il processo decisionale perché sono inaccurate, incomplete, incoerenti, obsolete, duplicate, invalide o distorte.

Le cause di dati errati sono molteplici. A volte il problema deriva da una cattiva architettura dei dati, mentre altre volte è il risultato di un errore umano. Indipendentemente dall'origine, quando le organizzazioni utilizzano involontariamente dati errati, le conseguenze possono variare da piccoli inconvenienti, come l'invio di documenti fiscali all'indirizzo errato, a rischi gravi come la mancata conformità normativa, danni alla reputazione e perdite finanziarie.

Un pericolo unico dei dati errati risiede nella loro invisibilità. A differenza di un'interruzione di sistema, gli effetti dei dati errati possono passare inosservati fino a quando non vengono causati danni significativi. Le organizzazioni possono operare inconsapevolmente su dati errati per anni. Ad esempio, un team di vendita si accorgerebbe immediatamente se la dashboard di Salesforce non si caricasse, ma impiegherebbe molto più tempo a rendersi conto che i dati visualizzati sono errati.

Poiché big data salgono alle stelle e i leader aziendali si affidano sempre più ai dati per potenziare l'intelligenza artificiale (AI) e il processo decisionale, massimizzare la qualità dei dati è più importante che mai. Attraverso una forte governance dei dati, pratiche di gestione della qualità dei dati e strumenti di observability dei dati, le organizzazioni possono contribuire a garantire che i loro asset dati alimentino la crescita invece di diventare passivi invisibili.

Tipi di dati errati

I dati errati possono essere ampiamente categorizzati usando le dimensioni chiave della qualità dei dati:

  • Dati imprecisi
  • Dati incompleti
  • Dati incoerenti
  • Dati obsoleti
  • Dati duplicati
  • Dati non validi
  • Dati distorti

Dati imprecisi

L'accuratezza dei dati misura quanto i dati riflettano eventi e valori reali del mondo reale. Quando i dati sono imprecisi, contengono errori e non sono affidabili per il processo decisionale. Ad esempio, dati dei clienti inaccurati (come dati sui prezzi) possono distorcere la comprensione che un'azienda ha del proprio destinatario e portare ad azioni errate che erodono i tassi di soddisfazione del cliente.

Dati incompleti

Nei dati incompleti mancano i record e i valori necessari, lacune che influiscono sul trattamento dei dati e sull'analisi dei dati. Un ampio divario può persino introdurre distorsioni, poiché i risultati dell'analisi potrebbero non essere rappresentativi del vero set di dati. Ad esempio, se nella maggior parte delle voci di un database dei clienti mancano le informazioni di contatto, i team di vendita perderanno l'opportunità di coinvolgere i propri clienti.

Dati incoerenti

I dati incoerenti mancano di standardizzazione e sono in gran parte incompatibili tra diversi set di dati e sistemi. Le discrepanze nei formati delle date, nelle convenzioni di denominazione e nelle unità di misura possono generare confusione tra gli utenti, creare silos di dati all'interno di piattaforme specifiche e introdurre errori nel reporting o nell'analisi.

Dati obsoleti

I dati obsoleti sono informazioni non più attuali, che possono indurre i responsabili delle decisioni a utilizzare informazioni irrilevanti che non rappresentano le condizioni del mondo reale. La freschezza dei dati è una metrica che indica con quale frequenza le informazioni del database vengono aggiornate. Gli intervalli molto lunghi tra gli aggiornamenti possono causare l'obsolescenza dei dati.

Dati duplicati

I dati duplicati (o ridondanti) si riferiscono a voci ripetute in un set di dati: i dati unici compaiono una sola volta. Può distorcere l'analisi sovrarappresentando determinati valori o tendenze dei dati. (È importante notare che esistono casi d'uso per la ridondanza intenzionale dei dati nella progettazione di database per garantire elevata disponibilitàintegrità e coerenza dei dati.

Dati non validi

Dati non validi sono informazioni che non rispettano regole di sistema o business rules (come intervalli di valori consentiti, formati richiesti e tipi di dati definiti). Esempi includono dati che contengono un carattere speciale non supportato o numeri di telefono formattati senza trattini richiesti.

Dati distorti

Sebbene il bias non sia di per sé una dimensione della qualità dei dati, è un fattore importante da considerare per gli stakeholder poiché influenza diverse delle dimensioni. I dati distorti sono distorti o non rappresentativi degli eventi, delle popolazioni e delle condizioni reali. Può portare a risultati ingiusti, inaccurati e inaffidabili e, quando viene utilizzato nel machine learning (ML) e nei sistemi di AI, può comportare gravi conseguenze per individui, organizzazioni e società.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Qual è l'impatto dei dati errati?

I dati sbagliati sono l'antitesi dei dati buoni. Mentre dati di alta qualità favoriscono crescita e innovazione, dati di scarsa qualità rallentano i progressi.

Le organizzazioni si affidano ai dati per decisioni informate, insight attuabili e previsione per le operazioni interne e per l'esperienza del cliente. Le decisioni basate su dati errati possono portare a opportunità mancate, inefficienze operative e danni alla reputazione. In settori come la finanza o la sanità, dove i dati aiutano a informare decisioni ad alto rischio, i dati errati possono avere impatti gravi o addirittura catastrofici.

Consideriamo uno studio clinico contenente dati dei pazienti incoerenti. I ricercatori avrebbero difficoltà a confrontare i risultati, il che potrebbe ritardare lo sviluppo di potenziali trattamenti. Nel settore finanziario, i dati imprecisi o mancanti possono comportare costi di conformità molto elevati. Rapporti finanziari inaccurati possono portare a violazioni di regolamenti come il Sarbanes-Oxley (SOX) Act, che può comportare multe fino a 1 milione di dollari e fino a 10 anni di carcere.

I rischi di dati errati aumentano nel contesto dell'intelligenza artificiale. Quando i modelli di AI o ML vengono addestrati su dati inaccurati, incoerenti o distorti, i loro risultati riflettono tali errori. Per massimizzare gli investimenti in AI e ML, le organizzazioni devono assicurarsi che i loro dati siano AI-ready.

Unity Technologies è un esempio lampante delle conseguenze dei dati errati nell'AI e nell'ML. Nel 2022, l'algoritmo di posizionamento pubblicitario dell'azienda di videogiochi ha acquisito dati errati da un grande cliente. Le prestazioni dell'algoritmo ne hanno risentito al punto che hanno dovuto ricostruirlo. L'incidente ha contribuito a un calo del 37% delle azioni di Unity e a un impatto stimato di 110 milioni di dollari sull'azienda.

D'altra parte, dati buoni e accurati possono essere un vantaggio per le iniziative di AI. Una ricerca dell'IBM Institute for Business Value ha rilevato che le organizzazioni con dati affidabili hanno ottenuto quasi il doppio del ritorno sull'investimento dalle loro funzionalità di AI. In conclusione: i dati di qualità sono una priorità non negoziabile per qualsiasi strategia basata su AI o sui dati.

Quali sono le cause dei dati errati?

Non esiste una causa principale per i dati errati. Possono derivare dalla tecnologia, dai processi o dalle persone, e in genere si tratta di una combinazione di diversi fattori. Alcune cause comuni di scarsa qualità dei dati includono:

  • Guasti del sistema
  • Decadimento dei dati
  • Raccolta di dati inaffidabile
  • Governance dei dati debole
  • Errore umano
  • Integrazione o migrazione dei dati interrotta
Guasti del sistema

Architetture dati mal progettate possono portare a silos dati, prestazioni lente e bug software che degradano la coerenza e l'affidabilità dei dati. Quando i sistemi falliscono, i file possono essere corrotti o lasciati incompleti, causando valori mancanti e imprecisioni nei processi a valle.

Decadimento dei dati

Molti tipi di dati aziendali (come le metriche comportamentali dei consumatori) sono soggetti a decadimento se non aggiornati regolarmente. Quando i database sono obsoleti, qualsiasi insight o decisione basata sui dati risulta obsoleta, e probabilmente inaccurata.

Raccolta di dati inaffidabile

I dati errati possono derivare dalla raccolta, e non solo da fonti o fornitori di dati di scarsa qualità. Bias, metodi incoerenti, strumenti difettosi o misurazioni imprecise durante l'inserimento e l'elaborazione dei dati possono tutti compromettere la qualità dei dati.

Governance dei dati debole

Come disciplina, la governance dei dati definisce e implementa politiche, standard e procedure per l'intero ciclo di vita dei dati. Quando queste pratiche vengono applicate in modo incoerente o senza responsabilità, la qualità dei dati si erose rapidamente.

Errore umano

L'errore umano è spesso causa di dati errati. Errori di battitura durante l'inserimento manuale dei dati, codifica dei dati incoerente, bias o interpretazioni errate possono tutti portare a imprecisioni dei dati. L'errore umano è aggravato da pressioni di tempo, formazione inadeguata e sistemi mal progettati.

Interruzioni relative all'integrazione o alla migrazione

La migrazione o l'integrazione dei dati senza i processi, la pianificazione e la tecnologia adeguati possono portare a perdite, incongruenze e imprecisioni dei dati. Questi problemi spesso derivano da formati e strutture di dati non corrispondenti o da dipendenze non osservate.

Come prevenire dati errati

In un mondo ideale, dati errati verrebbero catturati alla fonte e non raggiungerebbero mai i sistemi a valle o i workflow di analytics. In realtà, tuttavia, la qualità dei dati può peggiorare in qualsiasi momento del loro ciclo di vita e per molte ragioni diverse.

Prevenire dati errati in tutte le fasi richiede una strategia completa che indirizzo i rischi in ogni fase. Questa strategia può incorporare le seguenti pratiche:

  • Governance e strategia
  • Monitoraggio e visibilità
  • Pulizia e correzione
  • Competenze e alfabetizzazione in materia di dati

Governance e strategia

Stabilire una solida governance dei dati è un passo critico per prevenire dati errati. Definisce e applica le politiche, gli standard e le procedure necessarie per mantenere dati accurati e di alta qualità durante tutto il ciclo di vita. Framework di governance robusti possono aiutare le organizzazioni a identificare e correggere le inesattezze prima che influenzino il processo decisionale e l'efficienza operativa.

Una governance dei dati efficace dovrebbe integrare e potenziare la più ampia strategia dei dati di un'organizzazione. In genere lavora insieme ad altre discipline, come la gestione dei dati, la sicurezza dei dati e l'architettura dei dati, per mantenere i dati coerenti e affidabili.

Monitoraggio e visibilità

Non puoi fare correzioni a dati errati se non sai che esistono. Le organizzazioni possono utilizzare diversi processi per ottenere visibilità e monitorare costantemente lo stato di salute dei loro dati:

  • Data lineage: questi strumenti offrono una visione chiara di come i dati (e i loro metadati) si spostano e cambiano nel corso del loro ciclo di vita, inclusa la loro origine e destinazione finale. La visibilità sulla data lineage supporta l'analisi della causa principale e la conformità normativa.

  • Audit dei dati: la revisione e l'analisi regolari dei dati aziendali aiutano a mappare una visuale dell'ambiente dati. Gli audit aiutano le organizzazioni a scoprire, classificare e monitorare i propri dati per individuare rischi, inesattezze e incongruenze.

  • Profilazione dei dati: il processo di profilazione dei dati analizza i dati per ottenere insight sulla loro struttura e qualità, in modo che i team possano pianificare la correzione. È tipicamente eseguito da data engineer che utilizzano una serie di business rules e algoritmi analitici.

  • Data observability: andando oltre il monitoraggio tradizionale, gli strumenti di observability dei dati utilizzano automazione e intelligenza per aiutare a identificare, risolvere problemi e risolvere problemi di dati in quasi in tempo reale, prima che abbiano la possibilità di diffondersi nelle operazioni.

Pulizia e correzione

Una volta identificati gli errori nei dati e la loro causa principale, i dati errati devono quindi essere corretti. I processi di pulizia dei dati lavorano per risolvere i problemi comuni di qualità dei dati, come i record duplicati, i valori mancanti, le incongruenze, gli errori di sintassi, i dati irrilevanti e gli errori strutturali. Le tecniche comuni includono la standardizzazione, la gestione degli outlier e dei valori mancanti, la deduplicazione e la validazione dei dati.

I team dati utilizzano sempre più spesso l'AI per automatizzare e ottimizzare diversi di questi passaggi, in particolare compiti come la standardizzazione e la deduplicazione.

Competenze e alfabetizzazione dei dati

Le organizzazioni alfabetizzate in materia di dati hanno le competenze per leggere, comprendere, utilizzare e comunicare con i dati per un migliore processo decisionale. La capacità di valutare criticamente i dati migliora anche la qualità complessiva dei dati: i dipendenti con competenze anche rudimentali sui dati sono meglio preparati a riconoscere bias, incongruenze, imprecisioni o valori mancanti.

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

Rendering 3D di una spirale di diverse icone allineate, come una fotocamera, una manopola del volume e una lavagnetta
Soluzioni correlate
IBM StreamSets

Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.

Esplora StreamSets
IBM watsonx.data™

Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

  1. Esplora le soluzioni di gestione dei dati
  2. Scopri watsonx.data