Cosa sono i dati sporchi?

By Alexandra Jonker , Judith Aquino

Cosa sono i dati sporchi

I dati sporchi sono informazioni inaccurate, invalide, incomplete o incoerenti, il che le rende inaffidabili per l'uso aziendale.

I dati sporchi possono assumere molte forme. Può includere record duplicati, valori mancanti o nulli, formati incoerenti, informazioni obsolete, voci non valide, relazioni interrotte tra record o definizioni contrastanti tra i sistemi.

Problemi di qualità dei dati come questi possono verificarsi in qualsiasi momento del ciclo di vita dei dati, dalla cattura iniziale all'analisi e distribuzione a valle. Affrontare gli input è essenziale perché input inaccurati o incoerenti possono compromettere l'accuratezza delle decisioni, distorcere i risultati dell'analisi dei dati, degradare le prestazioni dei modelli di intelligenza artificiale (AI) e aumentare il rischio scalando gli errori tra sistemi e processi.

Le organizzazioni possono attingere a una vasta gamma di strumenti e tecniche per ripulire dati sporchi, tra cui profilazione dei dati, validazione, deduplicazione, standardizzazione e monitoraggio. Questi sforzi sono ancora più efficaci se supportati da una solida governance dei dati. La governance fornisce la struttura necessaria per definire la proprietà, stabilire standard e incorporare controlli che impediscano il riemergere di problemi di qualità dei dati e sostengano i miglioramenti.

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.

Il costo dei dati sporchi

Le organizzazioni che non riescono a gestire i dati sporchi sono esposte a ingenti costi finanziari e operativi. Quando i team si affidano a dati imprecisi, spesso definiti in modo intercambiabile come dati sporchi o errati, è più probabile che prendano decisioni aziendali non allineate alla realtà e alle condizioni di mercato.

Questi rischi sono ampiamente riconosciuti: un rapporto del 2025 dell'IBM Institute for Business Value (IBV) ha rilevato che il 43% dei chief operations indica la qualità dei dati come massima priorità dati.¹ E più di un quarto delle organizzazioni stima perdite annuali superiori a 5 milioni di dollari a causa della scarsa qualità dei dati, secondo Forrester^.2

I dati sporchi possono anche portare a:

Decisioni e pianificazione inadeguate a causa di dati obsoleti e record duplicati
Campagne di marketing, decisioni di vendita e risultati dell'esperienza del cliente inefficaci guidati da dati clienti incompleti
Sanzioni per mancanza di conformità e audit non superati a causa di dati inaccurati, informazioni mancanti e altre inesattezze
Attività di pulizia dei dati e riconciliazione che richiedono molto tempo per correggere errori come refusi e dati mancanti
Maggiore dipendenza dall'IT per l'accesso ai dati di base e per le correzioni
Minore fiducia nell'analisi dei dati, con conseguente ritardo nel processo decisionale.
Innovazione più lenta e ridotto ROI dagli investimenti nell'analytics e nell'AI
Perdita di vantaggio competitivo a causa di una scarsa esecuzione basata sui dati

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Vai all'episodio

L'impatto dei dati sporchi sull'AI

I dati sporchi hanno un impatto aggravato sui sistemi AI, compresi i modelli linguistici di grandi dimensioni (LLM). Questi sistemi (e i loro algoritmi sottostanti) imparano identificando modelli statistici nei set di dati su larga scala. Pertanto, eventuali errori o bias nei set di dati possono essere appresi durante l'addestramento e riflessi in output difettosi e fuorvianti durante l'inferenza. In realtà, Gartner prevede che "fino al 2026, le organizzazioni abbandoneranno il 60% dei progetti di AI non supportati da dati AI-ready."³

Di conseguenza, l'importanza di dati di alta qualità e ben governati è diventata ancora più evidente con l'ascesa dell'adozione dell'AI. Pratiche solide di qualità dei dati supportano output del modello più accurati, affidabili e attendibili. Questo vantaggio si traduce in un impatto aziendale misurabile. Una ricerca di IBV mostra che le imprese con grandi volumi di dati di cui si fidano gli stakeholder interni ed esterni ottengono quasi il doppio del ritorno sugli investimenti dalle loro funzionalità di AI.⁴

Cause principali dei dati sporchi

Dati di bassa qualità o dati sporchi non emergono spontaneamente: sono il risultato di fattori organizzativi, tecnici e umani. Le cause principali dei dati sporchi possono spesso essere ricondotte alle seguenti origini e pratiche:

Errore umano
Silos di dati
Governance dei dati debole
Integrazione dei dati difettosa
Debito tecnico
Mancanza di convalida e controlli di qualità
Priorità disallineate
Loop di feedback del machine learning

Errore umano

L'inserimento manuale dei dati è intrinsecamente soggetto a errori a causa della ripetizione, della pressione temporale e del carico cognitivo, che può portare a dati errati come refusi, caratteri trasposti, lettura errata dei materiali di origine e errori di copia-incolla. Quando tali errori umani sono sistematici, possono moltiplicarsi rapidamente e richiedere un processo di pulizia esteso.

Silos di dati

I silo possono portare a dati sporchi frammentando le informazioni tra i dipartimenti. Quando i team gestiscono set di dati isolati senza standard o coordinamento condivisi, i record duplicati e non allineati possono proliferare.

Governance dei dati debole

I dati sporchi possono proliferare in assenza di una supervisione centralizzata, di una proprietà dei dati definita, di standard applicabili e di altri elementi distintivi di una solida governance dei dati.

In queste condizioni, i dipartimenti catturano e gestiscono i dati in modo incoerente, causando problemi che si accumulano nel tempo, come formati e convenzioni di denominazione contrastanti, definizioni di dati incoerenti e voci non validate che compromettono l'affidabilità dei dati.

Integrazione dei dati difettosa

L'integrazione dei dati tra diversi sistemi specializzati può introdurre errori a causa di disallineamenti di schema, trasformazioni errate e trasferimenti incompleti. Questi rischi sono aumentati con cloud e architetture ibride, dove i dati si spostano tra ambienti con formati e regole di validazione differenti.

Debito tecnico

I sistemi legacy spesso si basano su modelli di dati obsoleti, su una validazione limitata e su interfacce fragili che non sono più in linea con le attuali esigenze aziendali. Con l'evolversi dei requisiti, questi sistemi accumulano debiti tecnici che impongono soluzioni manuali. Aumenta anche la probabilità di errori strutturali dei dati, compresi gli outlier non segnalati che distorcono il reporting e l'analisi a valle.

Mancanza di convalida e controlli di qualità

Quando i dati vengono accettati senza convalida in tempo reale, come controlli dell'intervallo, applicazione del formato, campi obbligatori o vincoli di unicità, gli errori entrano nei sistemi silenziosamente. Una volta acquisiti, questi difetti si propagano a valle, diventando più difficili e costosi da rilevare e correggere.

Priorità disallineate

I dati sporchi potrebbero riflettere priorità organizzative piuttosto che carenze tecniche. Quando la velocità, il volume o la consegna a breve termine sono premiati rispetto all'accuratezza e alla gestione dei dati, i tassi di errore spesso aumentano e la responsabilità di mantenere dati puliti diventa poco chiara.

Loop di feedback del machine learning

I sistemi di machine learning possono introdurre o amplificare inavvertitamente dati sporchi. Quando data scientist addestrano modelli su set di dati difettosi, distorti o incompleti, gli output del modello possono essere successivamente reintegrati come input senza sufficiente validazione o supervisione.

Come pulire i dati sporchi

La pulizia dei dati sporchi è una pratica fondamentale di gestione dei dati che combina processi, tecniche, strumenti e governance. La pulizia dei dati implica comprendere come i dati vengono raccolti da diverse fonti e gestiti lungo il loro ciclo di vita, così come identificare e correggere errori come dati duplicati, incoerenti o incompleti, convalidare i risultati e integrare controlli per mantenere dati affidabili.

Otto dei passaggi più comuni per la pulizia dei dati sono:

Catturare il contesto e l'utilizzo dei dati
Comprendere il contesto aziendale dei dati, il loro ciclo di vita e il modo in cui vengono reperiti, integrati e utilizzati per l'analisi o il processo decisionale.
Definire i requisiti e le relazioni dei dati
Chiarire i campi richiesti, la rilevanza di ciascun elemento e le relazioni previste all'interno delle tabelle e tra di esse, per garantire che i dati supportino lo scopo analitico o operativo previsto.
Recensioni dei campioni
Esaminare campioni di dati rappresentativi per identificare evidenti problemi di qualità, come registrazioni irrilevanti, formati incoerenti ed errori strutturali introdotti durante la raccolta o Integrazione dei dati.
Definizione delle basi per la qualità dei dati
Profilazione dei dati (analisi del conteggio di righe, distribuzioni, valori mancanti, duplicati e incongruenze) per definire le basi per la qualità dei dati e valutare l'idoneità complessiva all'uso.
Identificazione delle regole e dei vincoli sulla qualità dei dati
Documentazione delle regole di qualità dei dati per campi e relazioni, inclusi formati, intervalli, valori consentiti, chiavi e regole che garantiscono che i record correlati rimangano collegati in modo appropriato.
Analisi delle cause principali
Valutazione di eccezioni e guasti per determinarne le cause principali, come errori di immissione dati, limitazioni del sistema, difetti di Integrazione o definizioni aziendali ambigue.
Implementazione di misure correttive e controlli preventivi
Affrontare i problemi identificati e implementare controlli di sistema o di processo allineati alla governance. Ad esempio, convalida all'ingresso, definizioni standardizzate e controlli automatici, per ridurre le ricorrenze e migliorare la gestione dei dati a lungo termine.
Monitoraggio e gestione delle metriche di qualità dei dati
Stabilire e monitorare parametri di qualità dei dati (tra cui completezza, accuratezza, coerenza, tempestività e validità) per monitorare i miglioramenti e supportare la conformità.

Strumenti e tecniche di pulizia dei dati

Una vasta gamma di strumenti e tecniche per la pulizia dei dati (alcuni con funzionalità sovrapposte) è progettata per affrontare diverse sfide di qualità dei dati, casi d’uso e livelli di complessità lungo l’intero ciclo di vita dei dati:

Piattaforme di pulizia e integrazione end-to-end

Piattaforme unificate di integrazione dei dati
Queste piattaforme sono progettate per spostare, trasformare e unificare i dati in diversi formati tra i sistemi. Di solito offrono funzionalità di pulizia end-to-end, inclusi profilazione dei dati, validazione, deduplicazione, trasformazione e pulizia basata su regole, spesso con interfacce a basso o senza codice .
Piattaforme di corrispondenza e qualità all-in-one
Rispetto alle piattaforme di integrazione dati unificate, queste piattaforme sono più focalizzate sul miglioramento della fiducia e della coerenza dei dati, con funzionalità più approfondite per la corrispondenza dei dati, la risoluzione delle entità, la standardizzazione e la gestione.
Piattaforme dati orientate al cliente
Queste piattaforme offrono solitamente funzionalità di qualità dei dati, deduplicazione e risoluzione delle identità, che aiutano a gestire e riconciliare i dati dei clienti tra i diversi sistemi.

Soluzioni specializzate per la pulizia dei dati

Strumenti di qualità orientati all'utente aziendale
Questi strumenti sono progettati per team non tecnici, con supporto per il matching probabilistico, la deduplicazione, la validazione di contatti e indirizzi e la standardizzazione basata su regole.
Servizi di validazione specifici per dominio
Queste soluzioni possono includere la validazione di indirizzo e postale, la verifica e-mail e la validazione del numero di telefono, spesso fornite come servizi o application programming interface (API).

Funzionalità orientate all'analisi e all'ingegneria

Data observability e strumento di monitoraggio della qualità
Questi strumenti sono progettati per monitorare continuamente le pipeline di dati per individuare modifiche allo schema, anomalie e violazioni delle aspettative di qualità per rilevare tempestivamente i problemi.
Caratteristiche integrate di preparazione dei dati e testing
Molti framework di business intelligence (BI), extract, transform, load (ETL) e framework di Trasformazione includono profiling, regole di validazione e test che implementano controlli di qualità dei dati core come parte dei workflow di routine dei dati.

Perché la governance dei dati è importante per la qualità dei dati nel lungo periodo

Correggere i dati sporchi nell'organizzazione non significa solo affrontare problemi isolati: richiede inoltre di correggere problemi di qualità dei dati incorporati nei processi, nella tecnologia e nei modelli di proprietà.

La governance dei dati fornisce il framework che aiuta a garantire che i dati siano affidabili e utilizzabili in tutta l'azienda, definendo politiche, ruoli, processi e strumenti per la gestione dei dati durante tutto il ciclo di vita. Incorporando responsabilità e controlli a monte, la governance aiuta a prevenire il ripetersi di problemi di qualità e supporta miglioramenti duraturi nella qualità dei dati.

In un sondaggio di IBV, il 54% dei dirigenti ha dichiarato che l'implementazione efficace della governance dei dati e della gestione dei dati è una priorità per le loro organizzazioni.⁵

Per comprendere perché la governance dei dati sia diventata un aspetto così critico, è utile chiarire in pratica cosa fa la governance. La governance definisce chi possiede i dati, come devono essere gestiti e quali regole devono seguire per essere considerati dati affidabili. Si può considerare la governance come un sistema di "controllo del traffico aereo" per i dati: Orchestrate l'accesso, gli standard di qualità e la conformità in modo che i dati Verify vengano indirizzati agli utenti e ai sistemi giusti.

Un solido framework di governance dei dati include tipicamente:

Ruoli e responsabilità definiti
Politiche e standard chiari
Procedure di auditing e monitoraggio

Ruoli e responsabilità definiti

Un consiglio di governance o un comitato direttivo stabilisce la strategia dei dati, le priorità e l'autorità decisionale in tutta l'organizzazione. I proprietari dei dati sono responsabili della qualità dei dati all'interno di specifici domini aziendali, mentre i data steward gestiscono la gestione quotidiana della qualità dei dati e lavorano per standardizzare le definizioni dei dati e le business rules.

Politiche e standard chiari

Le linee guida documentate specificano come i dati devono essere formattati, nominati, accessibili e protetti. Queste politiche promuovono anche la coerenza, riducono ambiguità e garantiscono che i dati vengano gestiti in modo conforme e sicuro.

Procedure di revisione e monitoraggio

Audit e processi di monitoraggio continui vengono utilizzati per valutare la qualità dei dati, la conformità alle politiche e il rispetto degli standard definiti nel tempo. Queste attività aiutano a individuare tempestivamente i problemi, a monitorare i miglioramenti e a garantire trasparenza e responsabilità nel modo in cui i dati vengono gestiti e utilizzati.

Autori

Alexandra Jonker

Staff Editor

IBM Think

Judith Aquino

Staff Writer

IBM Think

Rendering 3D di una spirale di diverse icone allineate, come una fotocamera, una manopola del volume e una lavagnetta

Leggi la guida per i Data Leader per scoprire come rendere i dati della tua organizzazione AI-ready.

Risorse

Rendering 3D di diverse icone allineate, come un microfono e una fotocamera

Gli agenti AI funzionano con i dati: i tuoi sono pronti?

I dati sono il tuo vantaggio competitivo. Scopri come sbloccarli in modo sicuro e ottenere un ROI misurabile dall'AI in questo breve webinar.

Cos'è la gestione dei dati

Techsplainers by IBM analizza gli elementi essenziali dei dati per l'AI, dai concetti chiave ai casi d'uso del mondo reale. Gli episodi chiari e rapidi ti aiutano ad apprendere rapidamente le nozioni fondamentali.

Rendering 3D di diverse icone allineate, come una manopola del volume e una cartellina

Unifica e accedi ai tuoi dati per scalare la tua AI

Scopri perché il percorso verso i dati AI-ready spesso inizia con un accesso efficace ai dati strutturati e non strutturati e quali problematiche possono ostacolare i leader dei dati.

Gli oneri legali si trasformano in insight strategici

Scopri come un agente legale basato su AI aiuta ad accelerare il processo decisionale, ridurre il lavoro manuale e migliorare la conformità normativa.

Due uomini che parlano tra loro in un podcast

AI Academy: sviluppare una strategia dei dati per l'AI aziendale

In questo episodio, Cathy Reese spiega come le organizzazioni necessitino attualmente di una strategia dei dati pronta per l’AI avanzata, utilizzando al meglio i loro dati di qualità superiore.

Rendering 3D di diverse icone allineate, come una fotocamera e aeroplani di carta

Il data lakehouse ibrido e aperto per l'AI

Semplifica l'accesso ai dati e automatizza la governance dei dati. Scopri la potenza dell'integrazione di una strategia di data lakehouse nella tua architettura di dati, con ottimizzazione dei costi dei workload e scalabilità dell'AI e dell'analytics, con tutti i tuoi dati, ovunque.

Report Cost of a Data Breach 2025

I costi delle violazioni dei dati non sono mai stati così elevati. Ottieni insight aggiornati sulle minacce alla cybersecurity e sul loro impatto finanziario sulle organizzazioni.

Rendering 3D di due righe di diverse icone come una fotocamera, una manopola del volume e una cartellina

La guida ai dati AI-ready per i leader dei dati

Scopri i passi concreti che i leader dei dati possono intraprendere per superare le sfide legate ai dati, creare le basi per una piattaforma dati affidabile e preparare i dati della tua organizzazione per l’AI.

Rendering 3D di diverse icone allineate, come la fotocamera, la manopola del volume e gli appunti

Come i vertici aziendali trasformano le informazioni in impatto

Esplora gli insight di 1.700 CDO in questo report intersettoriale per i leader dei dati.

Soluzioni correlate

IBM StreamSets

Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.

Esplora StreamSets

IBM watsonx.data™

Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data

Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics

Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Cosa sono i dati sporchi?