Cosa sono i dati sporchi?

Uomo d'affari serio che guarda lo schermo di un laptop.

Cosa sono i dati sporchi

I dati sporchi sono informazioni inaccurate, invalide, incomplete o incoerenti, il che le rende inaffidabili per l'uso aziendale.

I dati sporchi possono assumere molte forme. Può includere record duplicati, valori mancanti o nulli, formati incoerenti, informazioni obsolete, voci non valide, relazioni interrotte tra record o definizioni contrastanti tra i sistemi.

Problemi di qualità dei dati come questi possono verificarsi in qualsiasi momento del ciclo di vita dei dati, dalla cattura iniziale all'analisi e distribuzione a valle. Affrontare gli input è essenziale perché input inaccurati o incoerenti possono compromettere l'accuratezza delle decisioni, distorcere i risultati dell'analisi dei dati, degradare le prestazioni dei modelli di intelligenza artificiale (AI) e aumentare il rischio scalando gli errori tra sistemi e processi.

Le organizzazioni possono attingere a una vasta gamma di strumenti e tecniche per ripulire dati sporchi, tra cui profilazione dei dati, validazione, deduplicazione, standardizzazione e monitoraggio. Questi sforzi sono ancora più efficaci se supportati da una solida governance dei dati. La governance fornisce la struttura necessaria per definire la proprietà, stabilire standard e incorporare controlli che impediscano il riemergere di problemi di qualità dei dati e sostengano i miglioramenti.

Il costo dei dati sporchi

Le organizzazioni che non riescono a gestire i dati sporchi sono esposte a ingenti costi finanziari e operativi. Quando i team si affidano a dati imprecisi, spesso definiti in modo intercambiabile come dati sporchi o errati, è più probabile che prendano decisioni aziendali non allineate alla realtà e alle condizioni di mercato.

Questi rischi sono ampiamente riconosciuti: un rapporto del 2025 dell'IBM Institute for Business Value (IBV) ha rilevato che il 43% dei chief operations indica la qualità dei dati come massima priorità dati.1 E più di un quarto delle organizzazioni stima perdite annuali superiori a 5 milioni di dollari a causa della scarsa qualità dei dati, secondo Forrester.2

I dati sporchi possono anche portare a:

  • Decisioni e pianificazione inadeguate a causa di dati obsoleti e record duplicati

  • Campagne di marketing, decisioni di vendita e risultati dell'esperienza del cliente inefficaci guidati da dati clienti incompleti

  • Sanzioni per mancanza di conformità e audit non superati a causa di dati inaccurati, informazioni mancanti e altre inesattezze

  • Attività di pulizia dei dati e riconciliazione che richiedono molto tempo per correggere errori come refusi e dati mancanti

  • Maggiore dipendenza dall'IT per l'accesso ai dati di base e per le correzioni

  • Minore fiducia nell'analisi dei dati, con conseguente ritardo nel processo decisionale.

  • Innovazione più lenta e ridotto ROI dagli investimenti nell'analytics e nell'AI

  • Perdita di vantaggio competitivo a causa di una scarsa esecuzione basata sui dati

L'impatto dei dati sporchi sull'AI

I dati sporchi hanno un impatto aggravato sui sistemi AI, compresi i modelli linguistici di grandi dimensioni (LLM). Questi sistemi (e i loro algoritmi sottostanti) imparano identificando modelli statistici nei set di dati su larga scala. Pertanto, eventuali errori o bias nei set di dati possono essere appresi durante l'addestramento e riflessi in output difettosi e fuorvianti durante l'inferenza. In realtà, Gartner prevede che "fino al 2026, le organizzazioni abbandoneranno il 60% dei progetti di AI non supportati da dati AI-ready."3
 
Di conseguenza, l'importanza di dati di alta qualità e ben governati è diventata ancora più evidente con l'ascesa dell'adozione dell'AI. Pratiche solide di qualità dei dati supportano output del modello più accurati, affidabili e attendibili. Questo vantaggio si traduce in un impatto aziendale misurabile. Una ricerca di IBV mostra che le imprese con grandi volumi di dati di cui si fidano gli stakeholder interni ed esterni ottengono quasi il doppio del ritorno sugli investimenti dalle loro funzionalità di AI.4

Cause principali dei dati sporchi

Dati di bassa qualità o dati sporchi non emergono spontaneamente: sono il risultato di fattori organizzativi, tecnici e umani. Le cause principali dei dati sporchi possono spesso essere ricondotte alle seguenti origini e pratiche:

  • Errore umano
  • Silos di dati
  • Governance dei dati debole
  • Integrazione dei dati difettosa
  • Debito tecnico
  • Mancanza di convalida e controlli di qualità
  • Priorità disallineate
  • Loop di feedback del machine learning
Errore umano

L'inserimento manuale dei dati è intrinsecamente soggetto a errori a causa della ripetizione, della pressione temporale e del carico cognitivo, che può portare a dati errati come refusi, caratteri trasposti, lettura errata dei materiali di origine e errori di copia-incolla. Quando tali errori umani sono sistematici, possono moltiplicarsi rapidamente e richiedere un processo di pulizia esteso.

Silos di dati

I silo possono portare a dati sporchi frammentando le informazioni tra i dipartimenti. Quando i team gestiscono set di dati isolati senza standard o coordinamento condivisi, i record duplicati e non allineati possono proliferare.

Governance dei dati debole

I dati sporchi possono proliferare in assenza di una supervisione centralizzata, di una proprietà dei dati definita, di standard applicabili e di altri elementi distintivi di una solida governance dei dati.

In queste condizioni, i dipartimenti catturano e gestiscono i dati in modo incoerente, causando problemi che si accumulano nel tempo, come formati e convenzioni di denominazione contrastanti, definizioni di dati incoerenti e voci non validate che compromettono l'affidabilità dei dati.

Integrazione dei dati difettosa

L'integrazione dei dati tra diversi sistemi specializzati può introdurre errori a causa di disallineamenti di schema, trasformazioni errate e trasferimenti incompleti. Questi rischi sono aumentati con cloud e architetture ibride, dove i dati si spostano tra ambienti con formati e regole di validazione differenti.

Debito tecnico

I sistemi legacy spesso si basano su modelli di dati obsoleti, su una validazione limitata e su interfacce fragili che non sono più in linea con le attuali esigenze aziendali. Con l'evolversi dei requisiti, questi sistemi accumulano debiti tecnici che impongono soluzioni manuali. Aumenta anche la probabilità di errori strutturali dei dati, compresi gli outlier non segnalati che distorcono il reporting e l'analisi a valle.

Mancanza di convalida e controlli di qualità

Quando i dati vengono accettati senza convalida in tempo reale, come controlli dell'intervallo, applicazione del formato, campi obbligatori o vincoli di unicità, gli errori entrano nei sistemi silenziosamente. Una volta acquisiti, questi difetti si propagano a valle, diventando più difficili e costosi da rilevare e correggere.

Priorità disallineate

I dati sporchi potrebbero riflettere priorità organizzative piuttosto che carenze tecniche. Quando la velocità, il volume o la consegna a breve termine sono premiati rispetto all'accuratezza e alla gestione dei dati, i tassi di errore spesso aumentano e la responsabilità di mantenere dati puliti diventa poco chiara. 

Loop di feedback del machine learning

I sistemi di machine learning possono introdurre o amplificare inavvertitamente dati sporchi. Quando data scientist addestrano modelli su set di dati difettosi, distorti o incompleti, gli output del modello possono essere successivamente reintegrati come input senza sufficiente validazione o supervisione.

Come pulire i dati sporchi

La pulizia dei dati sporchi è una pratica fondamentale di gestione dei dati che combina processi, tecniche, strumenti e governance. La pulizia dei dati implica comprendere come i dati vengono raccolti da diverse fonti e gestiti lungo il loro ciclo di vita, così come identificare e correggere errori come dati duplicati, incoerenti o incompleti, convalidare i risultati e integrare controlli per mantenere dati affidabili.

Otto dei passaggi più comuni per la pulizia dei dati sono:

  1. Catturare il contesto e l'utilizzo dei dati
    Comprendere il contesto aziendale dei dati, il loro ciclo di vita e il modo in cui vengono reperiti, integrati e utilizzati per l'analisi o il processo decisionale.

  2. Definire i requisiti e le relazioni dei dati
    Chiarire i campi richiesti, la rilevanza di ciascun elemento e le relazioni previste all'interno delle tabelle e tra di esse, per garantire che i dati supportino lo scopo analitico o operativo previsto.

  3. Recensioni dei campioni
    Esaminare campioni di dati rappresentativi per identificare evidenti problemi di qualità, come registrazioni irrilevanti, formati incoerenti ed errori strutturali introdotti durante la raccolta o Integrazione dei dati.

  4. Definizione delle basi per la qualità dei dati
    Profilazione dei dati (analisi del conteggio di righe, distribuzioni, valori mancanti, duplicati e incongruenze) per definire le basi per la qualità dei dati e valutare l'idoneità complessiva all'uso.

  5. Identificazione delle regole e dei vincoli sulla qualità dei dati
    Documentazione delle regole di qualità dei dati per campi e relazioni, inclusi formati, intervalli, valori consentiti, chiavi e regole che garantiscono che i record correlati rimangano collegati in modo appropriato.

  6. Analisi delle cause principali
    Valutazione di eccezioni e guasti per determinarne le cause principali, come errori di immissione dati, limitazioni del sistema, difetti di Integrazione o definizioni aziendali ambigue.

  7. Implementazione di misure correttive e controlli preventivi
    Affrontare i problemi identificati e implementare controlli di sistema o di processo allineati alla governance. Ad esempio, convalida all'ingresso, definizioni standardizzate e controlli automatici, per ridurre le ricorrenze e migliorare la gestione dei dati a lungo termine.

  8. Monitoraggio e gestione delle metriche di qualità dei dati
    Stabilire e monitorare parametri di qualità dei dati (tra cui completezza, accuratezza, coerenza, tempestività e validità) per monitorare i miglioramenti e supportare la conformità.

Strumenti e tecniche di pulizia dei dati

Una vasta gamma di strumenti e tecniche per la pulizia dei dati (alcuni con funzionalità sovrapposte) è progettata per affrontare diverse sfide di qualità dei dati, casi d’uso e livelli di complessità lungo l’intero ciclo di vita dei dati:

Piattaforme di pulizia e integrazione end-to-end

  • Piattaforme unificate di integrazione dei dati
    Queste piattaforme sono progettate per spostare, trasformare e unificare i dati in diversi formati tra i sistemi. Di solito offrono funzionalità di pulizia end-to-end, inclusi profilazione dei dati, validazione, deduplicazione, trasformazione e pulizia basata su regole, spesso con interfacce a basso o senza codice .

  • Piattaforme di corrispondenza e qualità all-in-one
    Rispetto alle piattaforme di integrazione dati unificate, queste piattaforme sono più focalizzate sul miglioramento della fiducia e della coerenza dei dati, con funzionalità più approfondite per la corrispondenza dei dati, la risoluzione delle entità, la standardizzazione e la gestione.

  • Piattaforme dati orientate al cliente
    Queste piattaforme offrono solitamente funzionalità di qualità dei dati, deduplicazione e risoluzione delle identità, che aiutano a gestire e riconciliare i dati dei clienti tra i diversi sistemi.

Soluzioni specializzate per la pulizia dei dati

  • Strumenti di qualità orientati all'utente aziendale
    Questi strumenti sono progettati per team non tecnici, con supporto per il matching probabilistico, la deduplicazione, la validazione di contatti e indirizzi e la standardizzazione basata su regole.

  • Servizi di validazione specifici per dominio
    Queste soluzioni possono includere la validazione di indirizzo e postale, la verifica e-mail e la validazione del numero di telefono, spesso fornite come servizi o application programming interface (API).

Funzionalità orientate all'analisi e all'ingegneria

  • Data observability e strumento di monitoraggio della qualità
    Questi strumenti sono progettati per monitorare continuamente le pipeline di dati per individuare modifiche allo schema, anomalie e violazioni delle aspettative di qualità per rilevare tempestivamente i problemi.

  • Caratteristiche integrate di preparazione dei dati e testing
    Molti framework di business intelligence (BI), extract, transform, load (ETL) e framework di Trasformazione includono profiling, regole di validazione e test che implementano controlli di qualità dei dati core come parte dei workflow di routine dei dati.

Perché la governance dei dati è importante per la qualità dei dati nel lungo periodo

Correggere i dati sporchi nell'organizzazione non significa solo affrontare problemi isolati: richiede inoltre di correggere problemi di qualità dei dati incorporati nei processi, nella tecnologia e nei modelli di proprietà.

La governance dei dati fornisce il framework che aiuta a garantire che i dati siano affidabili e utilizzabili in tutta l'azienda, definendo politiche, ruoli, processi e strumenti per la gestione dei dati durante tutto il ciclo di vita. Incorporando responsabilità e controlli a monte, la governance aiuta a prevenire il ripetersi di problemi di qualità e supporta miglioramenti duraturi nella qualità dei dati.

In un sondaggio di IBV, il 54% dei dirigenti ha dichiarato che l'implementazione efficace della governance dei dati e della gestione dei dati è una priorità per le loro organizzazioni.5

Per comprendere perché la governance dei dati sia diventata un aspetto così critico, è utile chiarire in pratica cosa fa la governance. La governance definisce chi possiede i dati, come devono essere gestiti e quali regole devono seguire per essere considerati dati affidabili. Si può considerare la governance come un sistema di "controllo del traffico aereo" per i dati: Orchestrate l'accesso, gli standard di qualità e la conformità in modo che i dati Verify vengano indirizzati agli utenti e ai sistemi giusti.

Un solido framework di governance dei dati include tipicamente:

  • Ruoli e responsabilità definiti
  • Politiche e standard chiari
  • Procedure di auditing e monitoraggio

Ruoli e responsabilità definiti

Un consiglio di governance o un comitato direttivo stabilisce la strategia dei dati, le priorità e l'autorità decisionale in tutta l'organizzazione. I proprietari dei dati sono responsabili della qualità dei dati all'interno di specifici domini aziendali, mentre i data steward gestiscono la gestione quotidiana della qualità dei dati e lavorano per standardizzare le definizioni dei dati e le business rules.

Politiche e standard chiari

Le linee guida documentate specificano come i dati devono essere formattati, nominati, accessibili e protetti. Queste politiche promuovono anche la coerenza, riducono ambiguità e garantiscono che i dati vengano gestiti in modo conforme e sicuro.

Procedure di revisione e monitoraggio

Audit e processi di monitoraggio continui vengono utilizzati per valutare la qualità dei dati, la conformità alle politiche e il rispetto degli standard definiti nel tempo. Queste attività aiutano a individuare tempestivamente i problemi, a monitorare i miglioramenti e a garantire trasparenza e responsabilità nel modo in cui i dati vengono gestiti e utilizzati.

Autori

Judith Aquino

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Soluzioni correlate
IBM watsonx.governance

Metti all'opera un'AI affidabile monitorando i modelli, gestendo i rischi e facendo rispettare la governance in tutto il ciclo di vita dell'AI.

Esplora watsonx.governance
Soluzioni di governance dei dati

Acquisisci il controllo dei tuoi dati con strumenti di governance che migliorano la qualità, garantiscono la conformità e abilitano analytics e AI.

Esplora le soluzioni di governance dei dati
Consulenza sulla governance dell'AI

Stabilisci pratiche di AI responsabile con la guida degli esperti per gestire i rischi, rispettare le normative e rendere operativa un'AI affidabile su larga scala.

Esplora la consulenza sulla governance dell'AI
Fasi successive

Dirigi, gestisci e monitora la tua AI attraverso un portfolio unificato, accelerando risultati responsabili, trasparenti e spiegabili.

  1. Esplora watsonx.governance
  2. Esplora le soluzioni di governance dell'AI
Note a piè di pagina

1 2025 CDO Study: The AI multiplier effect, IBM Institute for Business Value, 12 novembre 2025.

2 Millions lost in 2023 due to poor data quality, potential for billions to be lost with AI without intervention, Forrester, 31 luglio 2024.

Lack of AI-Ready Data Puts AI Projects at Risk, Gartner, 26 febbraio 2025.

4 La guida del CEO all'AI generativa, IBM Institute for Business Value, 18 luglio 2023.

5 Unpublished finding from 2025 CDO Study: The AI multiplier effect, IBM Institute for Business Value, 12 novembre 2025.