A differenza degli errori introdotti al momento della raccolta dei dati, l'obsolescenza è un prodotto del tempo. I dati diventano obsoleti man mano che le condizioni che descrivono cambiano, degradando gradualmente la qualità dei dati e la tempestività.
I dati obsoleti non si annunciano da soli. Persiste nell'infrastruttura di dati e nei sistemi di intelligenza artificiale (AI), modellando silenziosamente le decisioni molto tempo dopo che la sua accuratezza è scaduta. Un report del 2025 dell'IBM Institute for Business Value (IBV) ha rilevato che il 43% dei chief operations officer identifica le questioni di qualità dei dati come la priorità più significativa.1
Man mano che le organizzazioni aumentano la loro dipendenza dai dati per l'analytics e l'AI, le conseguenze di operare su dati obsoleti sono diventate troppo gravi per essere ignorate: opportunità mancate, inefficienze operative e fiducia erosa nei sistemi che sostengono il processo decisionale.
Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.
I dati diventano obsoleti quando le condizioni del mondo reale che rappresentano si evolvono più velocemente di quanto i dati stessi vengano aggiornati. Questo può avvenire gradualmente attraverso la derivazione abituale dei dati dei clienti, oppure improvvisamente attraverso eventi che rendono obsoleti da un giorno all'altro i set di dati esistenti (come la crisi finanziaria del 2008, il COVID-19 o i dazi).
Comprendere la causa principale dell'obsolescenza dei dati è essenziale per mitigarla. Diversi fattori contribuiscono all'obsolescenza dei dati:
Quando i dati non vengono raccolti o aggiornati di frequente, possono verificarsi discrepanze tra ciò che i dati riflettono e ciò che è effettivamente vero. Un lavoro di elaborazione batch settimanale che alimenta un sistema decisionale in tempo reale, ad esempio, sarebbe un disallineamento strutturale che porta a output inaffidabili.
Anche nei sistemi progettati per la velocità, i dati devono attraversare strati di ingestione, trasformazione e storage prima di diventare utilizzabili. Ogni fase introduce ritardi. In ambienti abassa latenza come i sistemi di elaborazione transazionale, questi ritardi sono minimi. Nelle architetture complesse multi-hop, creano colli di bottiglia che possono accumularsi in ritardi significativi, soprattutto quando sono coinvolti processi di ETL o sincronizzazione tra fonti dati distribuite.
Le organizzazioni possono raccogliere dati rilevanti al momento della raccolta ma che non vengono mai aggiornati. Questi set di dati rimangono accessibili (e persino interrogabili) senza alcuna indicazione che le informazioni in essi contenute siano scadute. In alcuni casi, i dati obsoleti rimangono attivi semplicemente perché non esistono politiche di conservazione o procedure di archiviazione che li segnalano o rimuovano.
Quando i sistemi a monte cambiano la loro struttura o logica senza propagare tali cambiamenti a valle, i dati che arrivano possono essere tecnicamente attuali ma semanticamente disallineati. Application programming interface (API) senza controllo delle versioni o mantenute in modo non coerente possono introdurre discrepanze silenziose tra le fonti dati e il workflow.
I sistemi che si affidano alla cache per ottimizzare le prestazioni possono involontariamente servire dati vecchi se la logica di invalidazione della cache non è configurata correttamente. Senza soglie definite per quando i dati memorizzati in cache devono essere aggiornati o scartati, le informazioni obsolete possono persistere molto più a lungo del previsto.
I dati obsoleti non esistono in isolamento. Sono una faccia di un problema più ampio di qualità dei dati, collegati ma distinti da questioni di accuratezza, completezza e coerenza. Un set di dati può essere completo e internamente coerente pur essendo obsoleto. Al contrario, la sola freschezza dei dati non è sufficiente se i dati sottostanti sono imprecisi.
Ciò che distingue l'obsolescenza dei dati da altre dimensioni di qualità è il suo rapporto con il tempo e la tempestività. Tutti i problemi relativi alla qualità dei dati compromettono la fiducia e introducono rischi. Ma i dati obsoleti lo fanno in un modo particolare. Crea l'apparenza dell'affidabilità senza la sua sostanza: i sistemi continuano a funzionare, le decisioni continuano a essere prese. Il guasto è silenzioso e cumulativo piuttosto che immediato e visibile, rendendo l'observability e l'efficienza operativa obiettivi inseparabili per qualsiasi programma serio di gestione dei dati.
Il rischio rappresentato dai dati obsoleti va oltre i report imprecisi o le dashboard stagnanti. Oltre un quarto delle imprese stima di perdere più di 5 milioni di dollari all'anno a causa della scarsa qualità dei dati. Negli ambienti dati moderni, e in particolare quelli basati su AI e automazione, i dati obsoleti possono propagarsi su larga scala, influenzando sistemi che non sono mai stati progettati per mettere in discussione la freschezza dei dati dei loro input. I potenziali rischi includono:
I modelli addestrati su dati storici sono destinati a generalizzare alle condizioni attuali. Quando i dati di addestramento sono obsoleti, l'algoritmo apprende schemi che potrebbero non essere più validi. Le ricerche IBV mostrano che quasi la metà (45%) dei leader aziendali cita l'accuratezza e il bias dei dati come uno dei principali ostacoli alla scala delle iniziative di AI.
Il problema si aggrava poi nei sistemi di retrieval-augmented generation (RAG), in cui la knowledge base viene interrogata in tempo reale. Se lo storage dei dati non viene mantenuto aggiornato, anche una pipeline RAG ben progettata recupererà contesti obsoleti e lo presenterà come risposta sicura.
Secondo lo studio From AI Projects to Profits di IBV, i workflow abilitati dall'AI dovrebbero aumentare di otto volte, dal 3% nel 2024 al 25% entro la fine del 2026. Con la scalabilità di questi sistemi, aumentano anche le conseguenze degli input obsoleti.
Le pilepline di dati e i sistemi di agentic AI sono costruiti per agire sui dati, non per interrogarli. Sebbene esistano misure di protezione per rilevare errori strutturali e problemi di schema, l'obsolescenza è più difficile da rilevare. I dati possono arrivare formattati correttamente e riflettere comunque condizioni inaccurate.
Quando i dati obsoleti entrano in un workflow automatizzato, si attiva un'azione: i modelli di Prezzi si adeguano; emergono raccomandazioni; segnali di frode si attivano (o non si attivano). L'automazione fa esattamente ciò per cui è stata progettata, su un presupposto che non è più vero.
Singole istanze di dati obsoleti possono sembrare innocue. Ma l'esposizione ripetuta a informazioni obsolete, come dati dei clienti non aggiornati o dati sull'inventario che ritardano di ore, si accumula in un bias sistematico. I leader prendono decisioni basate sui dati rispetto a una realtà che si è spostata silenziosamente, creando opportunità perse difficili da risalire alla loro fonte.
Nei settori regolamentati, l'accuratezza dei dati è più di una preoccupazione operativa. Dati personali obsoleti o dati di segnalazione disallineati possono esporre le organizzazioni a sanzioni normative e danni reputazionali secondo framework come il Regolamento generale sulla protezione dei dati (GDPR) e simili obblighi di governance dei dati. Gestire i permessi e i controlli di accesso su dati obsoleti aggiunge un ulteriore livello di rischio per la sicurezza che le organizzazioni spesso trascurano.
Le conseguenze dell'obsolescenza dei dati si manifestano in modo diverso nei vari settori, ma lo schema è coerente: i dati obsoleti raggiungono un sistema che li considera attuali, e le decisioni ne risentono.
Nell'assistenza sanitaria, i dati obsoleti comportano una posta in gioco più alta. Le cartelle cliniche dei pazienti prive di aggiornamenti recenti (elenchi di farmaci, storie di allergie, diagnosi recenti) possono portare a errori clinici. Quando l'integrazione dei dati tra i sistemi di cartelle cliniche elettroniche rimane in ritardo, i team di assistenza possono lavorare da informazioni obsolete nei momenti in cui le decisioni contano di più.
Nel settore dei servizi finanziari, i modelli che si basano sui dati customer relationship management (CRM) o sui flussi di dati di mercato sono particolarmente vulnerabili. Un algoritmo di valutazione del rischio di credito, addestrato su dati che non riflettono le attuali condizioni economiche, potrebbe approvare o rifiutare le applicazioni basandosi su una realtà che non esiste più. Anche un ritardo di poche ore nei dati in tempo reale può tradursi in un'esposizione significativa in ambienti ad alta frequenza.
Nell'e-commerce, i dati di inventario obsoleti possono indurre i clienti ad acquistare articoli che non sono più disponibili, innescando errori di realizzazione degli ordini ed erodendo la fiducia dei clienti. Quando la disponibilità o i prezzi dei prodotti non sono sincronizzati in tempo reale tra le piattaforme, gli effetti a valle si ripercuotono sia sulle operazioni che sull'esperienza del cliente. Scott Brokaw, Vice President of Data Integration di IBM, ha recentemente dipinto il quadro a Think:
Poiché i dati obsoleti raramente falliscono rumorosamente, il loro rilevamento richiede una strumentazione deliberata piuttosto che una risoluzione reattiva dei problemi. Gli accordi a livello di servizio (SLA) per la latenza dei dati possono aiutare a formalizzare le aspettative su come i dati debbano essere aggiornati prima che vengano considerati idonei all'uso. Questi accordi sono particolarmente importanti nei sistemi decisionali automatizzati e negli ambienti di dati in tempo reale, dove anche un lieve ritardo può compromettere i risultati.
La data observability, la pratica di monitorare, gestire e mantenere i dati in tutta l'infrastruttura dati di un'organizzazione, è centrale in questo sforzo. A tal fine, le organizzazioni in genere monitorano diverse metriche:
Le ricerche di IBV hanno rilevato che le aziende con grandi archivi di dati affidabili hanno visto quasi il doppio del ritorno sull'investimento sulle loro funzionalità di AI. Per le organizzazioni che costruiscono sistemi di AI o automatizzano i workflow in ambienti distribuiti, considerare la freschezza dei dati come una dimensione di qualità di prima classe è fondamentale per operare con precisione e su larga scala.
Detto ciò, la prevenzione è più efficace della correzione. Le seguenti pratiche possono aiutare le organizzazioni a mitigare la prevalenza e l'impatto dei dati obsoleti e a ottimizzare la loro infrastruttura di dati per mantenerne l'aggiornamento:
I requisiti di freschezza sono spesso definiti in fase di progettazione della pipeline. Ciò significa selezionare i modelli di ingestione (elaborazione batch, streaming o ibridi) in base al tasso di variazione delle fonti dati, non solo ai costi di storage o alle convenzioni architettoniche.
I set di dati contengono tipicamente metadati che indicano quando sono stati aggiornati l'ultima volta e a quale livello di freschezza appartengono. Timestamp, programmi di aggiornamento dei dati e marcatori di lineage possono essere resi visibili ai consumatori a valle, che si tratti di un analista umano che esamina il dashboard o di un workflow automatizzato che agisce su nuovi dati. Questa visibilità aiuta gli utenti a valutare la fitness prima di agire sui dati.
Invece di affidarsi a processi manuali per mantenere aggiornati i dati, le organizzazioni possono definire finestre di scadenza automatizzate e regole di archiviazione. Se i dati rimangono oltre la soglia di freschezza, possono essere segnalati, messi in quarantena o aggiornati. Le politiche di conservazione possono essere applicate anche a tutte le fonti di dati per ridurre i costi di storage e i rischi di sicurezza associati all'accumulo di dati obsoleti.
I programmi di governance dei dati che affrontano la freschezza dei dati insieme ad altre dimensioni di qualità come accuratezza e coerenza forniscono alle organizzazioni una base strutturata per gestire l'obsolescenza dei dati su larga scala. Le politiche di governance dovrebbero specificare soglie di aggiornamento accettabili per caso d'uso, assegnare la proprietà per il loro mantenimento e stabilire procedure chiare per l'integrazione e la sincronizzazione dei dati tra i sistemi.
Gli strumenti di observability offrono ai team una visibilità in tempo reale sullo stato di salute delle loro pipeline di dati. Monitorando i tassi di ingestione, la latenza di trasformazione e gli aggiornamenti dei dati in tutto lo stack, le organizzazioni possono rilevare e risolvere problemi di freschezza prima che influenzino dashboard, modelli di machine learning o workflow aziendali. Il monitoraggio ETL , la validazione API e gli avvisi automatizzati su informazioni obsolete possono tutti contribuire a una gestione dei dati più resiliente.
Per i sistemi di AI in particolare, il monitoraggio della qualità dei dati dovrebbe estendersi agli input consumati al momento dell'inferenza, non solo ai set di dati utilizzati durante l'addestramento. Il monitoraggio continuo dei valori delle caratteristiche, del contesto recuperato e degli input del modello può aiutare a rilevare quando la qualità dei dati si è deteriorata al punto che gli output del modello non sono più affidabili. Ciò è particolarmente critico nei sistemi agentici dove i dati obsoleti possono attivare azioni automatiche su larga scala.
Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.
Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.
Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.
1 “The 2025 CDO Study: The AI multiplier effect.” IBM Institute for Business Value, 12 novembre 2025