Che cosa sono i dati obsoleti?

By Tom Krantz , Alexandra Jonker

Definizione di dati obsoleti

I dati obsoleti sono informazioni non aggiornate, non allineate con le condizioni attuali o non più adatte al loro scopo. Tale termine è anche utilizzato per indicare informazioni obsolete o dati vecchi, e rappresenta una delle sfide più pervasive e poco affrontate nella moderna gestione dei dati.

A differenza degli errori introdotti al momento della raccolta dei dati, l'obsolescenza è un prodotto del tempo. I dati diventano obsoleti man mano che le condizioni che descrivono cambiano, degradando gradualmente la qualità dei dati e la tempestività.

I dati obsoleti non si annunciano da soli. Persiste nell'infrastruttura di dati e nei sistemi di intelligenza artificiale (AI), modellando silenziosamente le decisioni molto tempo dopo che la sua accuratezza è scaduta. Un report del 2025 dell'IBM Institute for Business Value (IBV) ha rilevato che il 43% dei chief operations officer identifica le questioni di qualità dei dati come la priorità più significativa.¹

Man mano che le organizzazioni aumentano la loro dipendenza dai dati per l'analytics e l'AI, le conseguenze di operare su dati obsoleti sono diventate troppo gravi per essere ignorate: opportunità mancate, inefficienze operative e fiducia erosa nei sistemi che sostengono il processo decisionale.

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.

Cause dei dati obsoleti

I dati diventano obsoleti quando le condizioni del mondo reale che rappresentano si evolvono più velocemente di quanto i dati stessi vengano aggiornati. Questo può avvenire gradualmente attraverso la derivazione abituale dei dati dei clienti, oppure improvvisamente attraverso eventi che rendono obsoleti da un giorno all'altro i set di dati esistenti (come la crisi finanziaria del 2008, il COVID-19 o i dazi).

Comprendere la causa principale dell'obsolescenza dei dati è essenziale per mitigarla. Diversi fattori contribuiscono all'obsolescenza dei dati:

Aggiornare le discrepanze nella frequenza

Quando i dati non vengono raccolti o aggiornati di frequente, possono verificarsi discrepanze tra ciò che i dati riflettono e ciò che è effettivamente vero. Un lavoro di elaborazione batch settimanale che alimenta un sistema decisionale in tempo reale, ad esempio, sarebbe un disallineamento strutturale che porta a output inaffidabili.

Latenza della pipeline

Anche nei sistemi progettati per la velocità, i dati devono attraversare strati di ingestione, trasformazione e storage prima di diventare utilizzabili. Ogni fase introduce ritardi. In ambienti abassa latenza come i sistemi di elaborazione transazionale, questi ritardi sono minimi. Nelle architetture complesse multi-hop, creano colli di bottiglia che possono accumularsi in ritardi significativi, soprattutto quando sono coinvolti processi di ETL o sincronizzazione tra fonti dati distribuite.

Set di dati trascurati o orfani

Le organizzazioni possono raccogliere dati rilevanti al momento della raccolta ma che non vengono mai aggiornati. Questi set di dati rimangono accessibili (e persino interrogabili) senza alcuna indicazione che le informazioni in essi contenute siano scadute. In alcuni casi, i dati obsoleti rimangono attivi semplicemente perché non esistono politiche di conservazione o procedure di archiviazione che li segnalano o rimuovano.

Deriva dello schema e della sorgente

Quando i sistemi a monte cambiano la loro struttura o logica senza propagare tali cambiamenti a valle, i dati che arrivano possono essere tecnicamente attuali ma semanticamente disallineati. Application programming interface (API) senza controllo delle versioni o mantenute in modo non coerente possono introdurre discrepanze silenziose tra le fonti dati e il workflow.

Memorizzazione nella cache senza controlli di scadenza

I sistemi che si affidano alla cache per ottimizzare le prestazioni possono involontariamente servire dati vecchi se la logica di invalidazione della cache non è configurata correttamente. Senza soglie definite per quando i dati memorizzati in cache devono essere aggiornati o scartati, le informazioni obsolete possono persistere molto più a lungo del previsto.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Vai all'episodio

I pericoli dei dati obsoleti

I dati obsoleti non esistono in isolamento. Sono una faccia di un problema più ampio di qualità dei dati, collegati ma distinti da questioni di accuratezza, completezza e coerenza. Un set di dati può essere completo e internamente coerente pur essendo obsoleto. Al contrario, la sola freschezza dei dati non è sufficiente se i dati sottostanti sono imprecisi.

Ciò che distingue l'obsolescenza dei dati da altre dimensioni di qualità è il suo rapporto con il tempo e la tempestività. Tutti i problemi relativi alla qualità dei dati compromettono la fiducia e introducono rischi. Ma i dati obsoleti lo fanno in un modo particolare. Crea l'apparenza dell'affidabilità senza la sua sostanza: i sistemi continuano a funzionare, le decisioni continuano a essere prese. Il guasto è silenzioso e cumulativo piuttosto che immediato e visibile, rendendo l'observability e l'efficienza operativa obiettivi inseparabili per qualsiasi programma serio di gestione dei dati.

Il rischio rappresentato dai dati obsoleti va oltre i report imprecisi o le dashboard stagnanti. Oltre un quarto delle imprese stima di perdere più di 5 milioni di dollari all'anno a causa della scarsa qualità dei dati. Negli ambienti dati moderni, e in particolare quelli basati su AI e automazione, i dati obsoleti possono propagarsi su larga scala, influenzando sistemi che non sono mai stati progettati per mettere in discussione la freschezza dei dati dei loro input. I potenziali rischi includono:

I sistemi di machine learning amplificano il problema
I workflow automatizzati ereditano l'obsolescenza
Il processo decisionale si erode gradualmente
I rischi di conformità aumentano col tempo

I sistemi di machine learning amplificano il problema

I modelli addestrati su dati storici sono destinati a generalizzare alle condizioni attuali. Quando i dati di addestramento sono obsoleti, l'algoritmo apprende schemi che potrebbero non essere più validi. Le ricerche IBV mostrano che quasi la metà (45%) dei leader aziendali cita l'accuratezza e il bias dei dati come uno dei principali ostacoli alla scala delle iniziative di AI.

Il problema si aggrava poi nei sistemi di retrieval-augmented generation (RAG), in cui la knowledge base viene interrogata in tempo reale. Se lo storage dei dati non viene mantenuto aggiornato, anche una pipeline RAG ben progettata recupererà contesti obsoleti e lo presenterà come risposta sicura.

I workflow automatizzati ereditano l'obsolescenza

Secondo lo studio From AI Projects to Profits di IBV, i workflow abilitati dall'AI dovrebbero aumentare di otto volte, dal 3% nel 2024 al 25% entro la fine del 2026. Con la scalabilità di questi sistemi, aumentano anche le conseguenze degli input obsoleti.

Le pilepline di dati e i sistemi di agentic AI sono costruiti per agire sui dati, non per interrogarli. Sebbene esistano misure di protezione per rilevare errori strutturali e problemi di schema, l'obsolescenza è più difficile da rilevare. I dati possono arrivare formattati correttamente e riflettere comunque condizioni inaccurate.

Quando i dati obsoleti entrano in un workflow automatizzato, si attiva un'azione: i modelli di Prezzi si adeguano; emergono raccomandazioni; segnali di frode si attivano (o non si attivano). L'automazione fa esattamente ciò per cui è stata progettata, su un presupposto che non è più vero.

Il processo decisionale si erode gradualmente

Singole istanze di dati obsoleti possono sembrare innocue. Ma l'esposizione ripetuta a informazioni obsolete, come dati dei clienti non aggiornati o dati sull'inventario che ritardano di ore, si accumula in un bias sistematico. I leader prendono decisioni basate sui dati rispetto a una realtà che si è spostata silenziosamente, creando opportunità perse difficili da risalire alla loro fonte.

I rischi di conformità aumentano con il tempo

Nei settori regolamentati, l'accuratezza dei dati è più di una preoccupazione operativa. Dati personali obsoleti o dati di segnalazione disallineati possono esporre le organizzazioni a sanzioni normative e danni reputazionali secondo framework come il Regolamento generale sulla protezione dei dati (GDPR) e simili obblighi di governance dei dati. Gestire i permessi e i controlli di accesso su dati obsoleti aggiunge un ulteriore livello di rischio per la sicurezza che le organizzazioni spesso trascurano.

Esempi reali dei dati obsoleti

Le conseguenze dell'obsolescenza dei dati si manifestano in modo diverso nei vari settori, ma lo schema è coerente: i dati obsoleti raggiungono un sistema che li considera attuali, e le decisioni ne risentono.

Nell'assistenza sanitaria, i dati obsoleti comportano una posta in gioco più alta. Le cartelle cliniche dei pazienti prive di aggiornamenti recenti (elenchi di farmaci, storie di allergie, diagnosi recenti) possono portare a errori clinici. Quando l'integrazione dei dati tra i sistemi di cartelle cliniche elettroniche rimane in ritardo, i team di assistenza possono lavorare da informazioni obsolete nei momenti in cui le decisioni contano di più.

Nel settore dei servizi finanziari, i modelli che si basano sui dati customer relationship management (CRM) o sui flussi di dati di mercato sono particolarmente vulnerabili. Un algoritmo di valutazione del rischio di credito, addestrato su dati che non riflettono le attuali condizioni economiche, potrebbe approvare o rifiutare le applicazioni basandosi su una realtà che non esiste più. Anche un ritardo di poche ore nei dati in tempo reale può tradursi in un'esposizione significativa in ambienti ad alta frequenza.

Nell'e-commerce, i dati di inventario obsoleti possono indurre i clienti ad acquistare articoli che non sono più disponibili, innescando errori di realizzazione degli ordini ed erodendo la fiducia dei clienti. Quando la disponibilità o i prezzi dei prodotti non sono sincronizzati in tempo reale tra le piattaforme, gli effetti a valle si ripercuotono sia sulle operazioni che sull'esperienza del cliente. Scott Brokaw, Vice President of Data Integration di IBM, ha recentemente dipinto il quadro a Think:

Rilevamento e misurazione dell'obsolescenza dei dati

Poiché i dati obsoleti raramente falliscono rumorosamente, il loro rilevamento richiede una strumentazione deliberata piuttosto che una risoluzione reattiva dei problemi. Gli accordi a livello di servizio (SLA) per la latenza dei dati possono aiutare a formalizzare le aspettative su come i dati debbano essere aggiornati prima che vengano considerati idonei all'uso. Questi accordi sono particolarmente importanti nei sistemi decisionali automatizzati e negli ambienti di dati in tempo reale, dove anche un lieve ritardo può compromettere i risultati.

La data observability, la pratica di monitorare, gestire e mantenere i dati in tutta l'infrastruttura dati di un'organizzazione, è centrale in questo sforzo. A tal fine, le organizzazioni in genere monitorano diverse metriche:

Timestamp e cadenza di aggiornamento: la misura più semplice dell'obsolescenza è il divario tra l'ultimo aggiornamento dei dati e il momento in cui vengono utilizzati. Stabilire delle soglie e avvisare quando i dati le superano è un passaggio fondamentale in molti programmi di qualità dei dati. I timestamp su set di dati e singoli record permettono di far emergere dati vecchi prima che influenzino i risultati.

Monitoraggio del lineage e della provenienza: gli strumenti di data lineage rendono possibile tracciare le informazioni fino alla loro origine e comprendere quando si sono verificate le trasformazioni all'interno della pipeline. In caso di problemi di freschezza, i registri del lineage consentono una diagnosi più rapida e una correzione più mirata.

Rilevamento di anomalie sui pattern di dati: il monitoraggio statistico può mettere in luce indirettamente l'obsolescenza. Quando un dataset aggiornato frequentemente mostra un plateau inaspettato o quando le metriche a valle si discostano dagli input a monte, spesso è indice del fatto che i dati hanno smesso di fluire o sono stati congelati in uno stato obsoleto. I controlli di convalida in punti chiave delle pipeline di dati possono individuare questi problemi prima che raggiungano la produzione.

Come prevenire i dati obsoleti

Le ricerche di IBV hanno rilevato che le aziende con grandi archivi di dati affidabili hanno visto quasi il doppio del ritorno sull'investimento sulle loro funzionalità di AI. Per le organizzazioni che costruiscono sistemi di AI o automatizzano i workflow in ambienti distribuiti, considerare la freschezza dei dati come una dimensione di qualità di prima classe è fondamentale per operare con precisione e su larga scala.

Detto ciò, la prevenzione è più efficace della correzione. Le seguenti pratiche possono aiutare le organizzazioni a mitigare la prevalenza e l'impatto dei dati obsoleti e a ottimizzare la loro infrastruttura di dati per mantenerne l'aggiornamento:

Progettare le pipeline pensando alla freschezza dei dati

I requisiti di freschezza sono spesso definiti in fase di progettazione della pipeline. Ciò significa selezionare i modelli di ingestione (elaborazione batch, streaming o ibridi) in base al tasso di variazione delle fonti dati, non solo ai costi di storage o alle convenzioni architettoniche.

Implementare i metadati sulla freschezza

I set di dati contengono tipicamente metadati che indicano quando sono stati aggiornati l'ultima volta e a quale livello di freschezza appartengono. Timestamp, programmi di aggiornamento dei dati e marcatori di lineage possono essere resi visibili ai consumatori a valle, che si tratti di un analista umano che esamina il dashboard o di un workflow automatizzato che agisce su nuovi dati. Questa visibilità aiuta gli utenti a valutare la fitness prima di agire sui dati.

Automatizzare le politiche di aggiornamento e scadenza dei dati

Invece di affidarsi a processi manuali per mantenere aggiornati i dati, le organizzazioni possono definire finestre di scadenza automatizzate e regole di archiviazione. Se i dati rimangono oltre la soglia di freschezza, possono essere segnalati, messi in quarantena o aggiornati. Le politiche di conservazione possono essere applicate anche a tutte le fonti di dati per ridurre i costi di storage e i rischi di sicurezza associati all'accumulo di dati obsoleti.

Applicare framework di governance dei datiance dei dati

I programmi di governance dei dati che affrontano la freschezza dei dati insieme ad altre dimensioni di qualità come accuratezza e coerenza forniscono alle organizzazioni una base strutturata per gestire l'obsolescenza dei dati su larga scala. Le politiche di governance dovrebbero specificare soglie di aggiornamento accettabili per caso d'uso, assegnare la proprietà per il loro mantenimento e stabilire procedure chiare per l'integrazione e la sincronizzazione dei dati tra i sistemi.

Investire in data observability

Gli strumenti di observability offrono ai team una visibilità in tempo reale sullo stato di salute delle loro pipeline di dati. Monitorando i tassi di ingestione, la latenza di trasformazione e gli aggiornamenti dei dati in tutto lo stack, le organizzazioni possono rilevare e risolvere problemi di freschezza prima che influenzino dashboard, modelli di machine learning o workflow aziendali. Il monitoraggio ETL , la validazione API e gli avvisi automatizzati su informazioni obsolete possono tutti contribuire a una gestione dei dati più resiliente.

Monitorare continuamente gli input AI

Per i sistemi di AI in particolare, il monitoraggio della qualità dei dati dovrebbe estendersi agli input consumati al momento dell'inferenza, non solo ai set di dati utilizzati durante l'addestramento. Il monitoraggio continuo dei valori delle caratteristiche, del contesto recuperato e degli input del modello può aiutare a rilevare quando la qualità dei dati si è deteriorata al punto che gli output del modello non sono più affidabili. Ciò è particolarmente critico nei sistemi agentici dove i dati obsoleti possono attivare azioni automatiche su larga scala.

Autori

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Rendering 3D di una spirale di diverse icone allineate, come una fotocamera, una manopola del volume e una lavagnetta

Leggi la guida per i Data Leader per scoprire come rendere i dati della tua organizzazione AI-ready.

Risorse

Rendering 3D di diverse icone allineate, come un microfono e una fotocamera

Gli agenti AI funzionano con i dati: i tuoi sono pronti?

I dati sono il tuo vantaggio competitivo. Scopri come sbloccarli in modo sicuro e ottenere un ROI misurabile dall'AI in questo breve webinar.

Cos'è la gestione dei dati

Techsplainers by IBM analizza gli elementi essenziali dei dati per l'AI, dai concetti chiave ai casi d'uso del mondo reale. Gli episodi chiari e rapidi ti aiutano ad apprendere rapidamente le nozioni fondamentali.

Rendering 3D di diverse icone allineate, come una manopola del volume e una cartellina

Unifica e accedi ai tuoi dati per scalare la tua AI

Scopri perché il percorso verso i dati AI-ready spesso inizia con un accesso efficace ai dati strutturati e non strutturati e quali problematiche possono ostacolare i leader dei dati.

Gli oneri legali si trasformano in insight strategici

Scopri come un agente legale basato su AI aiuta ad accelerare il processo decisionale, ridurre il lavoro manuale e migliorare la conformità normativa.

Due uomini che parlano tra loro in un podcast

AI Academy: sviluppare una strategia dei dati per l'AI aziendale

In questo episodio, Cathy Reese spiega come le organizzazioni necessitino attualmente di una strategia dei dati pronta per l’AI avanzata, utilizzando al meglio i loro dati di qualità superiore.

Rendering 3D di diverse icone allineate, come una fotocamera e aeroplani di carta

Il data lakehouse ibrido e aperto per l'AI

Semplifica l'accesso ai dati e automatizza la governance dei dati. Scopri la potenza dell'integrazione di una strategia di data lakehouse nella tua architettura di dati, con ottimizzazione dei costi dei workload e scalabilità dell'AI e dell'analytics, con tutti i tuoi dati, ovunque.

Report Cost of a Data Breach 2025

I costi delle violazioni dei dati non sono mai stati così elevati. Ottieni insight aggiornati sulle minacce alla cybersecurity e sul loro impatto finanziario sulle organizzazioni.

Rendering 3D di due righe di diverse icone come una fotocamera, una manopola del volume e una cartellina

La guida ai dati AI-ready per i leader dei dati

Scopri i passi concreti che i leader dei dati possono intraprendere per superare le sfide legate ai dati, creare le basi per una piattaforma dati affidabile e preparare i dati della tua organizzazione per l’AI.

Rendering 3D di diverse icone allineate, come la fotocamera, la manopola del volume e gli appunti

Come i vertici aziendali trasformano le informazioni in impatto

Esplora gli insight di 1.700 CDO in questo report intersettoriale per i leader dei dati.

Soluzioni correlate

IBM StreamSets

Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.

Esplora StreamSets

IBM watsonx.data™

Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data

Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics

Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Note a piè di pagina

¹ “The 2025 CDO Study: The AI multiplier effect.” IBM Institute for Business Value, 12 novembre 2025