Gli agenti AI sono ovunque intorno a noi. Questi sistemi eseguono autonomamente compiti con un intervento umano limitato, spesso in modi che a malapena notiamo.
Consideriamo i veicoli autonomi: percepiscono l’ambiente circostante, valutano il contesto e prendono decisioni in tempo reale nell’arco di pochi istanti. Si muovono non perché qualcuno abbia codificato manualmente ogni possibile scenario, ma perché interpretano continuamente i segnali e si adattano via via che l’ambiente cambia.
Ora immagina di portare lo stesso livello di intelligenza in un programma di dati aziendali. Migliaia di set di dati. Milioni di dischi. Vengono prese miliardi di decisioni basate sui dati.
La gestione dei dati degli agenti (ADM) rende possibile questo livello di orchestrazione . Grazie alle funzionalità del processo decisionale degli agenti basati sull'AI, le aziende stanno iniziando a reinventare il modo in cui elaborano, governano e utilizzano i loro dati.
Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.
La gestione dei dati agentica utilizza agenti AI per coordinare e ottimizzare l’intero programma dati dell’azienda.1 Questo include:
Invece di affidarsi a workflow rigidi, ADM utilizza agenti specializzati per portare l'intelligenza in ogni fase del ciclo di vita dei dati. Il sistema può interpretare l'intento, determinare quali dati e politiche sono coinvolti e adattare automaticamente le operazioni al variare delle condizioni.
Molte di queste capacità sono rese possibili da modelli linguistici di grandi dimensioni (LLM), che forniscono il livello di ragionamento all'interno degli agenti. Gli LLM utilizzano l'elaborazione del linguaggio naturale per interpretare l'intento e tradurlo in una strategia dati coordinata, in modo simile a come strumenti come ChatGPT o Google Gemini interpretano i prompt. Si basano su metadata, data lineage, machine learning e business rules per determinare quali dati siano rilevanti, come dovrebbero essere validati e governati, e come dovrebbero essere preparati per l'analisi a valle delle analytics.
Da lì, il sistema basato su agenti delinea i passaggi necessari per completare l'attività relativa ai dati. Ciò può comportare l'accesso alle fonti, l'applicazione di politiche, l'ottimizzazione dei workload, la gestione dei storage e, in ultima analisi, la produzione di output.
Ciò che distingue la gestione dei dati degli agenti dalla gestione dei dati tradizionale è il fatto che è auto-adattativa e si evolve in base al contesto. Impara continuamente dai segnali e si adatta man mano che le condizioni cambiano, invece di trattare il workflow come un artefatto fisso.
Per esempio, un responsabile della supply chain potrebbe fornire l'istruzione "monitorare i feed in arrivo e risolvere i record duplicati quando appaiono". Quando arrivano nuovi ordini, il sistema basato sull'AI interpreta l'intento e adatta il suo piano in tempo reale, unendo i record, segnalando incongruenze e delegando compiti agli agenti man mano che le condizioni cambiano.
Pur essendo ancora un approccio emergente, le organizzazioni stanno già utilizzando ADM per migliorare l'affidabilità dei dati e l'efficienza operativa attraverso:
Le aziende stanno generando più dati che mai, su un numero sempre maggiore di sistemi. Tuttavia, con l'aumento dei volumi e con le architetture sempre più ibride e distribuite, molte organizzazioni faticano ancora a trasformare quei dati complessi in insight affidabili e in in tempo reale. Di fatto, il 76% delle aziende ammette di aver preso decisioni senza consultare i dati perché erano troppo difficili da reperire.
I tradizionali approcci alla gestione dei dati si basano fortemente su interventi manuali e umani, rendendoli lenti nell'adattarsi quando gli schemi cambiano, le metriche si evolvono o la logica operativa si sposta. La gestione dei dati agentici sta guadagnando slancio perché affronta diverse pressioni sistemiche che gli approcci legacy non riescono a gestire:
Hybrid cloud, multicloud e data warehouse distribuiti creano catene di dipendenze difficili da mantenere. I processi manuali faticano a scalare quando set di dati e application programming interface (API) si evolvono quotidianamente.
La scarsa qualità dei dati comporta dei costi: falsi KPI, previsioni disallineate e dati clienti obsoleti che influenzano i sistemi a valle. I rischi si accumulano, soprattutto in settori altamente regolamentati come i servizi finanziari e la sanità.
Le aziende moderne operano basandosi su real-time analytics e sistemi di AI, che necessitano di dati accurati e in tempo reale per soddisfare le aspettative. Quando le pipeline si bloccano o falliscono silenziosamente, la latenza aumenta, il processo decisionale rallenta e l'efficienza operativa ne risente.
Con l’aumento della domanda di dati, i team centralizzati (ancora dipendenti da processi manuali di integrazione e distribuzione) faticano a stare al passo, rallentando sempre più il processo decisionale in tutta l’organizzazione.
Quando il monitoraggio dei dati è in gran parte manuale, i problemi tendono a emergere solo dopo che i processi a valle sono stati colpiti, costringendo i team dati a dedicare tempo eccessivo al debug reattivo, anziché ad attività di maggior valore.
Anche i moderni programmi dati affrontano sfide strutturali che gli approcci manuali non possono risolvere. Oltre il 50% delle organizzazioni si affida a tre o più strumenti di integrazione dei dati, creando workflow frammentati e logiche incoerenti tra i team. Questa frammentazione si traduce in problemi più ampi: i controlli di qualità avvengono troppo tardi, le regole di governance si spostano tra i sistemi, le interruzioni di lineage passano inosservate e le definizioni semantiche cadono in disaccordo. In realtà, il 77% delle organizzazioni non ha i talenti necessari per gestire tale complessità.
Queste pressioni hanno un impatto diretto sui team di dati. Gli ingegneri dedicano il 10-30% del loro tempo a scoprire problemi relativi ai dati e un altro 10-30% a risolverli: più di 770 ore all'anno per ingegnere, o più di 40.000 dollari in manodopera sprecata. Nel frattempo, analisti e utenti business attendono in media da 1 a 4 settimane per i dati di cui hanno bisogno perché le attività di integrazione sono isolate o bloccate.
La gestione dei dati agenti rappresenta un cambiamento nel modo in cui le aziende garantiscono accuratezza, qualità e integrità dei dati su larga scala. Invece di eseguire lo script per ogni trasformazione o mantenere regole rigide, le organizzazioni possono introdurre agenti AI per scalare la creazione di pipeline, ottimizzare le operazioni dei dati, ridurre i colli di bottiglia e sostenere dati di alta qualità con molto meno interventi manuali. Con operazioni più efficienti e dati affidabili durante l'intero ciclo di vita, i team di dati possono concentrarsi sulla strategia piuttosto che sulla rielaborazione.
La gestione dei dati agentica unisce quattro componenti fondamentali, ognuno reso possibile da un livello coordinato di modelli di AI, agenti e tecnologie semantiche:
Quando un utente fornisce un prompt o una richiesta, un agente utilizza le sue capacità di ragionamento per interpretarne l’intento. Elabora un piano che delinea gli asset di dati necessari, le regole di governance, le considerazioni semantiche, le convalide e le fasi operative. Altri agenti poi valutano questo piano dai rispettivi domini, confermando i modelli necessari, le business rules, il lineage, le dipendenze e i metadati del catalogo prima che inizi qualsiasi azione.
Questa orchestrazione riduce significativamente la necessità per i team di unire manualmente i processi lungo il ciclo di vita dei dati, riducendo il tempo di aggregazione dei dati per analytics e allineando le operazioni dati con l'intento di business. Gli agenti possono anche evidenziare ambiguità e convalidare le ipotesi, incorporando direttamente la strategia dei dati e le politiche di governance nel piano proposto.
Successivamente, gli agenti AI svolgono il lavoro definito dal piano. Accedono e interpretano i dati tra i sistemi, applicano la governance e i controlli di qualità, gestiscono il comportamento dello storage, eseguono le fasi di trattamento dei dati e preparano gli output per il consumo a valle. Gli agenti possono anche ottimizzare per costi o latenza, adattare le operazioni quando i sistemi falliscono e mappare le dipendenze all'interno dell'ecosistema dei dati.
Con così tante parti in movimento, gli agenti AI aiutano a garantire che le operazioni sui dati rimangano affidabili man mano che gli schemi si evolvono o i workload cambiano. Riducono compiti ripetitivi e lunghi durante tutto il ciclo di vita dei dati e migliorano la scalabilità delle iniziative aziendali.
I sistemi di metadati tradizionali descrivono la struttura catturando campi, formati e definizioni di schemi. Al contrario, i database vettoriali possono funzionare come uno strato semantico, catturando il significato attraverso la rappresentazione delle relazioni tra gli elementi dei dati e del contesto in cui vengono utilizzati. Uno delinea la forma, mentre l'altro ne rivela la consistenza.
I database vettoriali memorizzano embedding che rappresentano metriche, set di dati e termini aziendali come vettori matematici. Ciò consente ai sistemi agentici di misurare la somiglianza, scoprire relazioni semantiche e rilevare cambiamenti di significato, anche quando lo schema rimane lo stesso.
Il livello semantico supporta:
Una governance efficace è fondamentale per la gestione dei dati agentica. Invece di affidarsi alle revisioni manuali, questi sistemi applicano continuamente controlli di policy, qualità e sicurezza via via che i dati si spostano nel loro ciclo di vita. Le regole di convalida e le protezioni per l'integrità vengono applicate durante l'esecuzione per garantire che gli output rimangano accurati e affidabili in tutto l'ecosistema dei dati aziendali.
Alcune organizzazioni stanno persino implementando agenti "guardiani" leggeri, piccoli agenti di supervisione che monitorano il comportamento e la salute della pipeline in tempo reale, per mantenere l'osservabilità e emergere i problemi prima che compromettano i workflow a valle. Questa supervisione aggiuntiva aiuta a mantenere le pipeline automatizzate veloci, affidabili e allineate agli standard di gestione dei dati aziendali .
Questi componenti si uniscono in un workflow a loop chiuso che integra l’intento umano, la pianificazione basata su LLM, l’esecuzione orchestrata dall’AI e la convalida. Un'interazione tipica è simile a questa:
Sebbene spesso presentata come approcci concorrenti, la gestione dei dati degli agenti migliora in realtà la gestione dei dati principale (MDM) rendendola più dinamica.
L'MDM definisce le entità aziendali, stabilisce le regole di governance e mantiene la coerenza tra i sistemi di record. Aiuta a creare un "golden record", cioè una singola fonte di verità che integra dati provenienti da varie fonti, in modo che tutti nell'organizzazione lavorano con le stesse informazioni.
ADM mette in funzione queste fondamenta validandole man mano che i dati si spostano, applicandole all'intero programma dati e adattandole quando le condizioni cambiano.
I due approcci differiscono in diversi aspetti importanti:
La MDM aggiorna le definizioni attraverso processi governati e cicli di gestione periodici. L'ADM rileva i cambiamenti non appena si verificano, come gli aggiornamenti dello schema e le metriche ridefinite, e li ricalibra per mantenere allineati i sistemi a valle.
La gestione dei dispositivi mobili (MDM) stabilisce record autorevoli all'interno di domini resi accurati come clienti, fornitori e prodotti. L'ADM estende quella responsabilità all'ecosistema, garantendo che quelle definizioni rimangano coerenti tra sistemi operativi, applicazioni e analytics.
La MDM gestisce i dati a riposo, ottimizzando i record attraverso l'abbinamento, la pulizia e la standardizzazione. L'ADM gestisce i dati in movimento, applicando guardrail, controlli di lineage e validazione semantica mentre i dati fluiscono attraverso l'organizzazione.
La MDM si basa su regole e supervisione umana: i data steward scrivono mappe, revisionano eccezioni e aggiornano i processi. ADM utilizza l'orchestrazione intent-driven: gli agenti intelligenti interpretano gli obiettivi aziendali, generano un piano ed eseguono e convalidano autonomamente il workflow.
La gestione dei dispositivi mobili (MDM) si adatta al ritmo del processo, riflettendo i cambiamenti solo dopo il completamento del workflow di governance. L'ADM si adatta al ritmo del cambiamento, regolando la logica e il comportamento della pipeline in modo dinamico via via che le definizioni, i set di dati e le condizioni aziendali si evolvono.
In un'era di business senza ostacoli e in tempo reale, la gestione dei dati sta passando da workflow rigidi e basati su regole a comportamenti adattivi e basati sugli intenti. La ricerca IBM su AI, data readiness e operating models punta a tre importanti cambiamenti che stanno plasmando questo nuovo landscape della gestione dei dati.
L'agentic AI sposta i workflow oltre gli script statici e verso un comportamento adattivo e sensibile al contesto. Le pipeline risponderanno ai cambiamenti nei metadati, nelle business rules, nel carico operativo e nei vincoli di governance, alterando il loro percorso di esecuzione invece di interrompersi quando le condizioni cambiano.
In queste architetture basate su agenti, i sistemi multi-agente sostituiscono le piattaforme monolitiche: gli agenti specializzati gestiscono l'ingestione, la qualità, la lineage o l'ottimizzazione, mentre un agente supervisore mantiene l'allineamento con intenti e politiche.
I dati AI-ready dipendono non solo dall'accuratezza dello schema, ma anche dalla coerenza semantica. I problemi di qualità dei dati odierni spesso risalgono al drift dello schema, ma quelli di domani deriveranno da drift semantico: significati aziendali che si evolvono senza cambiamenti strutturali. Man mano che i segmenti di clienti cambiano o le gerarchie di prodotto si evolvono, i sistemi agentici dovranno individuare le incongruenze di significato, non solo di formato.
La memoria semantica, la comprensione vettoriale e la validazione consapevole del contesto stanno diventando essenziali per mantenere dati affidabili e pronti per l'AI.
Con la maturazione dei modelli operativi basati su agenti, gli ingegneri dei dati passano dalla codifica manuale delle trasformazioni alla supervisione di sistemi autonomi. Questo significa progettare guardrail, rivedere le decisioni degli agenti e risolvere nuovi casi limite man mano che si presentano.
Questo cambiamento pone la spiegabilità al centro del modello: tracce di ragionamento, registri verificabili e checkpoint umani diventano necessari per la fiducia e la conformità.
Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.
Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.
Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.
1 “Can AI Autonomously Build, Operate and Use the Entire Data Stack?” IBM Research, 8 dicembre 2025