Vista aerea del sito di costruzione

Gestione dei dati degli agenti: la prossima evoluzione degli ecosistemi di dati aziendali

Gli agenti AI sono ovunque intorno a noi. Questi sistemi eseguono autonomamente compiti con un intervento umano limitato, spesso in modi che a malapena notiamo.

Consideriamo i veicoli autonomi: percepiscono l’ambiente circostante, valutano il contesto e prendono decisioni in tempo reale nell’arco di pochi istanti. Si muovono non perché qualcuno abbia codificato manualmente ogni possibile scenario, ma perché interpretano continuamente i segnali e si adattano via via che l’ambiente cambia.

Ora immagina di portare lo stesso livello di intelligenza in un programma di dati aziendali. Migliaia di set di dati. Milioni di dischi. Vengono prese miliardi di decisioni basate sui dati.

La gestione dei dati degli agenti (ADM) rende possibile questo livello di orchestrazione . Grazie alle funzionalità del processo decisionale degli agenti basati sull'AI, le aziende stanno iniziando a reinventare il modo in cui elaborano, governano e utilizzano i loro dati.

Cos'è la gestione dei dati degli agenti?

La gestione dei dati agentica utilizza agenti AI per coordinare e ottimizzare l’intero programma dati dell’azienda.1 Questo include:

Invece di affidarsi a workflow rigidi, ADM utilizza agenti specializzati per portare l'intelligenza in ogni fase del ciclo di vita dei dati. Il sistema può interpretare l'intento, determinare quali dati e politiche sono coinvolti e adattare automaticamente le operazioni al variare delle condizioni.

Molte di queste capacità sono rese possibili da modelli linguistici di grandi dimensioni (LLM), che forniscono il livello di ragionamento all'interno degli agenti. Gli LLM utilizzano l'elaborazione del linguaggio naturale per interpretare l'intento e tradurlo in una strategia dati coordinata, in modo simile a come strumenti come ChatGPT o Google Gemini interpretano i prompt. Si basano su metadata, data lineage, machine learning e business rules per determinare quali dati siano rilevanti, come dovrebbero essere validati e governati, e come dovrebbero essere preparati per l'analisi a valle delle analytics.

Da lì, il sistema basato su agenti delinea i passaggi necessari per completare l'attività relativa ai dati. Ciò può comportare l'accesso alle fonti, l'applicazione di politiche, l'ottimizzazione dei workload, la gestione dei storage e, in ultima analisi, la produzione di output.

Ciò che distingue la gestione dei dati degli agenti dalla gestione dei dati tradizionale è il fatto che è auto-adattativa e si evolve in base al contesto. Impara continuamente dai segnali e si adatta man mano che le condizioni cambiano, invece di trattare il workflow come un artefatto fisso.

Per esempio, un responsabile della supply chain potrebbe fornire l'istruzione "monitorare i feed in arrivo e risolvere i record duplicati quando appaiono". Quando arrivano nuovi ordini, il sistema basato sull'AI interpreta l'intento e adatta il suo piano in tempo reale, unendo i record, segnalando incongruenze e delegando compiti agli agenti man mano che le condizioni cambiano.

Pur essendo ancora un approccio emergente, le organizzazioni stanno già utilizzando ADM per migliorare l'affidabilità dei dati e l'efficienza operativa attraverso:

  • Convalida e qualità dei dati automatizzate: rilevamento della deriva dei dati, incoerenze e cambiamenti inattesi mentre i dati si spostano all’interno dell’organizzazione.
  • Integrazione dei dati self-service: trasformare le richieste di integrazione in linguaggio naturale in pipeline governate e pronte all'uso.
  • Conformità per i dati in movimento: garantire che i dati rimangano conformi durante gli spostamenti, utilizzando i guardrail dell'osservabilità continua per fare rispettare i requisiti di qualità, lineage e normativi.
  • Arricchimento consapevole del contesto: aggiornare le classificazioni e gli attributi in base all'evoluzione della logica aziendale.
  • Ottimizzazione dell'orchestrazione: adeguamento dei percorsi di esecuzione in base a costi, prestazioni o condizioni del sistema.

Perché la gestione dei dati degli agenti è importante ora

Le aziende stanno generando più dati che mai, su un numero sempre maggiore di sistemi. Tuttavia, con l'aumento dei volumi e con le architetture sempre più ibride e distribuite, molte organizzazioni faticano ancora a trasformare quei dati complessi in insight affidabili e in in tempo reale. Di fatto, il 76% delle aziende ammette di aver preso decisioni senza consultare i dati perché erano troppo difficili da reperire.

I tradizionali approcci alla gestione dei dati si basano fortemente su interventi manuali e umani, rendendoli lenti nell'adattarsi quando gli schemi cambiano, le metriche si evolvono o la logica operativa si sposta. La gestione dei dati agentici sta guadagnando slancio perché affronta diverse pressioni sistemiche che gli approcci legacy non riescono a gestire:

Crescente complessità e architetture frammentate

Hybrid cloud, multicloud e data warehouse distribuiti creano catene di dipendenze difficili da mantenere. I processi manuali faticano a scalare quando set di dati e application programming interface (API) si evolvono quotidianamente.

L'alto costo dei dati di bassa qualità

La scarsa qualità dei dati comporta dei costi: falsi KPI, previsioni disallineate e dati clienti obsoleti che influenzano i sistemi a valle. I rischi si accumulano, soprattutto in settori altamente regolamentati come i servizi finanziari e la sanità.

Domanda di processo decisionale in tempo reale

Le aziende moderne operano basandosi su real-time analytics e sistemi di AI, che necessitano di dati accurati e in tempo reale per soddisfare le aspettative. Quando le pipeline si bloccano o falliscono silenziosamente, la latenza aumenta, il processo decisionale rallenta e l'efficienza operativa ne risente.

Limitazioni di capacità nei team di dati

Con l’aumento della domanda di dati, i team centralizzati (ancora dipendenti da processi manuali di integrazione e distribuzione) faticano a stare al passo, rallentando sempre più il processo decisionale in tutta l’organizzazione.

L'onere del monitoraggio reattivo

Quando il monitoraggio dei dati è in gran parte manuale, i problemi tendono a emergere solo dopo che i processi a valle sono stati colpiti, costringendo i team dati a dedicare tempo eccessivo al debug reattivo, anziché ad attività di maggior valore.

Anche i moderni programmi dati affrontano sfide strutturali che gli approcci manuali non possono risolvere. Oltre il 50% delle organizzazioni si affida a tre o più strumenti di integrazione dei dati, creando workflow frammentati e logiche incoerenti tra i team. Questa frammentazione si traduce in problemi più ampi: i controlli di qualità avvengono troppo tardi, le regole di governance si spostano tra i sistemi, le interruzioni di lineage passano inosservate e le definizioni semantiche cadono in disaccordo. In realtà, il 77% delle organizzazioni non ha i talenti necessari per gestire tale complessità.

Queste pressioni hanno un impatto diretto sui team di dati. Gli ingegneri dedicano il 10-30% del loro tempo a scoprire problemi relativi ai dati e un altro 10-30% a risolverli: più di 770 ore all'anno per ingegnere, o più di 40.000 dollari in manodopera sprecata. Nel frattempo, analisti e utenti business attendono in media da 1 a 4 settimane per i dati di cui hanno bisogno perché le attività di integrazione sono isolate o bloccate.

La gestione dei dati agenti rappresenta un cambiamento nel modo in cui le aziende garantiscono accuratezza, qualità e integrità dei dati su larga scala. Invece di eseguire lo script per ogni trasformazione o mantenere regole rigide, le organizzazioni possono introdurre agenti AI per scalare la creazione di pipeline, ottimizzare le operazioni dei dati, ridurre i colli di bottiglia e sostenere dati di alta qualità con molto meno interventi manuali. Con operazioni più efficienti e dati affidabili durante l'intero ciclo di vita, i team di dati possono concentrarsi sulla strategia piuttosto che sulla rielaborazione.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Componenti principali della gestione dei dati agentica

La gestione dei dati agentica unisce quattro componenti fondamentali, ognuno reso possibile da un livello coordinato di modelli di AI, agenti e tecnologie semantiche:

  • Interpretazione dell'intento
  • Esecuzione dei piani
  • Applicazione del contesto semantico
  • Applicare la governance

Interpretazione dell'intento

Quando un utente fornisce un prompt o una richiesta, un agente utilizza le sue capacità di ragionamento per interpretarne l’intento. Elabora un piano che delinea gli asset di dati necessari, le regole di governance, le considerazioni semantiche, le convalide e le fasi operative. Altri agenti poi valutano questo piano dai rispettivi domini, confermando i modelli necessari, le business rules, il lineage, le dipendenze e i metadati del catalogo prima che inizi qualsiasi azione.

Questa orchestrazione riduce significativamente la necessità per i team di unire manualmente i processi lungo il ciclo di vita dei dati, riducendo il tempo di aggregazione dei dati per analytics e allineando le operazioni dati con l'intento di business. Gli agenti possono anche evidenziare ambiguità e convalidare le ipotesi, incorporando direttamente la strategia dei dati e le politiche di governance nel piano proposto.

Esecuzione dei piani

Successivamente, gli agenti AI svolgono il lavoro definito dal piano. Accedono e interpretano i dati tra i sistemi, applicano la governance e i controlli di qualità, gestiscono il comportamento dello storage, eseguono le fasi di trattamento dei dati e preparano gli output per il consumo a valle. Gli agenti possono anche ottimizzare per costi o latenza, adattare le operazioni quando i sistemi falliscono e mappare le dipendenze all'interno dell'ecosistema dei dati.

Con così tante parti in movimento, gli agenti AI aiutano a garantire che le operazioni sui dati rimangano affidabili man mano che gli schemi si evolvono o i workload cambiano. Riducono compiti ripetitivi e lunghi durante tutto il ciclo di vita dei dati e migliorano la scalabilità delle iniziative aziendali.

Applicazione del contesto semantico

I sistemi di metadati tradizionali descrivono la struttura catturando campi, formati e definizioni di schemi. Al contrario, i database vettoriali possono funzionare come uno strato semantico, catturando il significato attraverso la rappresentazione delle relazioni tra gli elementi dei dati e del contesto in cui vengono utilizzati. Uno delinea la forma, mentre l'altro ne rivela la consistenza.

I database vettoriali memorizzano embedding che rappresentano metriche, set di dati e termini aziendali come vettori matematici. Ciò consente ai sistemi agentici di misurare la somiglianza, scoprire relazioni semantiche e rilevare cambiamenti di significato, anche quando lo schema rimane lo stesso.

Il livello semantico supporta:

Applicare la governance

Una governance efficace è fondamentale per la gestione dei dati agentica. Invece di affidarsi alle revisioni manuali, questi sistemi applicano continuamente controlli di policy, qualità e sicurezza via via che i dati si spostano nel loro ciclo di vita. Le regole di convalida e le protezioni per l'integrità vengono applicate durante l'esecuzione per garantire che gli output rimangano accurati e affidabili in tutto l'ecosistema dei dati aziendali.

Alcune organizzazioni stanno persino implementando agenti "guardiani" leggeri, piccoli agenti di supervisione che monitorano il comportamento e la salute della pipeline in tempo reale, per mantenere l'osservabilità e emergere i problemi prima che compromettano i workflow a valle. Questa supervisione aggiuntiva aiuta a mantenere le pipeline automatizzate veloci, affidabili e allineate agli standard di gestione dei dati aziendali .

Gestione dei dati degli agenti in azione

Questi componenti si uniscono in un workflow a loop chiuso che integra l’intento umano, la pianificazione basata su LLM, l’esecuzione orchestrata dall’AI e la convalida. Un'interazione tipica è simile a questa:

  1. Un utente esprime un'intenzione: fornisce un'istruzione in linguaggio naturale, come "Combina i dati del CRM e della supply chain e rileva le anomalie".
  2. Viene elaborato un piano: un agente di pianificazione basato su LLM analizza le istruzioni, identifica i set di dati pertinenti e produce una strategia di esecuzione allineata alle policy di governance e alla strategia dei dati.
  3. Il piano viene eseguito: agenti dedicati si connettono ai sistemi, estraggono dati da warehouse e API, armonizzano gli schemi, applicano le trasformazioni, convalidano gli output e arricchiscono gli attributi, il tutto in tempo reale.
  4. Il sistema applica delle barriere durante l'esecuzione: le politiche di governance dei dati e i controlli semantici vengono applicati automaticamente ad ogni fase. La logica di supervisione (il livello agente che valuta e applica i guardrail) monitora l'attività in tempo reale e blocca le azioni che violano gli standard.
  5. Il workflow si adatta ai cambiamenti: se uno schema cambia, una dipendenza si interrompe o una definizione aziendale si evolve, il sistema ripianifica i passaggi e adatta il modello di orchestrazione .

Gestione dei dati degli agenti vs. gestione dei dati principale

Sebbene spesso presentata come approcci concorrenti, la gestione dei dati degli agenti migliora in realtà la gestione dei dati principale (MDM) rendendola più dinamica.

L'MDM definisce le entità aziendali, stabilisce le regole di governance e mantiene la coerenza tra i sistemi di record. Aiuta a creare un "golden record", cioè una singola fonte di verità che integra dati provenienti da varie fonti, in modo che tutti nell'organizzazione lavorano con le stesse informazioni.

ADM mette in funzione queste fondamenta validandole man mano che i dati si spostano, applicandole all'intero programma dati e adattandole quando le condizioni cambiano.

I due approcci differiscono in diversi aspetti importanti:

Gestione delle modifiche

La MDM aggiorna le definizioni attraverso processi governati e cicli di gestione periodici. L'ADM rileva i cambiamenti non appena si verificano, come gli aggiornamenti dello schema e le metriche ridefinite, e li ricalibra per mantenere allineati i sistemi a valle.

Ambito di responsabilità

La gestione dei dispositivi mobili (MDM) stabilisce record autorevoli all'interno di domini resi accurati come clienti, fornitori e prodotti. L'ADM estende quella responsabilità all'ecosistema, garantendo che quelle definizioni rimangano coerenti tra sistemi operativi, applicazioni e analytics.

Focus operativo

La MDM gestisce i dati a riposo, ottimizzando i record attraverso l'abbinamento, la pulizia e la standardizzazione. L'ADM gestisce i dati in movimento, applicando guardrail, controlli di lineage e validazione semantica mentre i dati fluiscono attraverso l'organizzazione.

Modello di esecuzione

La MDM si basa su regole e supervisione umana: i data steward scrivono mappe, revisionano eccezioni e aggiornano i processi. ADM utilizza l'orchestrazione intent-driven: gli agenti intelligenti interpretano gli obiettivi aziendali, generano un piano ed eseguono e convalidano autonomamente il workflow.

Adattabilità

La gestione dei dispositivi mobili (MDM) si adatta al ritmo del processo, riflettendo i cambiamenti solo dopo il completamento del workflow di governance. L'ADM si adatta al ritmo del cambiamento, regolando la logica e il comportamento della pipeline in modo dinamico via via che le definizioni, i set di dati e le condizioni aziendali si evolvono.

Navigare nel futuro della gestione dei dati

In un'era di business senza ostacoli e in tempo reale, la gestione dei dati sta passando da workflow rigidi e basati su regole a comportamenti adattivi e basati sugli intenti. La ricerca IBM su AI, data readiness e operating models punta a tre importanti cambiamenti che stanno plasmando questo nuovo landscape della gestione dei dati.

Le pipeline si comporteranno in modo diverso dall'esecuzione

L'agentic AI sposta i workflow oltre gli script statici e verso un comportamento adattivo e sensibile al contesto. Le pipeline risponderanno ai cambiamenti nei metadati, nelle business rules, nel carico operativo e nei vincoli di governance, alterando il loro percorso di esecuzione invece di interrompersi quando le condizioni cambiano.

In queste architetture basate su agenti, i sistemi multi-agente sostituiscono le piattaforme monolitiche: gli agenti specializzati gestiscono l'ingestione, la qualità, la lineage o l'ottimizzazione, mentre un agente supervisore mantiene l'allineamento con intenti e politiche.

La semantica sarà importante tanto quanto la struttura

I dati AI-ready dipendono non solo dall'accuratezza dello schema, ma anche dalla coerenza semantica. I problemi di qualità dei dati odierni spesso risalgono al drift dello schema, ma quelli di domani deriveranno da drift semantico: significati aziendali che si evolvono senza cambiamenti strutturali. Man mano che i segmenti di clienti cambiano o le gerarchie di prodotto si evolvono, i sistemi agentici dovranno individuare le incongruenze di significato, non solo di formato.

La memoria semantica, la comprensione vettoriale e la validazione consapevole del contesto stanno diventando essenziali per mantenere dati affidabili e pronti per l'AI.

I team di gestione dei dati passeranno da costruttori a supervisori

Con la maturazione dei modelli operativi basati su agenti, gli ingegneri dei dati passano dalla codifica manuale delle trasformazioni alla supervisione di sistemi autonomi. Questo significa progettare guardrail, rivedere le decisioni degli agenti e risolvere nuovi casi limite man mano che si presentano.

Questo cambiamento pone la spiegabilità al centro del modello: tracce di ragionamento, registri verificabili e checkpoint umani diventano necessari per la fiducia e la conformità.

Autori

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Soluzioni correlate
IBM StreamSets

Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.

Esplora StreamSets
IBM watsonx.data™

Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

  1. Esplora le soluzioni di gestione dei dati
  2. Scopri watsonx.data
Note a piè di pagina