Cos'è l'agentic AI data engineering?

By Alice Gomstyn , Alexandra Jonker

Definizione di agentic AI data engineering

L'agentic AI data engineering è la distribuzione di agenti AI per migliorare e accelerare la creazione e la manutenzione dei sistemi che aggregano e analizzano i dati.

Come suggerisce il nome, l'agentic AI data engineering è la fusione di data engineering e di agentic AI. La prima è la pratica dello sviluppo e della manutenzione dell'infrastruttura dei dati e delle pipeline di dati, parte integrante della gestione dei dati.

La seconda si riferisce a sistemi di intelligenza artificiale in grado di raggiungere obiettivi specifici con una supervisione umana limitata. In un framework di sistema multiagente, i sottocompiti eseguiti da più agenti AI, modelli di machine learning che imitano il processo decisionale umano, sono coordinati tramite l'orchestrazione dell'AI.

Nel data engineering, gli agenti AI possono eseguire processi di risoluzione dei problemi in più fasi, fondamentali per garantire la disponibilità di dati di alta qualità per i casi d'uso aziendali. Questi processi includono la progettazione di pipeline di dati e l'esecuzione di compiti critici di trattamento dei dati, come l'esecuzione di trasformazioni e il rilevamento di problemi.

Conosciuta anche come agentic data engineering, l'agentic AI data engineering può ridurre notevolmente i workload dei team di data engineering, ottimizzando anche le prestazioni delle pipeline di dati. Inoltre, l'agentic AI data engineering può permettere agli utenti business di accedere e ottenere insight dai dati aziendali anche se non hanno competenze tecniche.

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.

Cosa rende importante l'agentic AI data engineering?

Per capire perché i sistemi di agentic AI vengono adottati per il data engineering, è utile esaminare più da vicino la natura della moderna ingegneria dei dati.

Il data engineering è fondamentale per le aziende che desiderano sbloccare valore da ecosistemi dati sempre più vasti e complessi. I data engineer aiutano a strutturare e garantire la funzionalità dei workflow che convertono i dati non elaborati in output che forniscono valore reale per il business. Quando viene eseguita con successo, l'ingegneria dei dati si traduce nella distribuzione di set di dati puliti, accurati e tempestivi, che possono essere analizzati per ottenere insight attuabili o utilizzati per alimentare le iniziative di AI.

Man mano che le organizzazioni aumentano la loro dipendenza dal processo decisionale basato sui dati, inclusi i processi sensibili al tempo basati su dati in tempo reale, la necessità di pipeline dati affidabili non è mai stata così grande. Ma le sfide legate alla manutenzione di tali infrastrutture non sono mai state così grandi: gli ingegneri dei dati hanno ora il compito di supervisionare stack di dati e processi di orchestrazione sempre più complessi.

Inevitabilmente, ciò significa che i team di dati trascorrono gran parte del loro tempo a "spegnere le emergenze". In altre parole, si concentrano sulla manutenzione e sulla risoluzione per affrontare i problemi delle pipeline di dati e, peggio ancora, i guasti.

"Quando i team di data engineering creano pipeline, gli ingegneri spesso si affidano a una combinazione di processi pianificati, procedure memorizzate, script complessi e logica di trasformazione." E ognuno di questi funziona insieme solo per mantenere il flusso dei dati. A volte, quando si verifica una singola modifica dello schema o la ridenominazione di una colonna su un sistema di origine, ciò può innescare ore di debug e test di nuovo", ha spiegato Justin Yan, Senior Product Manager di IBM Data & AI, in un video di IBM Technology.

Fortunatamente, ora gli agenti AI possono essere impiegati per gestire gran parte di questo lavoro e per prevenire problemi fin dall'inizio. Gli agenti intelligenti possono "risolvere i problemi di integrazione dei dati, aiutando a pianificare, monitorare e adattarsi alle sfide dei dati in modo che i dati arrivino dove devono essere con la qualità e la tempestività richieste dai workload", ha affermato Yan.

Tecnologie chiave utilizzate nell'agentic AI data engineering

Una combinazione di tecnologie supporta l'implementazione dell'agentic AI per l'ingegneria dei dati.

Agenti AI

Un agente AI è un sistema che esegue autonomamente attività progettando workflow con gli strumenti disponibili, compresi i workflow di dati. Gli agenti utilizzano le tecniche di elaborazione del linguaggio naturale dei modelli linguistici di grandi dimensioni per comprendere e rispondere agli input degli utenti in modo graduale e per determinare quando ricorrere a strumenti esterni.

Elaborazione del linguaggio naturale

L'elaborazione del linguaggio naturale (NLP) è un sottocampo dell'informatica e dell'AI che utilizza il machine learning per consentire ai computer di comprendere e comunicare con il linguaggio umano. L'NLP svolge un ruolo sempre più importante nelle soluzioni aziendali che aiutano a snellire e automatizzare le operazioni aziendali.

Apprendimento automatico

Il machine learning è il sottoinsieme dell'AI focalizzato su algoritmi che possono "imparare" i pattern dei dati di addestramento. Tali algoritmi utilizzano poi il riconoscimento dei pattern per fare inferenze accurate su nuovi dati. Il machine learning fornisce la spina dorsale della maggior parte dei sistemi di AI moderni, inclusi modelli linguistici di grandi dimensioni e altri strumenti di AI generativa.

Modelli linguistici di grandi dimensioni

I modelli linguistici di grandi dimensioni (LLM) sono un tipo di modello di deep learning in grado di comprendere e generare linguaggio naturale e altri tipi di contenuti per eseguire una moltitudine di attività. Le loro capacità derivano da tecniche di elaborazione del linguaggio naturale e dall'addestramento su enormi quantità di dati che li aiutano a gestire il linguaggio umano non strutturato su larga scala.

Come funziona l'agentic AI data engineering?

Sebbene l'uso di agenti autonomi per il data engineering possa variare a seconda del sistema di dati e del team di ingegneria, ecco una panoramica di come i sistemi basati sull'AI possono gestire diversi processi e attività di ingegneria dei dati in un ciclo di vita dei dati.

Creazione di pipeline di dati

L'agentic AI data engineering consente alle organizzazioni di automatizzare la creazione di pipeline di dati. Gli utenti possono dichiarare le loro intenzioni riguardo a ciò che una pipeline fornisce utilizzando il linguaggio naturale, senza delineare i passaggi necessari per ottenere i risultati desiderati. Spetta all'agente AI determinare come funzionerà la pipeline. Questo è noto come authoring dichiarativo della pipeline ed è un'alternativa all'approccio più pratico della codifica di ogni fase della pipeline.

Dopo che un utente invia una richiesta in linguaggio naturale, gli LLM analizzano la richiesta e comprendono l'intento dell'utente. Successivamente, un agente AI progetta e spesso implementa un processo end-to-end che include:

Connessione e ingestione da fonti di dati
Applicazione delle trasformazioni dei dati
Trasferimento di nuovi dati su un sistema target

Gli utenti con maggiori conoscenze tecniche possono scegliere di specificare la struttura della pipeline di dati richiesta. Possono farlo utilizzando un kit di sviluppo software Python (SDK) che consente agli LLM di scrivere ed eseguire script Python basati su richieste degli utenti per vari compiti legati ai dati, come la selezione di una sorgente dati o la pulizia dei dati.

Esecuzione di lavori

Una volta progettata la pipeline, un sistema di agentic AI può eseguire i workload. Gli agenti AI utilizzano la chiamata di strumenti per interagire con strumenti esterni, application programming interface (API) o sistemi necessari per connettersi alle fonti di dati, comprendere metadata e eseguire Trasformazioni.

Gli agenti selezionano anche il percorso di esecuzione ottimale per i workflow dati in ambienti ibridi. Questo include la scelta dinamica dei migliori approcci di Integrazione (streaming in tempo reale, batch ETL/ELT o replica) e degli ambienti di tempo di esecuzione (on-premise, in un ambiente cloud o tramite pushdown e motori remoti) per ogni parte del lavoro.

L'apprendimento per rinforzo può aiutare gli agenti a migliorare i piani della pipeline nel tempo, premiando le esecuzioni della pipeline configurate e completate correttamente.

Monitoraggio continuo

Un sistema agentico può abilitare l'observability monitorando continuamente le pipeline. Gli agenti sono in grado di rilevare deviazioni dallo schema, anomalie nei dati e problemi di qualità dei dati . Possono anche supportare l'analisi della causa principale per i problemi della pipeline, consigliare i passaggi di correzione ed eseguire tali passaggi.

L'esecuzione autonoma delle correzioni pipeline può essere particolarmente utile in momenti altrimenti difficili. "E se un lavoro fallisse di notte?" Invece di chiamare qualcuno, l'agente può riprovare le esecuzioni, scalare i motori e regolare la logica del flusso automaticamente," ha spiegato il Product Manager di IBM John Wen in un video di IBM Tecnologia.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Vai all'episodio

Quali sono i vantaggi dell'agentic AI data engineering?

L'agentic AI data engineering offre una serie di vantaggi alle organizzazioni, ai loro team dati e agli utenti business, tra cui:

Gestione della complessità negli ambienti di dati

Una sfida fondamentale che i data engineer dei affrontano oggi è gestire i dati attraverso ambienti complessi e in silos : diversi cloud, data warehouse, data lake, server on-premises e altro ancora. Alcuni dati sono organizzati in fogli di calcolo e database SQL, ma molti altri sono non strutturati e si trovano in documenti, e-mail, trascrizioni e immagini. In un sistema aziendale, gli agenti di AI possono connettersi a una vasta gamma di fonti di dati e integrare vari formati dati, creando piattaforme dati unificate che consentono analytics più ricche e previsioni più accurate.

Migliorare la qualità dei dati

Gli agenti AI possono automatizzare la profilazione e la convalida dei dati, la creazione di regole, il monitoraggio e la correzione. "Gli agenti saranno in grado di rilevare tempestivamente modifiche alle colonne o incongruenze di tipo e proporre correzioni prima che i processi falliscano." Controlli continui per individuare anomalie, backfill automatico e reindirizzamento in caso di guasti alle fonti di dati contribuiranno a mantenere i dati affidabili per gli utilizzi successivi nei sistemi di AI", ha spiegato Yan.

Migliorare l'efficienza

Gli agenti AI possono valutare diverse strategie di esecuzione e identificare potenziali colli di bottiglia e complicazioni, come dipendenze nascoste in diversi stack di applicazioni. Integrando queste informazioni nella progettazione della pipeline, è possibile elaborare piani che riducano al minimo il consumo di risorse e i tempi operativi, raggiungendo al contempo gli obiettivi relativi ai dati.

Inoltre, man mano che l'infrastruttura o gli schemi cambiano, i sistemi agentici possono adattare e riutilizzare le pipeline esistenti, aiutando le imprese a evitare di accumulare pipeline obsolete e debito tecnico.

Supportare la conformità normativa

La progettazione delle pipeline e il monitoraggio continuo da parte degli Agente AI possono garantire che i dati sensibili siano conformi alle leggi sulla privacy dei dati come l'Health Insurance Portability and Accountability Act del 1996 (HIPAA) e il Regolamento generale sulla protezione dei dati (GDPR) dell'Unione Europea. Inoltre, il tracciamento del lineage da parte degli agenti AI può supportare la trasparenza e la verificabilità.

Fornitura di servizi self-service per gli utenti business

Gli utenti business con competenze tecniche minime o nulle non devono più affidarsi esclusivamente a professionisti dei dati per aiutarli a soddisfare le loro esigenze in materia di dati. Possono richiedere la creazione o la consegna di set di dati agli agenti AI invece di aspettare l'assistenza di un data practitioner, ottenendo così più rapidamente insight chiave.

Consentire una crescita scalabile

Gli agenti AI possono progettare, costruire ed eseguire pipeline di dati completamente funzionanti in una frazione del tempo necessario ai team di dati per codificare manualmente tali pipeline. Gli agenti AI possono anche rendere queste pipeline adattabili e "autoriparanti", ovvero possono monitorare e risolvere i problemi prima che interrompano i processi a valle. Nel complesso, ciò significa che le aziende possono continuare ad aggiungere pipeline con sicurezza man mano che il loro complesso dei dati e le esigenze in materia di dati crescono ed evolvono.

Aumento della larghezza di banda per i data engineer

Scaricando la progettazione, la manutenzione e la risoluzione dei problemi di pipeline ai sistemi agentic AI, i data engineer possono aumentare la propria produttività e ottenere più banda per svolgere compiti di alto valore e lavori significativi, come costruire e sperimentare nuove funzionalità.

Considerazioni sull'agentic AI data engineering

Come per altri casi d'uso dell'AI, le aziende devono considerare diverse sfide potenziali quando cercano di implementare l'agentic AI data engineering.

La difficoltà di integrare gli agenti AI con i sistemi legacy che non sono intrinsecamente compatibili con la tecnologia AI.
Il rischio che gli agenti eseguano autonomamente compiti inaspettati,come rielaborare volumi di dati massicci durante l'orario lavorativo, interrompendo i workflow.
Il rischio che gli agenti contribuiscano alle violazioni dei dati, sia perché compromessi da un attacco informatico sia semplicemente per output dell'AI inaffidabili.

Le soluzioni software e le piattaforme possono aiutare le imprese ad affrontare le sfide dell'integrazione dell'agentic AI, inclusi i sistemi basati su AI per l'ingegneria dei dati, nei workflow quotidiani.

Strumenti robusti di governance dell'AI permettono l'integrazione di guardrail per limitare i comportamenti non intenzionali degli agenti e la distribuzione di metriche specializzate per valutare le prestazioni degli agenti. Le soluzioni di orchestrazione AI possono aiutare a colmare le lacune tra le tecnologie AI avanzate e i sistemi aziendali più vecchi senza una lunga ristrutturazione.

Autori

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Rendering 3D di una spirale di diverse icone allineate, come una fotocamera, una manopola del volume e una lavagnetta

Leggi la guida per i Data Leader per scoprire come rendere i dati della tua organizzazione AI-ready.

Risorse

Rendering 3D di diverse icone allineate, come un microfono e una fotocamera

Gli agenti AI funzionano con i dati: i tuoi sono pronti?

I dati sono il tuo vantaggio competitivo. Scopri come sbloccarli in modo sicuro e ottenere un ROI misurabile dall'AI in questo breve webinar.

Cos'è la gestione dei dati

Techsplainers by IBM analizza gli elementi essenziali dei dati per l'AI, dai concetti chiave ai casi d'uso del mondo reale. Gli episodi chiari e rapidi ti aiutano ad apprendere rapidamente le nozioni fondamentali.

Rendering 3D di diverse icone allineate, come una manopola del volume e una cartellina

Unifica e accedi ai tuoi dati per scalare la tua AI

Scopri perché il percorso verso i dati AI-ready spesso inizia con un accesso efficace ai dati strutturati e non strutturati e quali problematiche possono ostacolare i leader dei dati.

Gli oneri legali si trasformano in insight strategici

Scopri come un agente legale basato su AI aiuta ad accelerare il processo decisionale, ridurre il lavoro manuale e migliorare la conformità normativa.

Due uomini che parlano tra loro in un podcast

AI Academy: sviluppare una strategia dei dati per l'AI aziendale

In questo episodio, Cathy Reese spiega come le organizzazioni necessitino attualmente di una strategia dei dati pronta per l’AI avanzata, utilizzando al meglio i loro dati di qualità superiore.

Rendering 3D di diverse icone allineate, come una fotocamera e aeroplani di carta

Il data lakehouse ibrido e aperto per l'AI

Semplifica l'accesso ai dati e automatizza la governance dei dati. Scopri la potenza dell'integrazione di una strategia di data lakehouse nella tua architettura di dati, con ottimizzazione dei costi dei workload e scalabilità dell'AI e dell'analytics, con tutti i tuoi dati, ovunque.

Report Cost of a Data Breach 2025

I costi delle violazioni dei dati non sono mai stati così elevati. Ottieni insight aggiornati sulle minacce alla cybersecurity e sul loro impatto finanziario sulle organizzazioni.

Rendering 3D di due righe di diverse icone come una fotocamera, una manopola del volume e una cartellina

La guida ai dati AI-ready per i leader dei dati

Scopri i passi concreti che i leader dei dati possono intraprendere per superare le sfide legate ai dati, creare le basi per una piattaforma dati affidabile e preparare i dati della tua organizzazione per l’AI.

Rendering 3D di diverse icone allineate, come la fotocamera, la manopola del volume e gli appunti

Come i vertici aziendali trasformano le informazioni in impatto

Esplora gli insight di 1.700 CDO in questo report intersettoriale per i leader dei dati.

Soluzioni correlate

IBM StreamSets

Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.

Esplora StreamSets

IBM watsonx.data™

Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data

Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics

Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.