Cos'è l'agentic AI data engineering?

Definizione di agentic AI data engineering

L'agentic AI data engineering è la distribuzione di agenti AI per migliorare e accelerare la creazione e la manutenzione dei sistemi che aggregano e analizzano i dati.

 

Come suggerisce il nome, l'agentic AI data engineering è la fusione di data engineering e di agentic AI. La prima è la pratica dello sviluppo e della manutenzione dell'infrastruttura dei dati e delle pipeline di dati, parte integrante della gestione dei dati.

La seconda si riferisce a sistemi di intelligenza artificiale in grado di raggiungere obiettivi specifici con una supervisione umana limitata. In un framework di sistema multiagente, i sottocompiti eseguiti da più agenti AI, modelli di machine learning che imitano il processo decisionale umano, sono coordinati tramite l'orchestrazione dell'AI.

Nel data engineering, gli agenti AI possono eseguire processi di risoluzione dei problemi in più fasi, fondamentali per garantire la disponibilità di dati di alta qualità per i casi d'uso aziendali. Questi processi includono la progettazione di pipeline di dati e l'esecuzione di compiti critici di trattamento dei dati, come l'esecuzione di trasformazioni e il rilevamento di problemi.

Conosciuta anche come agentic data engineering, l'agentic AI data engineering può ridurre notevolmente i workload dei team di data engineering, ottimizzando anche le prestazioni delle pipeline di dati. Inoltre, l'agentic AI data engineering può permettere agli utenti business di accedere e ottenere insight dai dati aziendali anche se non hanno competenze tecniche.

Cosa rende importante l'agentic AI data engineering?

Per capire perché i sistemi di agentic AI vengono adottati per il data engineering, è utile esaminare più da vicino la natura della moderna ingegneria dei dati.

Il data engineering è fondamentale per le aziende che desiderano sbloccare valore da ecosistemi dati sempre più vasti e complessi. I data engineer aiutano a strutturare e garantire la funzionalità dei workflow che convertono i dati non elaborati in output che forniscono valore reale per il business. Quando viene eseguita con successo, l'ingegneria dei dati si traduce nella distribuzione di set di dati puliti, accurati e tempestivi, che possono essere analizzati per ottenere insight attuabili o utilizzati per alimentare le iniziative di AI.

Man mano che le organizzazioni aumentano la loro dipendenza dal processo decisionale basato sui dati, inclusi i processi sensibili al tempo basati su dati in tempo reale, la necessità di pipeline dati affidabili non è mai stata così grande. Ma le sfide legate alla manutenzione di tali infrastrutture non sono mai state così grandi: gli ingegneri dei dati hanno ora il compito di supervisionare stack di dati e processi di orchestrazione sempre più complessi.

Inevitabilmente, ciò significa che i team di dati trascorrono gran parte del loro tempo a "spegnere le emergenze". In altre parole, si concentrano sulla manutenzione e sulla risoluzione per affrontare i problemi delle pipeline di dati e, peggio ancora, i guasti.

"Quando i team di data engineering creano pipeline, gli ingegneri spesso si affidano a una combinazione di processi pianificati, procedure memorizzate, script complessi e logica di trasformazione." E ognuno di questi funziona insieme solo per mantenere il flusso dei dati. A volte, quando si verifica una singola modifica dello schema o la ridenominazione di una colonna su un sistema di origine, ciò può innescare ore di debug e test di nuovo", ha spiegato Justin Yan, Senior Product Manager di IBM Data & AI, in un video di IBM Technology.

Fortunatamente, ora gli agenti AI possono essere impiegati per gestire gran parte di questo lavoro e per prevenire problemi fin dall'inizio. Gli agenti intelligenti possono "risolvere i problemi di integrazione dei dati, aiutando a pianificare, monitorare e adattarsi alle sfide dei dati in modo che i dati arrivino dove devono essere con la qualità e la tempestività richieste dai workload", ha affermato Yan.

Tecnologie chiave utilizzate nell'agentic AI data engineering

Una combinazione di tecnologie supporta l'implementazione dell'agentic AI per l'ingegneria dei dati.

Agenti AI

Un agente AI è un sistema che esegue autonomamente attività progettando workflow con gli strumenti disponibili, compresi i workflow di dati. Gli agenti utilizzano le tecniche di elaborazione del linguaggio naturale dei modelli linguistici di grandi dimensioni per comprendere e rispondere agli input degli utenti in modo graduale e per determinare quando ricorrere a strumenti esterni.

Elaborazione del linguaggio naturale

L'elaborazione del linguaggio naturale (NLP) è un sottocampo dell'informatica e dell'AI che utilizza il machine learning per consentire ai computer di comprendere e comunicare con il linguaggio umano. L'NLP svolge un ruolo sempre più importante nelle soluzioni aziendali che aiutano a snellire e automatizzare le operazioni aziendali.

Apprendimento automatico

Il machine learning è il sottoinsieme dell'AI focalizzato su algoritmi che possono "imparare" i pattern dei dati di addestramento. Tali algoritmi utilizzano poi il riconoscimento dei pattern per fare inferenze accurate su nuovi dati. Il machine learning fornisce la spina dorsale della maggior parte dei sistemi di AI moderni, inclusi modelli linguistici di grandi dimensioni e altri strumenti di AI generativa.

Modelli linguistici di grandi dimensioni

I modelli linguistici di grandi dimensioni (LLM) sono un tipo di modello di deep learning in grado di comprendere e generare linguaggio naturale e altri tipi di contenuti per eseguire una moltitudine di attività. Le loro capacità derivano da tecniche di elaborazione del linguaggio naturale e dall'addestramento su enormi quantità di dati che li aiutano a gestire il linguaggio umano non strutturato su larga scala.

Come funziona l'agentic AI data engineering?

Sebbene l'uso di agenti autonomi per il data engineering possa variare a seconda del sistema di dati e del team di ingegneria, ecco una panoramica di come i sistemi basati sull'AI possono gestire diversi processi e attività di ingegneria dei dati in un ciclo di vita dei dati.

Creazione di pipeline di dati

L'agentic AI data engineering consente alle organizzazioni di automatizzare la creazione di pipeline di dati. Gli utenti possono dichiarare le loro intenzioni riguardo a ciò che una pipeline fornisce utilizzando il linguaggio naturale, senza delineare i passaggi necessari per ottenere i risultati desiderati. Spetta all'agente AI determinare come funzionerà la pipeline. Questo è noto come authoring dichiarativo della pipeline ed è un'alternativa all'approccio più pratico della codifica di ogni fase della pipeline.

Dopo che un utente invia una richiesta in linguaggio naturale, gli LLM analizzano la richiesta e comprendono l'intento dell'utente. Successivamente, un agente AI progetta e spesso implementa un processo end-to-end che include:

  • Connessione e ingestione da fonti di dati
  • Applicazione delle trasformazioni dei dati
  • Trasferimento di nuovi dati su un sistema target

Gli utenti con maggiori conoscenze tecniche possono scegliere di specificare la struttura della pipeline di dati richiesta. Possono farlo utilizzando un kit di sviluppo software Python (SDK) che consente agli LLM di scrivere ed eseguire script Python basati su richieste degli utenti per vari compiti legati ai dati, come la selezione di una sorgente dati o la pulizia dei dati.

Esecuzione di lavori

Una volta progettata la pipeline, un sistema di agentic AI può eseguire i workload. Gli agenti AI utilizzano la chiamata di strumenti per interagire con strumenti esterni, application programming interface (API) o sistemi necessari per connettersi alle fonti di dati, comprendere metadata e eseguire Trasformazioni.

Gli agenti selezionano anche il percorso di esecuzione ottimale per i workflow dati in ambienti ibridi. Questo include la scelta dinamica dei migliori approcci di Integrazione (streaming in tempo reale, batch ETL/ELT o replica) e degli ambienti di tempo di esecuzione (on-premise, in un ambiente cloud o tramite pushdown e motori remoti) per ogni parte del lavoro.

L'apprendimento per rinforzo può aiutare gli agenti a migliorare i piani della pipeline nel tempo, premiando le esecuzioni della pipeline configurate e completate correttamente.

Monitoraggio continuo

Un sistema agentico può abilitare l'observability monitorando continuamente le pipeline. Gli agenti sono in grado di rilevare deviazioni dallo schema, anomalie nei dati e problemi di qualità dei dati . Possono anche supportare l'analisi della causa principale per i problemi della pipeline, consigliare i passaggi di correzione ed eseguire tali passaggi.

L'esecuzione autonoma delle correzioni pipeline può essere particolarmente utile in momenti altrimenti difficili. "E se un lavoro fallisse di notte?" Invece di chiamare qualcuno, l'agente può riprovare le esecuzioni, scalare i motori e regolare la logica del flusso automaticamente," ha spiegato il Product Manager di IBM John Wen in un video di IBM Tecnologia.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Quali sono i vantaggi dell'agentic AI data engineering?

L'agentic AI data engineering offre una serie di vantaggi alle organizzazioni, ai loro team dati e agli utenti business, tra cui:

Gestione della complessità negli ambienti di dati

Una sfida fondamentale che i data engineer dei affrontano oggi è gestire i dati attraverso ambienti complessi e in silos : diversi cloud, data warehouse, data lake, server on-premises e altro ancora. Alcuni dati sono organizzati in fogli di calcolo e database SQL, ma molti altri sono non strutturati e si trovano in documenti, e-mail, trascrizioni e immagini. In un sistema aziendale, gli agenti di AI possono connettersi a una vasta gamma di fonti di dati e integrare vari formati dati, creando piattaforme dati unificate che consentono analytics più ricche e previsioni più accurate.

Migliorare la qualità dei dati

Gli agenti AI possono automatizzare la profilazione e la convalida dei dati, la creazione di regole, il monitoraggio e la correzione. "Gli agenti saranno in grado di rilevare tempestivamente modifiche alle colonne o incongruenze di tipo e proporre correzioni prima che i processi falliscano." Controlli continui per individuare anomalie, backfill automatico e reindirizzamento in caso di guasti alle fonti di dati contribuiranno a mantenere i dati affidabili per gli utilizzi successivi nei sistemi di AI", ha spiegato Yan.

Migliorare l'efficienza

Gli agenti AI possono valutare diverse strategie di esecuzione e identificare potenziali colli di bottiglia e complicazioni, come dipendenze nascoste in diversi stack di applicazioni. Integrando queste informazioni nella progettazione della pipeline, è possibile elaborare piani che riducano al minimo il consumo di risorse e i tempi operativi, raggiungendo al contempo gli obiettivi relativi ai dati.

Inoltre, man mano che l'infrastruttura o gli schemi cambiano, i sistemi agentici possono adattare e riutilizzare le pipeline esistenti, aiutando le imprese a evitare di accumulare pipeline obsolete e debito tecnico.

Supportare la conformità normativa

La progettazione delle pipeline e il monitoraggio continuo da parte degli Agente AI possono garantire che i dati sensibili siano conformi alle leggi sulla privacy dei dati come l'Health Insurance Portability and Accountability Act del 1996 (HIPAA) e il Regolamento generale sulla protezione dei dati (GDPR) dell'Unione Europea. Inoltre, il tracciamento del lineage da parte degli agenti AI può supportare la trasparenza e la verificabilità.

Fornitura di servizi self-service per gli utenti business

Gli utenti business con competenze tecniche minime o nulle non devono più affidarsi esclusivamente a professionisti dei dati per aiutarli a soddisfare le loro esigenze in materia di dati. Possono richiedere la creazione o la consegna di set di dati agli agenti AI invece di aspettare l'assistenza di un data practitioner, ottenendo così più rapidamente insight chiave.

Consentire una crescita scalabile

Gli agenti AI possono progettare, costruire ed eseguire pipeline di dati completamente funzionanti in una frazione del tempo necessario ai team di dati per codificare manualmente tali pipeline. Gli agenti AI possono anche rendere queste pipeline adattabili e "autoriparanti", ovvero possono monitorare e risolvere i problemi prima che interrompano i processi a valle. Nel complesso, ciò significa che le aziende possono continuare ad aggiungere pipeline con sicurezza man mano che il loro complesso dei dati e le esigenze in materia di dati crescono ed evolvono.

Aumento della larghezza di banda per i data engineer

Scaricando la progettazione, la manutenzione e la risoluzione dei problemi di pipeline ai sistemi agentic AI, i data engineer possono aumentare la propria produttività e ottenere più banda per svolgere compiti di alto valore e lavori significativi, come costruire e sperimentare nuove funzionalità.

Considerazioni sull'agentic AI data engineering

Come per altri casi d'uso dell'AI, le aziende devono considerare diverse sfide potenziali quando cercano di implementare l'agentic AI data engineering.

  • La difficoltà di integrare gli agenti AI con i sistemi legacy che non sono intrinsecamente compatibili con la tecnologia AI.

  • Il rischio che gli agenti eseguano autonomamente compiti inaspettati,come rielaborare volumi di dati massicci durante l'orario lavorativo, interrompendo i workflow.

  • Il rischio che gli agenti contribuiscano alle violazioni dei dati, sia perché compromessi da un attacco informatico sia semplicemente per output dell'AI inaffidabili.

Le soluzioni software e le piattaforme possono aiutare le imprese ad affrontare le sfide dell'integrazione dell'agentic AI, inclusi i sistemi basati su AI per l'ingegneria dei dati, nei workflow quotidiani.

Strumenti robusti di governance dell'AI permettono l'integrazione di guardrail per limitare i comportamenti non intenzionali degli agenti e la distribuzione di metriche specializzate per valutare le prestazioni degli agenti. Le soluzioni di orchestrazione AI possono aiutare a colmare le lacune tra le tecnologie AI avanzate e i sistemi aziendali più vecchi senza una lunga ristrutturazione.

Autori

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Soluzioni correlate
IBM StreamSets

Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.

Esplora StreamSets
IBM watsonx.data™

Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

  1. Esplora le soluzioni di gestione dei dati
  2. Scopri watsonx.data