Perché l'osservabilità è essenziale per gli agenti AI

Autori

Staff Writer

IBM Think

Staff Writer

IBM Think

Mentre l'entusiasmo per l' intelligenza artificiale (AI) continua a diffondersi nel mondo degli affari, l'attenzione si rivolge alla più recente iterazione della tecnologia: gli agenti AI.

A differenza dei modelli di intelligenza artificiale tradizionali, gli agenti AI possono prendere decisioni senza la costante supervisione umana. Lavorano in modo autonomo per raggiungere obiettivi complessi come rispondere alle domande dei clienti, ottimizzare una supply chain o analizzare i dati sanitari per fornire una diagnosi.

In pratica, ciò significa che gli agenti AI possono gestire interi workflow dall'inizio alla fine, ad esempio l'elaborazione automatica dei reclami assicurativi o la gestione dell'inventario, anziché limitarsi a fornire consigli.

Stime recenti mostrano che le organizzazioni stanno rapidamente adottando gli agenti AI. Un sondaggio di KPMG ha rilevato che l'88% delle organizzazioni sta esplorando o pilotando attivamente le iniziative degli agenti di intelligenza artificiale.¹ Gartner prevede che entro il 2028 più di un terzo delle applicazioni software aziendali includerà l'agentic AI, ovvero la tecnologia di base che abilita gli agenti di intelligenza artificiale.²

Tuttavia, le stesse funzionalità che rendono gli agenti AI così preziosi possono anche renderli difficili da monitorare, comprendere e controllare.

Gli agenti AI utilizzano modelli linguistici di grandi dimensioni (LLM) per ragionare, creare workflow e suddividere le attività in sotto-attività. Accedono a strumenti esterni, come database, motori di ricerca e calcolatrici, e usano la memoria per richiamare le conversazioni precedenti e i risultati delle attività.

Sebbene questo processo consenta loro di lavorare in modo indipendente, li rende anche molto meno trasparenti rispetto alle applicazioni tradizionali basate su regole e logiche esplicite e predefinite.

Questa complessità intrinseca e la mancanza di trasparenza possono rendere difficile rintracciare il modo in cui gli agenti AI generano output specifici. Per le organizzazioni, questo può comportare seri rischi, tra cui:

Violazioni della conformità: quando gli agenti gestiscono dati sensibili, le organizzazioni non possono dimostrare i processi decisionali o dimostrare la conformità normativa.
Guasti operativi: senza visibilità sul ragionamento degli agenti, i team possono avere difficoltà a identificare la causa principale o prevenire errori ricorrenti.
Erosione della fiducia: azioni inspiegabili degli agenti possono danneggiare la fiducia degli stakeholder, in particolare quando gli agenti prendono decisioni aziendali critiche o interagiscono direttamente con i clienti.

Per mitigare questi rischi, le organizzazioni si rivolgono sempre più all'observability degli agenti AI per ottenere insight sul loro comportamento e sulle loro prestazioni.

Newsletter di settore

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.

Che cos'è l'osservabilità degli agenti AI?

L'osservabilità degli agenti AI è il processo di monitoraggio e comprensione dei comportamenti end-to-end di un ecosistema agentico, comprese le interazioni che l'agente AI può avere con modelli linguistici di grandi dimensioni e strumenti esterni.

Deriva dalla più ampia pratica dell'observability, che è la capacità di comprendere lo stato interno di un sistema analizzandone i dati di telemetria, ovvero i suoi output esterni, come metriche, eventi, registri e tracce, comunemente noti come "dati MELT".

Con l'osservabilità degli agenti AI, le organizzazioni possono valutare le prestazioni degli agenti raccogliendo dati su azioni, decisioni e utilizzo delle risorse. Aiuta a rispondere a domande critiche, come ad esempio:

L'agente fornisce risposte accurate e utili?
L'agente utilizza la potenza di elaborazione in modo efficiente?
L'agente utilizza strumenti appropriati per raggiungere i suoi obiettivi?
Quali sono le cause principali dei problemi con un agente?
L'agente rispetta l'etica dell'AI e i mandati di protezione dei dati ?

Con questi insight, le organizzazioni possono risolvere i problemi e il debug in modo più efficace e migliorare le prestazioni e l'affidabilità degli agenti AI.

L'osservabilità nei sistemi multi-agente

I sistemi multi-agente utilizzano più agenti AI che collaborano per completare attività complesse, come automatizzare una pipeline di vendita aziendale o rispondere a domande e generare ticket per un sistema di supporto IT.

A differenza dei sistemi a singolo agente, in cui i guasti possono spesso essere ricondotti a un componente specifico, i sistemi multi-agente sono molto più complessi. Con così tante interazioni tra agenti AI autonomi, aumenta il rischio di comportamenti imprevedibili.

L'osservabilità degli agenti AI fornisce informazioni critiche su questi sistemi multi-agente. Aiuta gli sviluppatori a identificare l'agente o l'interazione specifica responsabile di un problema e fornisce visibilità sui workflow complessi creati dagli agenti. Aiuta anche a identificare comportamenti e schemi collettivi che potrebbero aggravarsi e causare problemi futuri.

Ad esempio, in un sistema di prenotazione di viaggi multi-agente con agenti separati per voli, hotel e noleggio auto, una prenotazione potrebbe non andare a buon fine in qualsiasi momento. Gli strumenti di observability possono tracciare l'intero processo end-to-end per identificare esattamente dove e perché si è verificato il problema.

Molte organizzazioni utilizzano soluzioni open source come IBM BeeAI, LangChain, LangGraph e AutoGen per creare sistemi multi-agente in modo più rapido e sicuro. Queste soluzioni forniscono un kit di sviluppo software (SDK) con strumenti per la creazione di agenti AI e un framework agentic AI - il motore che esegue e coordina gli agenti.

IBM DevOps

Cos'è DevOps?

Andrea Crawford spiega cos'è DevOps, il suo valore e in che modo le pratiche e gli strumenti DevOps ti aiutano a spostare le tue app nell'intera delivery pipeline, dall'ideazione alla produzione. Guidato dai principali leader di pensiero IBM, il curriculum è progettato con lo scopo di aiutare i leader aziendali ad acquisire le conoscenze necessarie per dare priorità agli investimenti nell'AI che possono promuovere la crescita.

Esplora DevOps

Come funziona l'osservabilità degli agenti AI

L'osservabilità degli agenti AI funziona raccogliendo e analizzando dati di telemetria che catturano sia le metriche di sistema tradizionali che i comportamenti specifici dell'AI. I team possono quindi utilizzare questi dati per comprendere le decisioni degli agenti, risolvere i problemi e ottimizzare le prestazioni.

Dati utilizzati nell'osservabilità degli agenti AI

L'osservabilità degli agenti AI utilizza gli stessi dati di telemetria delle soluzioni di osservabilità tradizionali, ma include anche punti dati aggiuntivi esclusivi dei sistemi di intelligenza artificiale generativa, come l'utilizzo dei token, le interazioni con gli strumenti e i percorsi decisionali degli agenti. Questi segnali specifici di AI rientrano ancora nei MELT (metriche, eventi, registri, tracce).

Metriche

In aggiunta alle metriche di prestazioni raccolte dagli strumenti di osservabilità standard—come l'utilizzo di CPU, memoria e risorse di rete—l'osservabilità degli agenti AI misura:

Utilizzo dei token

I token sono le unità di testo che i modelli AI elaborano, tipicamente parole o parti di parole. Poiché i fornitori di AI addebitano in base all'utilizzo dei token, il monitoraggio di questa metrica ha un impatto diretto sui costi. Le organizzazioni possono ottimizzare la spesa monitorando il consumo di token. Per esempio, se alcune domande dei clienti utilizzano 10 volte più token di altre, i team possono riprogettare il modo in cui gli agenti gestiscono queste richieste per ridurre i costi.

Deviazione del modello

Con l'evoluzione dei dati del mondo reale, i modelli AI possono diventare meno accurati nel tempo. Il monitoraggio delle metriche chiave della deriva del modello, come i cambiamenti nei modelli di risposta o le variazioni nella qualità dell'output, può aiutare le organizzazioni a rilevarlo precocemente. Ad esempio, un agente per il rilevamento delle frodi potrebbe diventare meno efficace man mano che i criminali sviluppano nuove tattiche. L'osservabilità segnala questo calo, in modo che i team possano riaddestrare il modello con dataset aggiornati.

Qualità delle risposte

Questa metrica misura la qualità dell'output di un agente AI e se le sue risposte sono accurate, pertinenti e utili. Tiene traccia della frequenza con cui gli agenti hanno allucinazioni o forniscono informazioni imprecise. Può aiutare le organizzazioni a mantenere la qualità del servizio e a identificare le aree di miglioramento. Per esempio, se gli agenti hanno difficoltà con le domande tecniche, i team possono ampliare la base di conoscenze dell'agente o aggiungere strumenti specializzati.

Latenza di inferenza

Misura il tempo impiegato da un agente AI per rispondere alle richieste. I tempi di risposta rapidi sono fondamentali per la soddisfazione degli utenti e i risultati aziendali. Ad esempio, se un assistente allo shopping impiega troppo tempo a consigliare i prodotti, i clienti potrebbero andarsene senza acquistare. Il monitoraggio della latenza aiuta i team a identificare i rallentamenti e a risolvere i problemi di prestazioni prima che influiscano sulle vendite.

Eventi

Gli eventi sono le azioni significative che l'agente AI intraprende per completare un'attività. Questi dati forniscono insight sul comportamento dell'agente e il processo decisionale per aiutare a risolvere i problemi e migliorare le prestazioni.

Esempi di eventi relativi agli agenti AI includono:

Chiamate API

Quando un agente AI utilizza un'application programming interface (API) per interagire con uno strumento esterno come un motore di ricerca, un database o un servizio di traduzione. Il monitoraggio delle chiamate API aiuta le organizzazioni a monitorare l'utilizzo degli strumenti e identificare le inefficienze. Ad esempio, se un agente effettua 50 chiamate API per un'attività che dovrebbe richiederne solo 2-3, i team possono correggere la logica.

Chiamate LLM

Quando gli agenti AI utilizzano modelli linguistici di grandi dimensioni per comprendere le richieste, prendere decisioni o generare risposte. Il monitoraggio delle chiamate LLM aiuta a rivelare il comportamento, le prestazioni e l'affidabilità dei modelli che guidano le azioni degli agenti AI. Ad esempio, se un agente AI bancario fornisce a un cliente informazioni errate sull'account, i team possono analizzare le chiamate LLM dell'agente per trovare il problema, ad esempio dati obsoleti o prompt.

Chiamata allo strumento non riuscita

Quando un agente tenta di utilizzare uno strumento ma non funziona, ad esempio quando una chiamata API non va a buon fine a causa di un problema di rete o di una richiesta errata. Il monitoraggio di questi problemi può migliorare l'affidabilità degli agenti e ottimizzare le risorse. Ad esempio, se un agente dell'assistenza non riesce a controllare lo stato dell'ordine a causa di chiamate al database non riuscite, i team vengono immediatamente avvisati per risolvere problemi come credenziali mancanti o interruzioni del servizio.

Trasferimento a una persona

Quando gli agenti AI inoltrano al personale umano richieste che non riescono a gestire. Queste informazioni possono rivelare le lacune nelle funzionalità degli agenti e le sfumature delle interazioni con i clienti. Ad esempio, se un agente AI dei servizi finanziari inoltra spesso le domande a un essere umano, potrebbe richiedere dati di formazione finanziaria migliori o uno strumento di investimento specializzato.

Notifiche di avviso

Quando qualcosa va storto, ad esempio tempi di risposta lenti, accesso non autorizzato ai dati o risorse insufficienti, e l'agente AI riceve un avviso automatico. Gli avvisi possono aiutare i team a rilevare e risolvere i problemi in tempo reale prima che abbiano un impatto sugli utenti. Ad esempio, un avviso sull'utilizzo elevato della memoria consente ai team di aggiungere risorse prima che l'agente si blocchi.

Log

I log sono i registri dettagliati e cronologici di ogni evento e azione che si verifica durante le operazioni di un agente AI. Tra le altre cose, i log possono essere utilizzati per creare un record ad alta fedeltà, millisecondo per millisecondo, di ogni evento, includendo inoltre in maniera completa il contesto circostante.

Esempi di log nell'osservabilità degli agenti AI includono:

Registri delle interazioni dell'utente

Questi registri documentano ogni interazione tra utenti e agenti AI, comprese le domande, l'interpretazione delle intenzioni e gli output. Le organizzazioni possono utilizzare questi registri per comprendere le esigenze degli utenti e le prestazioni degli agenti. Ad esempio, se gli utenti riformulano ripetutamente la stessa domanda, è probabile che l'agente non capisca il loro intento.

Registri delle interazioni LLM

Questi registrano ogni scambio tra agenti e LLM, inclusi prompt, risposte, metadati, timestamp e utilizzo dei token. Questi dati rivelano come gli agenti AI interpretano le richieste e generano risposte, anche quando un agente AI potrebbe interpretare male il contesto. Ad esempio, se un agente AI per la moderazione dei contenuti contrassegna erroneamente contenuti innocui ma si lascia scappare quelli dannosi, questi registri possono esporre gli schemi difettosi che causano gli errori.

Registri di esecuzione degli strumenti

Questi registrano quali strumenti utilizzano gli agenti, quando li utilizzano, quali comandi inviano e quali risultati ottengono. In questo modo è possibile risalire all'origine dei problemi di prestazione e degli errori degli strumenti. Ad esempio, se un agente AI dell'assistenza tecnica risponde lentamente a determinate domande, i registri potrebbero rivelare che sta utilizzando query di ricerca vaghe. I team possono poi scrivere dei prompt più specifici per migliorare le risposte.

Registri del processo decisionale degli agenti

Questi log registrano come un agente AI è arrivato a una decisione o a un'azione specifica quando disponibile, ad esempio azioni scelte, punteggi, selezioni di strumenti e prompt e output, senza implicare l'accesso a ragionamenti nascosti. Questi dati sono fondamentali per individuare i pregiudizi e garantire un'AI responsabile, soprattutto quando gli agenti diventano più autonomi.

Ad esempio, se un agente AI per i prestiti rifiuta ingiustamente le richieste provenienti da determinati quartieri, i processi decisionali possono aiutare a rivelare modelli discriminatori nei dati di formazione. I team poi riqualificano il modello AI per soddisfare dei requisiti di prestito equi.

Tracce

Le tracce registrano il "percorso" end-to-end di ogni richiesta dell'utente, comprese tutte le interazioni con gli LLM e gli strumenti lungo il percorso.

Ad esempio, la traccia di una semplice richiesta di un agente AI potrebbe comprendere questi passaggi.

L'input dell'utente che attiva l'agente
Il piano dell'agente e la suddivisione delle attività
Eventuali chiamate di strumenti esterni (ad esempio una ricerca sul web)
L'elaborazione della richiesta da parte dell'LLM
L'elaborazione rapida e la generazione della risposta
La risposta restituita all'utente

Gli sviluppatori possono quindi utilizzare questi dati per individuare l'origine di colli di bottiglia o errori e misurare le prestazioni in ogni fase del processo.

Ad esempio, se le tracce mostrano che le ricerche sul web richiedono 5 secondi, mentre tutti gli altri passaggi vengono completati in millisecondi, i team possono implementare la memorizzazione nella cache o utilizzare strumenti di ricerca più rapidi per migliorare il tempo di risposta complessivo.

Raccolta di dati per l'osservabilità degli agenti AI

Esistono due approcci comuni per la raccolta dei dati utilizzati nell'osservabilità degli agenti AI: strumentazione integrata e soluzioni di terze parti.

Nel primo approccio, i dati MELT vengono raccolti tramite la strumentazione integrata di un framework agentico di intelligenza artificiale. Queste funzionalità native di monitoraggio e registrazione acquisiscono e trasmettono automaticamente i dati di telemetria su metriche, eventi, registri e tracce.

Molte grandi aziende e quelle con esigenze specializzate adottano questo approccio perché offre una personalizzazione profonda e un controllo preciso sulla raccolta e il monitoraggio dei dati. Tuttavia, richiede anche notevoli sforzi di sviluppo, tempo e manutenzione continua.

Nel secondo approccio, le soluzioni di osservabilità degli agenti AI forniscono strumenti e piattaforme specializzati per raccogliere e analizzare i dati MELT. Queste soluzioni offrono alle organizzazioni un'implementazione rapida e semplice, con caratteristiche e integrazioni precostituite che riducono la necessità di competenze interne. Tuttavia, affidarsi a una soluzione di terze parti può creare dipendenza da un fornitore specifico e limitare le opzioni di personalizzazione per soddisfare le esigenze altamente specifiche o di nicchia di un'organizzazione.

Alcune organizzazioni scelgono di combinare strumentazione integrata e fornitori di soluzioni di terze parti per raccogliere dati di telemetria degli agenti AI.

Entrambi gli approcci si basano in genere su OpenTelemetry (OTel), uno strumento di observability open source ospitato sulla piattaforma web GitHub.

OTel si è affermato come framework per la raccolta e la trasmissione di dati di telemetria perché offre un approccio all'osservabilità indipendente dal fornitore, particolarmente prezioso nei sistemi di AI complessi, in cui i componenti di fornitori diversi devono funzionare insieme senza problemi. Aiuta a garantire che i dati di osservabilità fluiscano in modo coerente tra agenti, modelli multipli, strumenti esterni e sistemi di retrieval-augmented generation (RAG).

Analizzare e agire sui dati di osservabilità

Una volta che le organizzazioni raccolgono i dati MELT attraverso l'approccio prescelto, possono utilizzarli in diversi modi.

Alcuni dei casi d'uso più comuni includono:

Aggregazione di dati e visualizzazione

I team utilizzano dashboard per visualizzare metriche in tempo reale, flussi di eventi e mappe di tracciamento. Questa visione consolidata aiuta a identificare modelli e anomalie nell'intero ecosistema di agenti AI. Ad esempio, una dashboard potrebbe rivelare che gli agenti del servizio clienti rallentano ogni pomeriggio alle 15:00, spingendo i team a indagare sulla causa.

Analisi della causa principale

Quando sorgono problemi, i team correlano i dati tra metriche, eventi, registri e tracce per individuare i punti esatti di errore. Per esempio, collegare un picco nei tassi di errore (metrica) a specifici errori delle API (eventi) e rivedere i registri decisionali aiuta i team a capire il motivo per cui un agente si è comportato in modo imprevisto.

Ottimizzazione delle prestazioni

Le organizzazioni utilizzano le informazioni sui dati di osservabilità per migliorare l'efficienza degli agenti. Potrebbero ridurre l'utilizzo dei token, ottimizzare la selezione degli strumenti o ristrutturare i workflow degli agenti in base all'analisi delle tracce. Ad esempio, potrebbero scoprire che un agente esegue una ricerca nello stesso database tre volte invece di salvare il risultato dopo la prima ricerca.

Miglioramento continuo

I team stabiliscono loop di feedback in cui le insight sull'observability guidano il raffinamento degli agenti. Le revisioni regolari dei dati MELT aiutano a identificare problemi ricorrenti e casi limite, come agenti che hanno difficoltà con le richieste di rimborso o che falliscono quando gli utenti pongono domande non trattate nella documentazione. Questi problemi potrebbero segnalare la necessità di ampliare i dataset di addestramento e di aggiornare la documentazione.

Esempio: l'osservabilità degli agenti AI in azione

Pensa a come un rivenditore online potrebbe utilizzare l'observability per identificare e correggere un problema con un agente AI che interagisce con i clienti.

Innanzitutto, la dashboard di observability mostra un picco nel feedback negativo dei clienti per un particolare agente AI.

Quando i team esaminano i log dell'agente, scoprono che utilizza una chiamata allo strumento di database per rispondere alle domande dei clienti. Tuttavia, le risposte contengono informazioni obsolete o errate.

Una traccia - la registrazione completa del processo passo-passo dell'agente per gestire la domanda del cliente - individua la chiamata specifica allo strumento che ha restituito i dati obsoleti. Un'ulteriore analisi rivela il set di dati preciso all'interno del database che contiene le informazioni obsolete.

Con questo insight, il rivenditore online aggiorna o rimuove il set di dati difettoso. Il team aggiorna anche la logica dell'agente per convalidare l'accuratezza dei dati prima di rispondere ai clienti. Di conseguenza, l'agente ora fornisce risposte accurate e utili che migliorano la soddisfazione del cliente.

AI e automazione nell'osservabilità degli agenti AI

Sebbene la maggior parte dell'osservabilità degli agenti AI implichi ancora la trasmissione di avvisi e anomalie ai membri del team per l'indagine e la risoluzione manuali, l'automazione basata sull'AI sta trasformando sempre più il modo in cui le organizzazioni acquisiscono, analizzano e agiscono sui dati di telemetria.

Le soluzioni di osservabilità avanzata utilizzano ora queste tecnologie per monitorare, eseguire il debug e ottimizzare gli agenti AI con un intervento umano minimo o nullo. I casi d'uso emergenti in questo ambito includono:

Raccolta, elaborazione e memorizzazione automatica dei dati di telemetria degli agenti AI per audit di conformità e analisi delle prestazioni
Analisi di grandi quantità di dati degli agenti AI per segnalare anomalie e identificare problemi
Prevedere i problemi con le applicazioni e gli agenti AI prima che si verifichino
Prevedere i requisiti delle risorse in base ai modelli di utilizzo dell'AI.
Suggerire miglioramenti alla logica o all'utilizzo degli strumenti per ottimizzare le prestazioni
Impedire agli agenti AI di accedere o di condividere dati sensibili

Distribuisci il software in modo efficiente

Migliorare l'efficienza della distribuzione del software è fondamentale per le organizzazioni che devono affrontare situazioni economiche sfavorevoli e concentrarsi sull'automazione DevOps è fondamentale.

Risorse

Ottimizza le prestazioni di business con analytics basati sull'AI

Registrati per scoprire come gli analytics AI avanzati possono creare nuove prospettive di crescita e di innovazione per il tuo business. Leggi i pareri degli esperti e scopri come le soluzioni AI possono migliorare l'efficienza operativa, ottimizzare le risorse e apportare risultati di business misurabili.

Modernizza le applicazioni mainframe con modelli di cloud ibrido

Esplora l'ultima pubblicazione di IBM Redbooks sulla modernizzazione dei mainframe per ambienti hybrid cloud. Apprendi strategie attuabili, soluzioni architettoniche e tecniche di integrazione per promuovere agilità, innovazione e successo aziendale.

Migliora il tuo DevOps su z/OS con l'automazione e la modernizzazione

Esplora come IBM Wazi Deploy e le funzioni dei linguaggi moderni possono semplificare il tuo DevOps su z/OS. Scopri come l'automazione e i tool open source migliorano l'efficienza su tutte le piattaforme.

Programma di accelerazione DevOps

Intraprendi il tuo percorso di trasformazione DevOps con il programma di accelerazione DevOps di IBM. Questo programma guida le aziende attraverso fasi critiche quali la valutazione, la formazione, la distribuzione e l'adozione per raggiungere un'implementazione DevOps senza intoppi.

Gartner Magic Quadrant for Data Integration Tools 2024

IBM è stata nominata leader per il diciannovesimo anno consecutivo nel Gartner Magic Quadrant 2024 nella categoria Data Integration Tools

Soluzioni correlate

IBM DevOps Accelerate

Automatizza la distribuzione del software per qualsiasi applicazione on premise, cloud o mainframe.

Esplora DevOps Accelerate

Soluzioni DevOps

Utilizza il software e gli strumenti DevOps per creare, distribuire e gestire app cloud-native su più dispositivi e ambienti.

Esplora le soluzioni DevOps

Servizi di consulenza cloud

Sblocca nuove funzionalità e promuovi l'agilità aziendale con i servizi di consulenza cloud di IBM. Scopri come creare insieme soluzioni, accelerare la trasformazione digitale e ottimizzare le prestazioni attraverso strategie di hybrid cloud e partnership di esperti.

Servizi cloud

Fai il passo successivo

Sblocca il potenziale delle DevOps per costruire, testare e distribuire app cloud-native sicure, con integrazione e distribuzione continua.