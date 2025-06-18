La crescente prevalenza di agenti AI introduce complessità significative, come la sfida di valutare le prestazioni, l'affidabilità, la sicurezza e il comportamento etico di questi agenti AI autonomi.

Le best practice di valutazione dell'agentic AI possono ridurre l'esposizione a vari rischi prevedibili e sconosciuti. Tuttavia, un monitoraggio efficace delle prestazioni può essere una sfida per le organizzazioni e gli sviluppatori, poiché gli agenti richiedono di osservare non solo gli output ma anche i comportamenti, le decisioni e le intenzioni. Con watsonx.governance, le organizzazioni possono valutare le prestazioni degli agenti utilizzando:

Metriche di valutazione con parametri di riferimento : aiuta a valutare la competenza degli agenti in generale e in varie attività.

: aiuta a valutare la competenza degli agenti in generale e in varie attività. Analisi della causa principale : identifica le cause principali delle catene decisionali di monitoraggio delle prestazioni scadenti, non solo l'output finale per informare i miglioramenti (ad esempio, mancanza di dati imparziali).

: identifica le cause principali delle catene decisionali di monitoraggio delle prestazioni scadenti, non solo l'output finale per informare i miglioramenti (ad esempio, mancanza di dati imparziali). Feedback umano o red teaming: consente alle PMI di osservare e verificare le azioni dell'agente (human in the loop) e testare gli agenti per individuare le suscettibilità.

A partire da marzo, watsonx.governance ha introdotto queste nuove funzionalità per supportare metriche specializzate aggiuntive. Sono ora disponibili le nuove metriche di valutazione della RAG di agentic AI. Il set completo di metriche per valutare le prestazioni, include HAP, PII, prompt, pertinenza del contesto, fedeltà, somiglianza delle risposte, pertinenza delle risposte, tasso di successo, precisione media, rango reciproco e richieste non riuscite, tra gli altri, per garantire una valutazione approfondita dell'efficacia del nostro sistema. Questo aiuta a confermare che gli agenti agiscono in modo appropriato e a rilevare i segnali di allarme aggiungendo i guardrail necessari per regolare il comportamento degli agenti verso il risultato desiderato.

Queste metriche saranno disponibili aggiungendo un semplice decoratore Python al nodo dello strumento in un'applicazione LangGraph. Aggiungendo questo decoratore si otterrà il calcolo della metrica come sottoprodotto dell'esecuzione del nodo nell'applicazione agentica. La metrica calcolata può quindi essere utilizzata all'interno dell'applicazione per prendere decisioni sul flusso. Ad esempio, se il contesto recuperato dal database vettoriale non è rilevante per la query dell'utente, non generare una risposta, ma prova ad effettuare una ricerca sul web per recuperare il contesto giusto. Questi valutatori non sono solo facili da usare, ma sono anche efficienti e includono sia metriche opensource che metriche avanzate IBM. Pertanto, forniscono un'ampia gamma di funzionalità di valutazione e sono adatti a vari casi d'uso e tipi di attività.