La valutazione delle prestazioni di un agente AI utilizza metriche organizzate in diverse classi formali di prestazioni: accuratezza, tempo di risposta (velocità) e costo delle risorse utilizzate. L'accuratezza descrive la capacità dell'agente di fornire le risposte corrette e pertinenti, nonché la capacità dell'agente di completare le funzioni previste. Il tempo di risposta misura la velocità impiegata dall'agente per elaborare l'input e produrre l'output. Ridurre al minimo la latenza è particolarmente importante nei programmi interattivi e nei programmi in tempo reale. Il costo misura le risorse computazionali consumate dall'agente, come l'uso di token, la chiamata a un application programming interface (API) o il tempo di sistema. Queste metriche forniscono linee guida per migliorare le prestazioni del sistema e limitare i costi operativi.

Sebbene metriche chiave come correttezza, utilità e coerenza rientrino nell'accuratezza, il tempo di risposta (latenza) misura metriche tra cui velocità effettiva, latenza media e ritardo di timeout. Le metriche dei costi includono l'utilizzo dei token, il tempo di calcolo, il numero di chiamate API e il consumo di memoria.