Le metriche di osservabilità degli LLM possono essere classificate in tre dimensioni principali.
L'osservabilità completa dei modelli linguistici di grandi dimensioni (LLM) può avvenire solo se monitoriamo metriche di osservabilità che monitorano le prestazioni del sistema, il consumo di risorse e il comportamento dei modelli.4
Metriche delle prestazioni del sistema:
- Latenza: la durata dall'input all'output rappresenta il tempo di risposta del modello.
- Produttività: numero di richieste che il modello elabora in una durata specifica; una misura del carico del modello.
- Tasso di errore: il tasso di fallimenti o di risposte non valide; un riflesso dell'affidabilità del modello.
Metriche di utilizzo delle risorse:
- Utilizzo della CPU/GPU: misurazione delle risorse consumate durante l'inferenza, con rilevanza per il costo e l'efficienza.
- Uso della memoria: RAM o storage consumato durante l'elaborazione. Sebbene sia importante per le prestazioni e la scalabilità, questo utilizzo è secondario rispetto al compito generale.
- Utilizzo dei token: traccia i token elaborati. Questo passaggio è particolarmente importante quando i token sono associati al costo nei modelli.
- Rapporto di latenza della produttività: la produttività descrive il workload di un sistema rispetto alla sua reattività; trovare un buon equilibrio tra questi due aspetti è essenziale per l'efficienza.
Metriche comportamentali del modello:
- Correttezza: monitora la frequenza con cui il modello produce una risposta corretta.
- Correttezza fattuale: valuta se il modello fornisce output fattualmente "corretti".
- Coinvolgimento dell'utente: quantifica la durata dell'interazione, il feedback e la soddisfazione per stimare l'esperienza.
- Qualità della risposta: misura la coerenza, la chiarezza e la pertinenza degli output.5