Les indicateurs d'observabilité des LLM peuvent être catégorisés en trois dimensions principales.
Une observabilité globale des grands modèles linguistiques (LLM) n'est possible que si nous suivons des indicateurs d'observabilité qui mesurent les performances du système, la consommation des ressources et le comportement du modèle.4
Indicateurs de performance du système :
- Latence : la durée entre l'entrée et la sortie représente le temps de réponse du modèle.
- Débit : nombre de demandes traitées par le modèle pendant une durée déterminée ; mesure de la charge du modèle.
- Taux d'erreur : le taux d'échecs ou de réponses non valides ; un reflet de la fiabilité du modèle.
Indicateurs d’utilisation des ressources :
- Utilisation du CPU/GPU : mesure des ressources consommées pendant l'inférence, en fonction du coût et de l'efficacité.
- Utilisation de la mémoire : RAM ou stockage consommé pendant le traitement. Bien qu'importante pour les performances et l'évolutivité, cette utilisation est secondaire par rapport à la tâche globale.
- Utilisation des tokens : suivi des tokens traités. Cette étape est particulièrement importante lorsque les tokens sont associés à des coûts dans les modèles.
- Rapport débit/latence : le débit décrit un workload d'un système par rapport à sa réactivité ; il est essentiel de trouver un bon équilibre entre ces deux éléments pour garantir l'efficacité.
Indicateurs de comportement du modèle :
- Exactitude : contrôle la fréquence à laquelle le modèle produit une réponse correcte.
- Justesse des faits : évalue si le modèle fournit des sorties factuelles « correctes ».
- Engagement de l'utilisateur : quantifie la durée de l'interaction, les commentaires et la satisfaction pour évaluer l'expérience.
- Qualité de la réponse : mesure la cohérence, la clarté et la pertinence des résultats.5