LLM-Observability-Metriken lassen sich in drei Hauptdimensionen einteilen.
Eine umfassende Observability großer Sprachmodelle (LLMs) kann nur erfolgen, wenn wir Observability-Metriken verfolgen, die die Systemleistung, den Ressourcenverbrauch und das Modellverhalten verfolgen.4
Metriken zur Systemleistung
- Latenz: Die Dauer von der Eingabe bis zur Ausgabe, die die Reaktionszeit des Modells darstellt.
- Durchsatz: Anzahl der Anfragen, die das Modell in einer bestimmten Zeitspanne verarbeitet; ein Maß für die Auslastung des Modells.
- Fehlerrate: Die Rate der Fehlschläge oder ungültigen Antworten; ein Hinweis auf die Zuverlässigkeit des Modells.
Metriken zur Ressourcen-Nutzung:
- CPU/GPU-Auslastung: Messung der bei der Inferenz verbrauchten Ressourcen, mit Bezug auf Kosten und Effizienz.
- Speichernutzung: RAM oder Speicherplatz, der während der Verarbeitung verbraucht wird. Diese Nutzung ist zwar wichtig für Leistung und Skalierbarkeit, aber sie ist zweitrangig gegenüber der Gesamtaufgabe.
- Token-Nutzung: Verarbeitete Token verfolgen. Dieser Schritt ist besonders wichtig, wenn Token in Modellen mit Kosten verbunden sind.
- Durchsatzlatenzverhältnis: Der Durchsatz beschreibt die Workload eines Systems im Vergleich zu seiner Reaktionsfähigkeit – ein Gleichgewicht zwischen diesen beiden Komponenten zu finden, ist für die Effizienz entscheidend.
Modell-Verhaltensmetriken:
- Korrektheit: Überwacht, wie häufig das Modell eine korrekte Antwort liefert.
- Faktische Korrektheit: Bewertet, ob das Modell „korrekte“ faktische Ausgaben liefert.
- Nutzerbindung: Quantifiziert die Dauer der Interaktion, das Feedback und die Zufriedenheit, um die Erfahrung abzuschätzen.
- Antwortqualität: Misst die Kohärenz, Klarheit und Relevanz der Ausgaben.5