Las métricas de observabilidad de LLM se pueden clasificar en tres dimensiones principales.
La observabilidad integral de los grandes modelos de lenguaje (LLM) solo puede ocurrir si rastreamos las métricas de observabilidad que rastrean el rendimiento del sistema, el consumo de recursos y el comportamiento del modelo.4
Métricas de rendimiento del sistema:
- Latencia: La duración desde la entrada hasta la salida que representa el tiempo de respuesta del modelo.
- Rendimiento: Recuento de peticiones que el modelo procesa en una duración determinada; una medida de la carga del modelo.
- Tasa de errores: la tasa de errores o respuestas no válidas; un reflejo de la fiabilidad del modelo.
Métricas de utilización de recursos:
- Uso de CPU/GPU: Medición de los recursos consumidos durante la inferencia, con relevancia para el coste y la eficiencia.
- Uso de la memoria: RAM o almacenamiento consumido durante el procesamiento. Aunque es importante para el rendimiento y la escalabilidad, este uso es secundario para la tarea general.
- Uso de token: Realice un seguimiento de los tokens procesados. Este paso es especialmente importante cuando los tokens se asocian con el coste en los modelos.
- Coeficiente de rendimiento y latencia: El rendimiento describe la carga de trabajo de un sistema frente a su capacidad de respuesta; encontrar un buen equilibrio entre ambos es esencial para la eficiencia.
Métricas de comportamiento del modelo:
- Corrección: Controla la frecuencia con la que el modelo produce una respuesta correcta.
- Corrección factual: Evalúa si el modelo ofrece resultados "correctos" de hechos.
- Compromiso del usuario: Cuantifica la duración de la interacción, el feedback y la satisfacción para estimar la experiencia.
- Calidad de respuesta: Mide la coherencia, claridad y pertinencia de los resultados.5