Las métricas de observabilidad de LLM se pueden clasificar en tres dimensiones principales.
La observabilidad integral de los grandes modelos de lenguaje (LLMs) solo puede ocurrir si rastreamos métricas de observabilidad que rastrean el rendimiento del sistema, el consumo de recursos y el comportamiento del modelo.4
Métricas de rendimiento del sistema:
- Latencia: el tiempo transcurrido entre la entrada y la salida, que representa el tiempo de respuesta del modelo.
- Rendimiento: número de solicitudes que el modelo procesa en un periodo de tiempo específico; una medida de la carga del modelo.
- Tasa de error: la tasa de fallas o respuestas no válidas; un reflejo de la confiabilidad del modelo.
Métricas de utilización de recursos:
- Uso de CPU/GPU: medición de los recursos consumidos durante la inferencia, con relevancia para el costo y la eficiencia.
- Uso de memoria: RAM o almacenamiento consumido durante el procesamiento. Aunque es importante para el rendimiento y la escalabilidad, este uso es secundario con respecto a la tarea general.
- Uso de los tokens: tokens de seguimiento procesados. Este paso es especialmente importante cuando los tokens están asociados con el costo en los modelos.
- Relación de latencia de rendimiento: el rendimiento describe la carga de trabajo de un sistema frente a su capacidad de respuesta; encontrar un buen equilibrio entre estos dos es esencial para la eficiencia.
Métricas de comportamiento del modelo:
- Corrección: supervisa la frecuencia con la que el modelo produce una respuesta correcta.
- Corrección fáctica: evalúa si el modelo entrega resultados factuales “correctos”.
- Participación del usuario: cuantifica la duración de la interacción, la retroalimentación y la satisfacción para estimar la experiencia.
- Calidad de respuesta: mide la coherencia, claridad y pertinencia de los resultados.5