As métricas de observabilidade de LLMs podem ser categorizadas em três dimensões principais.
A observabilidade abrangente de grandes modelos de linguagem (LLMs) só pode acontecer se rastrearmos métricas de observabilidade que monitoram o desempenho do sistema, o consumo de recursos e o comportamento do modelo.4
Métricas de desempenho do sistema:
- Latência: a duração da entrada até a saída, representando o tempo de resposta do modelo.
- Rendimento: contagem de solicitações que o modelo processa em uma duração específica; uma medida da carga do modelo.
- Taxa de erros: a taxa de falhas ou respostas inválidas; um reflexo da confiabilidade do modelo.
Métricas de utilização de recursos:
- Uso da CPU/GPU: medição de recursos consumidos durante a inferência, com relevância para o custo e a eficiência.
- Uso de memória: RAM ou armazenamento consumido durante o processamento. Embora importante para o desempenho e a escalabilidade, esse uso é secundário em relação à tarefa geral.
- Uso de tokens: rastreie tokens processados. Esta etapa é especialmente importante quando os tokens estão associados ao custo nos modelos.
- Taxa de latência da taxa de transferência: a taxa de transferência descreve a carga de trabalho de um sistema versus sua capacidade de resposta; encontrar um bom equilíbrio entre esses dois é essencial para a eficiência.
Métricas de comportamento do modelo:
- Correção: monitora a frequência com que o modelo produz uma resposta correta.
- Correção factual: avalia se o modelo entrega saídas factuais “corretas”.
- Engajamento do usuário: quantifica a duração da interação, o feedback e a satisfação para estimar a experiência.
- Qualidade da resposta: mede a coerência, clareza e pertinência das saídas.5