O que é observabilidade do LLM?

Autores

Data Scientist

Lead AI Advocate

PMM Intern

Definição de observabilidade do LLM

A observabilidade do LLM é o processo de coletar dados em tempo real de modelos do LLM ou aplicativos sobre suas características comportamentais, de desempenho e de saída. Como os LLMs são complexos, podemos observá-los com base nos padrões das saídas deles¹.

Uma boa solução de observabilidade consiste em coletar métricas, rastreamentos e logs relevantes de aplicações de LLMs, interfaces de programação de aplicativos (APIs) e fluxos de trabalho, o que permite aos desenvolvedores monitorar, depurar e otimizar aplicações de forma eficiente, proativa e em escala.

Plataformas de grandes modelos de linguagem (LLMs) e IA generativa (IA gen), como o IBM watsonx.ai e uma variedade cada vez maior de variantes de código aberto está se consolidando em todos os setores. Devido a esse aumento, tornou-se mais importante do que nunca manter a confiabilidade, a segurança e a eficiência de modelos e aplicações após a adoção. É nesse espaço que a observabilidade do LLM se torna essencial.

Boletim informativo do setor

As mais recentes notícias de tecnologia, corroboradas por insights de especialistas.

Mantenha-se atualizado sobre as tendências mais importantes (e intrigantes) do setor em IA, automação, dados e muito mais com o boletim informativo Think. Consulte a Declaração de privacidade da IBM.

Por que a observabilidade do LLM é importante?

Monitore a qualidade e as saídas dos LLMs:
a avaliação contínua das saídas produzidas pelos LLMs pode ser classificada em várias dimensões de qualidade que são úteis e aplicáveis para os usuários. Essas dimensões incluem exatidão, relevância, coerência e consistência factual com métricas de avaliação definidas. A verificação periódica dessas dimensões de desempenho ajuda a evitar atrasos ou problemas que possam fazer com que os usuários percam a confiança no programa e achem difícil usar os LLMs de forma eficiente.
Análise rápida da causa raiz e solução de problemas:
quando uma falha significativa ou um comportamento inesperado ocorre em uma aplicação de LLM, uma ferramenta de observabilidade pode apresentar insights úteis para identificar com rapidez a causa raiz (ou causas) do problema em questão. Esse nível de telemetria refinada geralmente permitirá que os stakeholders isolem os problemas com níveis mais altos de confiança em muitas áreas. Por exemplo, dados de treinamento corrompidos, ajuste fino mal projetado, falhas em chamadas de API externas ou interrupções no back-end de provedores terceirizados.
Otimize as aplicações, o engajamento do usuário e a eficiência do sistema:
a observabilidade do LLM permite que o desempenho das aplicações e o engajamento do usuário melhorem por meio do monitoramento contínuo de todo o stack do LLM. As principais métricas, como latência, tokens usados, tempo de resposta e throughput, são rastreadas para identificar gargalos e fatores limitantes, permitindo uma maior otimização do desempenho e redução de custos, principalmente em fluxos de trabalho de RAG. O acompanhamento em tempo real das interações e do feedback dos usuários ajuda a fornecer insights sobre quando saídas de baixa qualidade estão sendo geradas, a resolver problemas à medida que surgem e a descobrir as causas raiz. Essa adaptação consistente ao comportamento do usuário permite que o LLM produza respostas personalizadas, otimize fluxos de trabalho e escale para atender à demanda sem perdas de desempenho.^2,³

IBM DevOps

O que é DevOps?

Andrea Crawford explica o que é DevOps, seu valor e como suas práticas e ferramentas ajudam você a migrar suas aplicações por todo o pipeline de entrega de software, desde a concepção até a produção. Conduzido pelos principais líderes da IBM, o conteúdo foi concebido para ajudar os líderes empresariais a adquirir o conhecimento necessário para priorizar os investimentos em IA que podem estimular o crescimento.

Explore o DevOps

Principais métricas de observabilidade

As métricas de observabilidade de LLMs podem ser categorizadas em três dimensões principais.

A observabilidade abrangente de grandes modelos de linguagem (LLMs) só pode acontecer se rastrearmos métricas de observabilidade que monitoram o desempenho do sistema, o consumo de recursos e o comportamento do modelo.⁴

Métricas de desempenho do sistema:

Latência: a duração da entrada até a saída, representando o tempo de resposta do modelo.
Rendimento: contagem de solicitações que o modelo processa em uma duração específica; uma medida da carga do modelo.
Taxa de erros: a taxa de falhas ou respostas inválidas; um reflexo da confiabilidade do modelo.

Métricas de utilização de recursos:

Uso da CPU/GPU: medição de recursos consumidos durante a inferência, com relevância para o custo e a eficiência.
Uso de memória: RAM ou armazenamento consumido durante o processamento. Embora importante para o desempenho e a escalabilidade, esse uso é secundário em relação à tarefa geral.
Uso de tokens: rastreie tokens processados. Esta etapa é especialmente importante quando os tokens estão associados ao custo nos modelos.
Taxa de latência da taxa de transferência: a taxa de transferência descreve a carga de trabalho de um sistema versus sua capacidade de resposta; encontrar um bom equilíbrio entre esses dois é essencial para a eficiência.

Métricas de comportamento do modelo:

Correção: monitora a frequência com que o modelo produz uma resposta correta.
Correção factual: avalia se o modelo entrega saídas factuais “corretas”.
Engajamento do usuário: quantifica a duração da interação, o feedback e a satisfação para estimar a experiência.
Qualidade da resposta: mede a coerência, clareza e pertinência das saídas.⁵

Observabilidade autônoma manual versus baseada em agentes

O monitoramento manual de LLMs é difícil devido ao grande volume de dados, à arquitetura complexa do sistema e à necessidade de rastreamento em tempo real. A abundância de registros e métricas dificulta a identificação rápida dos problemas. Além disso, a observação manual consome muitos recursos, é propensa a erros e não pode ser dimensionada de forma eficaz à medida que os sistemas se expandem, resultando em uma detecção mais lenta de problemas e uma solução de problemas ineficiente.

 Essas limitações demonstram a dificuldade de manter manualmente a observabilidade em LLMs, destacando a necessidade de soluções mais sofisticadas e autônomas para ambientes empresariais.⁶

Solução de problemas autônoma baseada em agente

A solução de problemas autônoma refere-se a sistemas que podem identificar, diagnosticar e resolver problemas de forma independente, sem a necessidade de intervenção humana, usando métodos de monitoramento avançados que utilizam sistemas baseados em agentes. Os agentes monitoram o desempenho, identificam anomalias e realizam diagnósticos em tempo real, permitindo que os sistemas funcionem sem supervisão e sem qualquer intervenção humana.⁷

A solução de problemas autônoma baseada em agentes ajuda a:

Detecção em tempo real: identifique problemas instantaneamente sem entrada.
Análise da causa raiz: identifique a origem dos problemas usando insights orientados por IA.
Resolução automatizada: aplique soluções predefinidas prontas para uso imediato para resolver problemas.
Monitoramento contínuo: adapte e aprenda com os dados para melhorar a solução de problemas ao longo do tempo.
Escalabilidade: lide com ambientes complexos e em grande escala de forma eficiente, reduzindo significativamente o trabalho manual.
Manutenção preditiva: preveja possíveis problemas antes que surjam, o que pode ser extremamente valioso durante ciclos de desempenho máximo.
Integração com observabilidade: funciona com outras ferramentas de observabilidade para uma resolução mais rápida de problemas.

Soluções corporativas

Projetado para escala, o IBM Instana traz visibilidade em tempo real e solução de problemas autônoma para a complexa observabilidade empresarial de hoje.

Com um processo de três etapas —detecção, diagnóstico orientado por IA e remediação autônoma —o Instana oferece resolução de problemas autônoma de ponta a ponta para ajudar a garantir que os problemas sejam detectados e corrigidos antes que afetem seu desempenho.⁸

Para saber mais sobre esse recurso, cadastre-se para a lista de espera do Instana Agentic AI.

Conclusão

O escalonamento da IA generativa envolve resolução autônoma de problemas com instrumentação inteligente, monitoramento do LLM em tempo real e orquestração eficaz. A otimização do conjunto de dados, da saída do modelo e da resposta do LLM, além da manutenção do desempenho do modelo por meio de pipelines otimizados e testes do LLM em tempo real, é crucial para proporcionar uma experiência de usuário tranquila em vários casos de uso, como chatbot. O uso de LLMs de código aberto e fluxo de trabalho de aprendizado de máquina está crescendo e aproveitando técnicas de embedding, monitorando chamadas do LLM usando uma variedade de ferramentas. Ferramentas como o OpenTelemetry e outras que incorporam ferramentas sofisticadas de observabilidade LLM em plataformas de observabilidade integradas e dashboards serão essenciais para a construção de sistemas de IA escaláveis e estáveis que proporcionem desempenho ideal do modelo.^{9, 10}

Entregue software com eficiência

Melhorar a eficiência na entrega dos softwares é crucial para as organizações que enfrentam obstáculos econômicos, e o foco na automação de DevOps é fundamental.

Recursos

Otimize seu desempenho de negócios com análise de dados impulsionada por IA

Cadastre-se agora para saber como a análise de dados avançada com IA pode criar novas oportunidades de crescimento e inovação para sua empresa. Acesse insights de especialistas e saiba como as soluções de IA podem melhorar a eficiência operacional, otimizar recursos e levar a resultados de negócios mensuráveis.

Modernize aplicações de mainframe com padrões de nuvem híbrida

Conheça a mais recente publicação do IBM® Redbooks sobre modernização de mainframes para ambientes de nuvem híbrida. Aprenda estratégias para usar na prática, soluções de arquitetura e técnicas de integração a fim de gerar agilidade, inovação e sucesso nos negócios.

Aprimore seu DevOps do z/OS com automação e modernização

Explore como o IBM® Wazi Deploy e os recursos de linguagem modernos podem simplificar o DevOps do seu IBM® Z/OS. Saiba como a automação e as ferramentas de código aberto melhoram a eficiência em todas as plataformas.

Programa de aceleração de DevOps

Embarque em sua jornada de transformação de DevOps com o programa de aceleração de DevOps da IBM. Esse programa orienta as empresas ao longo de estágios críticos, como avaliação, treinamento, implementação e adoção, para alcançar uma implementação de DevOps tranquila e eficiente.

2024 Gartner® Magic Quadrant™ para ferramentas de integração de dados

IBM reconhecida como líder pelo 19.º ano consecutivo no Gartner Magic Quadrant™ 2024 para Ferramentas de Integração de Dados.

Soluções relacionadas

IBM DevOps Accelerate

Automatize a entrega de software para qualquer aplicação no local, na nuvem ou no mainframe.

Explore o DevOps Accelerate

Soluções de DevOps

Utilize softwares e ferramentas de DevOps para desenvolver, implementar e gerenciar aplicativos nativos da nuvem em diversos dispositivos e ambientes.

Explore as soluções de DevOps

Serviços de consultoria em nuvem

Libere novos recursos e aumente a agilidade dos negócios com os serviços de consultoria em nuvem da IBM. Descubra como cocriar soluções, acelerar a transformação digital e otimizar o desempenho por meio de estratégias de nuvem híbrida e parcerias especializadas.

Serviço de nuvem

Dê o próximo passo

Libere o potencial do DevOps para criar, testar e implementar aplicativos seguros nativos da nuvem com integração e entrega contínuas.

Explore as soluções de DevOps

Descubra o DevOps em ação

Notas de rodapé:

¹ Kumar, S. e Singh, R. (2024). Don’t blame the user: Toward means for usable and practical authentication. Communications of the ACM, 67(4), 78–85. https://dl.acm.org/doi/10.1145/3706599.3719914.

² Datadog. (n.d.). What Is LLM Observability & Monitoring?. Recuperado em 19 de maio de 2025, de https://www.datadoghq.com/knowledge center/llm-observability/.

³ LLM-observability, GitHub. Recuperado em 19 de maio de 2025, de https://github.com/DataDog/llm-observability, Datadog. (n.d.).

⁴ Dong, L., Lu, Q. e Zhu, L. (2024). AgentOps: Enabling Observability of LLM Agents. arXiv. https://arxiv.org/abs/2411.05285.

⁵ LangChain. (n.d.). Datadog LLM Observability - LangChain, Langsmith .js. Recuperado em 19 de maio de 2025, de https://js.langchain.com/docs/integrations/callbacks/datadog_tracer/.

⁶ Optimizing LLM Accuracy, recuperado em 19 de maio de 2025, de https://platform.openai.com/docs/guides/optimizing-llm-accuracy.

⁷ IBM Instana Observability. Recuperado em 19 de maio de 2025, de https://www.ibm.com/br-pt/products/instana.

⁸ Monitoring AI Agents. Documentação da IBM. Recuperado em 19 de maio de 2025, de https://www.ibm.com/docs/en/instana-observability/1.0.290?topic=applications-monitoring-ai-agents.

⁹ Zhou, Y., Yang, Y. e Zhu, Q. (2023). LLMGuard: Preventing Prompt Injection Attacks on LLMs via Runtime Detection. arXiv preprint arXiv:2307.15043. https://arxiv.org/abs/2307.15043.

¹⁰ Vesely, K. e Lewis, M. (2024). Real-Time Monitoring and Diagnostics of Machine Learning Pipelines. Journal of Systems and Software, 185, 111136.