Por que a observabilidade é essencial para agentes de IA

Dois profissionais em uma conversa

Autores

Gregg Lindemulder

Staff Writer

IBM Think

Annie Badman

Staff Writer

IBM Think

À medida que o entusiasmo em torno da inteligência artificial (IA) continua varrendo o mundo dos negócios, a atenção está se voltando para a mais nova iteração da tecnologia: agentes de IA.

Ao contrário dos modelos de IA tradicionais, os agentes de IA podem tomar decisões sem supervisão humana constante. Eles trabalham de forma autônoma para alcançar objetivos complexos, como responder às perguntas dos clientes, otimizar uma cadeia de suprimentos ou analisar dados de saúde para fornecer um diagnóstico.

Na prática, isso significa que os agentes de IA podem lidar com fluxos de trabalho inteiros do início ao fim, como processar automaticamente solicitações de seguro ou gerenciar níveis de estoque, em vez de apenas fornecer recomendações.

Estimativas recentes mostram que as organizações estão adotando agentes de IA com rapidez. Uma pesquisa da KPMG constatou que 88% das organizações estão explorando ou testando ativamente iniciativas de agentes de IA.1 A Gartner prevê que, até 2028, mais de um terço das aplicações de software corporativas incluirá IA agêntica, a tecnologia subjacente que viabiliza os agentes de IA.2

No entanto, os recursos que tornam os agente de IA tão valiosos também podem torná-los difíceis de monitorar, entender e controlar.

Os agentes de IA usam grandes modelos de linguagem (LLMs) para raciocinar, criar fluxos de trabalho e dividir tarefas em subtarefas. Eles acessam ferramentas externas (como bancos de dados, mecanismos de busca e calculadoras) e usam a memória para lembrar de conversas e resultados de tarefas anteriores.

Embora esse processo permita que eles trabalhem de forma independente, ele também os torna muito menos transparentes do que as aplicações tradicionais, baseadas em regras e lógica explícitas e predefinidas.

Essa complexidade inerente e a falta de transparência podem dificultar o rastreamento de como os agentes de IA geram produções específicas. Para as organizações, isso pode representar sérios riscos, incluindo:

  • Violações de conformidade: quando os agentes lidam com dados sigilosos, as organizações não conseguem demonstrar processos de tomada de decisão ou comprovar a adesão às normas.
  • Falhas operacionais: sem visibilidade do raciocínio dos agentes, as equipes podem ter dificuldades para identificar as causas raiz ou evitar erros recorrentes.
  • Erosão da confiança: ações inexplicáveis dos agentes podem prejudicar a confiança dos stakeholders, sobretudo quando os agentes tomam decisões críticas de negócios ou interagem diretamente com os clientes.

Para mitigar esses riscos, as organizações recorrem cada vez mais à observabilidade dos agentes de IA para obter insights sobre o comportamento e o desempenho dos agentes de IA.

As mais recentes notícias de tecnologia, corroboradas por insights de especialistas.

Mantenha-se atualizado sobre as tendências mais importantes (e intrigantes) do setor em IA, automação, dados e muito mais com o boletim informativo Think. Consulte a Declaração de privacidade da IBM.

Agradecemos sua inscrição!

Sua assinatura será entregue em inglês. Você pode encontrar um link para cancelar a assinatura em todos os boletins informativos. Você pode gerenciar suas inscrições ou cancelar a inscrição aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

O que é observabilidade de agentes de IA?

A observabilidade de agentes de IA é o processo de monitoramento e compreensão dos comportamentos de ponta a ponta de um ecossistema agêntico, incluindo quaisquer interações que o agente de IA possa ter com grandes modelos de linguagem e ferramentas externas.

Ela vem da prática mais ampla de observabilidade, que é a capacidade de entender o estado interno de um sistema analisando seus dados de telemetria, ou seja, suas saídas externas, como métricas, eventos, logs e rastreamentos, comumente conhecidos como “dados MELT”.  

Com a observabilidade de agentes de IA, as organizações podem avaliar o desempenho dos agentes, coletando dados sobre ações, decisões e uso de recursos. Ela ajuda a responder perguntas críticas, como:

  • O agente está dando respostas precisas e úteis?
  • O agente está usando a capacidade de processamento com eficiência?
  • O agente está usando ferramentas apropriadas para cumprir os objetivos?
  • Quais são as causas raiz dos problemas com um agente?
  • O agente está cumprindo as diretrizes de ética em IA e as exigências proteção de dados?

Com esses insights, as organizações podem solucionar e depurar problemas de forma mais eficaz e melhorar o desempenho e a confiabilidade dos agentes de IA. 

Observabilidade em sistemas de vários agentes 

Os sistemas multiagentes utilizam vários agentes de IA que trabalham juntos para realizar tarefas complexas, como automatizar um pipeline de vendas corporativa ou responder a perguntas e gerar tíquetes para um sistema de suporte de TI.

Diferentemente dos sistemas com um único agente, em que as falhas podem ser atribuídas a um componente específico, os sistemas com vários agentes são muito mais complexos. Com tantas interações entre agentes autônomos de agentes de IA, há um potencial maior para comportamentos imprevisíveis.

A observabilidade de agentes de IA fornece insights críticos sobre esses sistemas de vários agentes. Isso ajuda os desenvolvedores a identificar o agente ou a interação específica responsável por um problema e oferece visibilidade sobre os fluxos de trabalho complexos que os agentes criam. Também ajuda a identificar comportamentos e padrões coletivos que podem se agravar e causar problemas futuros.

Por exemplo, em um sistema de reservas de viagens com vários agentes, com agentes separados para voos, hotéis e aluguel de carros, uma reserva pode falhar a qualquer momento. As ferramentas de observabilidade podem rastrear todo o processo de ponta a ponta para identificar exatamente onde e por que a falha ocorreu.  

Muitas organizações usam soluções de código aberto, como IBM BeeAI, LangChain, LangGraph e AutoGen, para desenvolver sistemas de vários agentes de forma mais rápida e segura. Essas soluções fornecem um kit de desenvolvimento de software (SDK) com ferramentas para criar agentes de IA e um framework de IA agêntica: o mecanismo que executa e coordena os agentes.

IBM DevOps

O que é DevOps?

Andrea Crawford explica o que é DevOps, seu valor e como suas práticas e ferramentas ajudam você a migrar suas aplicações por todo o pipeline de entrega de software, desde a concepção até a produção. Conduzido pelos principais líderes da IBM, o conteúdo foi concebido para ajudar os líderes empresariais a adquirir o conhecimento necessário para priorizar os investimentos em IA que podem estimular o crescimento.

Como funciona a observabilidade de agentes de IA 

A observabilidade de agentes de IA funciona por meio da coleta e análise de dados de telemetria que capturam tanto as métricas tradicionais do sistema quanto comportamentos específicos da IA. Assim, as equipes podem usar esses dados para entender as decisões dos agentes, solucionar problemas e otimizar o desempenho.

Dados usados na observabilidade de agentes de IA

A observabilidade de agentes de IA usa os mesmos dados de telemetria das soluções de observabilidade tradicionais, mas também inclui pontos de dados adicionais exclusivos de sistemas de IA generativa, como uso de tokens, interações com ferramentas e caminhos de decisão dos agentes. Esses sinais específicos de IA ainda se encaixam no MELT (métricas, eventos, logs e rastreamentos). 

Métrica

Além das métricas de desempenho tradicionais coletadas por ferramentas de observabilidade padrão, como a utilização de recursos de CPU, memória e rede, a observabilidade de agentes de IA mede:

Uso do token

Tokens são unidades de texto processadas por modelos de IA, geralmente palavras ou partes delas. Como os provedores de IA cobram pelo uso de tokens, o rastreamento dessa métrica afeta diretamente os custos. As organizações podem otimizar os gastos monitorando o consumo de tokens. Por exemplo, se determinadas perguntas dos clientes usarem 10 vezes mais tokens do que outras, as equipes podem reformular a forma como os agentes lidam com essas solicitações para reduzir os custos.

Conforme os dados do mundo real evoluem, os modelos de IA podem se tornar menos precisos com o tempo. O monitoramento das principais métricas de desvio do modelo, como mudanças nos padrões de resposta ou variações na qualidade da produção, pode ajudar as organizações a detectá-las com antecedência. Por exemplo, um agente de detecção de fraude pode se tornar menos eficaz à medida que os criminosos desenvolvem novas táticas. A observabilidade identifica esse declínio para que as equipes possam treinar novamente o modelo com conjuntos de dados atualizados.

Qualidade da resposta

Essa métrica mede a qualidade da produção de um agente de IA e se suas respostas são precisas, relevantes e úteis. Ela rastreia a frequência com que os agentes alucinam ou fornecem informações imprecisas. Isso pode ajudar as organizações a manter a qualidade do serviço e identificar áreas de melhoria. Por exemplo, se os agentes tiverem dificuldades com questões técnicas, as equipes podem expandir a base de conhecimento deles ou adicionar ferramentas especializadas.

Latência de inferência

Isso mede quanto tempo um agente de IA leva para responder às solicitações. Respostas rápidas são essenciais para a satisfação do usuário e para os resultados comerciais. Por exemplo, se um assistente de compras demorar muito para recomendar produtos, os clientes podem ir embora sem realizar a compra. O rastreamento da latência ajuda as equipes a identificar lentidões e corrigir problemas de desempenho antes que eles afetem as vendas.

Eventos 

Os eventos são as ações significativas que o agente de IA realiza para concluir uma tarefa. Esses dados fornecem insights sobre o comportamento do agente e o processo de tomada de decisão para ajudar a solucionar problemas e melhorar o desempenho.

Alguns exemplos de eventos de agentes de IA são:

Chamadas de API

Quando um agente de IA utiliza uma interface de programação de aplicativos (API) para interagir com uma ferramenta externa, como um mecanismo de busca, banco de dados ou serviço de tradução. O rastreamento de chamadas de API ajuda as organizações a monitorar o uso de ferramentas e a identificar ineficiências. Por exemplo, se um agente faz 50 chamadas de API para uma tarefa que deveria precisar de 2 ou 3, as equipes podem corrigir a lógica empregada.

Chamadas de LLM

Quando os agentes de IA usam grandes modelos de linguagem para entender solicitações, tomar decisões ou gerar respostas. O monitoramento das chamadas de LLM ajuda a revelar o comportamento, o desempenho e a confiabilidade dos modelos que orientam as ações dos agentes de IA. Por exemplo, se um agente de IA bancário fornecer informações de conta incorretas a um cliente, as equipes podem analisar as chamadas de LLM do agente para encontrar o problema, como dados desatualizados ou prompts pouco claros.

Chamada de ferramenta malsucedida

Quando um agente tenta usar uma ferramenta, mas ela não funciona, como quando uma chamada de API falha devido a um problema de rede ou solicitação incorreta. O rastreamento dessas falhas pode melhorar a confiabilidade do agente e otimizar os recursos. Por exemplo, se um agente de suporte não puder verificar o status do pedido devido a chamadas de banco de dados malsucedidas, as equipes serão imediatamente alertadas para corrigir certos problemas, como credenciais ausentes ou interrupções de serviço.

Transferência para humano

Quando agentes de IA encaminham solicitações que não conseguem atender para a equipe humana. Essas informações podem revelar lacunas nos recursos dos agentes e as nuances das interações com os clientes. Por exemplo, se um agente de IA de serviços financeiros frequentemente encaminha perguntas a um humano, ele pode precisar de melhores dados de treinamento financeiro ou de uma ferramenta de investimento especializada.

Notificações de alerta

Quando algo dá errado, como tempos de resposta longos, acesso não autorizado a dados ou recursos limitados do sistema, e o agente de IA recebe um aviso automatizado. Os alertas podem ajudar as equipes a detectar e corrigir problemas em tempo real, antes que eles afetem os usuários. Por exemplo, um alerta sobre alto uso de memória permite que as equipes adicionem recursos antes que o agente falhe.

Logs

Logs são os registros cronológicos detalhados de cada evento e ação que ocorre durante a operação de um agente de IA. Podem ser usados para criar um registro de alta fidelidade, milissegundo por milissegundo, de cada evento, completo com o contexto circundante.

Alguns exemplos de logs na observabilidade de agentes de IA são:

Logs de interação do usuário

Esses logs documentam toda interação entre usuários e agentes de IA, incluindo consultas, interpretação de intenção e produções. As organizações podem usar esses logs para entender as necessidades dos usuários e o desempenho dos agentes. Por exemplo, se os usuários reformularem repetidamente a mesma pergunta, o agente provavelmente não entenderá a intenção deles.

Logs de interação com LLM

Capturam todas as trocas entre agentes e LLMs, incluindo prompts, respostas, metadados, carimbos de data e hora e uso de tokens. Esses dados revelam como os agentes de IA interpretam as solicitações e geram respostas, inclusive quando eles interpretam incorretamente o contexto. Por exemplo, se um agente de IA de moderação de conteúdo sinalizar erroneamente um conteúdo benigno e deixar passar conteúdos prejudiciais, esses logs poderão expor os padrões falhos que causam os erros.

Logs de execução de ferramenta

Registram quais ferramentas os agentes usam, quando as usam, quais comandos eles enviam e quais resultados eles recebem de volta. Isso ajuda a rastrear problemas de desempenho e erros de ferramentas até sua origem. Por exemplo, se um agente de IA de suporte técnico responde lentamente a determinadas perguntas, os logs podem revelar que ele está usando consultas de pesquisa vagas. Com isso, as equipes podem escrever prompts mais específicos para melhorar as respostas.

Logs de tomada de decisão do agente

Esses logs registram como um agente de IA chegou a uma decisão ou ação específica, quando disponível, como ações escolhidas, pontuações, seleções de ferramentas e prompts/produções, sem implicar acesso a raciocínios ocultos. Esses dados são cruciais para detectar vieses e garantir uma IA responsável, sobretudo à medida que os agentes se tornam mais autônomos.

Por exemplo, se um agente de IA rejeita injustamente as solicitações de determinados bairros, os logs de tomada de decisão podem revelar padrões discriminatórios nos dados de treinamento. Assim, as equipes poderão treinar novamente o modelo de IA para atender às exigências de empréstimos justos.

Rastreios

Os rastreamentos registram a “jornada” de ponta a ponta de cada solicitação do usuário, incluindo todas as interações com LLMs e ferramentas ao longo do caminho.

Por exemplo, o rastreamento de uma solicitação simples de um agente de IA pode capturar essas etapas.

  • A entrada do usuário que aciona o agente
  • O plano do agente e o detalhamento da tarefa
  • Qualquer chamada de ferramenta externa (por exemplo, uma pesquisa na web)
  • O processamento da solicitação pelo LLM
  • O processamento de prompt e a geração de resposta
  • A resposta retornada ao usuário

Os desenvolvedores podem usar esses dados para identificar a origem de gargalos ou falhas e medir o desempenho em cada etapa do processo.

Por exemplo, se os rastreamentos mostrarem que as pesquisas na Web levam cinco segundos, enquanto todas as outras etapas são concluídas em milissegundos, as equipes podem implementar o cache ou usar ferramentas de pesquisa mais rápidas para melhorar o tempo geral de resposta.

Coleta de dados para observabilidade de agentes de IA

Existem duas abordagens comuns para coletar dados usados na observabilidade de agentes de IA: instrumentação integrada e soluções de terceiros.

Na primeira abordagem, os dados MELT são coletados por meio da instrumentação integrada de um framework agêntico de IA. Esses recursos nativos de monitoramento e registro capturam e transmitem automaticamente dados de telemetria sobre métricas, eventos, logs e rastreamentos.

Muitas empresas de grande porte e aquelas com necessidades especializadas adotam essa abordagem porque ela oferece personalização profunda e controle refinado sobre a coleta e o monitoramento de dados. No entanto, também exige um esforço significativo de desenvolvimento, tempo e manutenção contínua.

Na segunda abordagem, as soluções de observabilidade de agentes de IA fornecem ferramentas e plataformas especializadas para coletar e analisar dados MELT. Essas soluções oferecem às organizações uma implementação rápida e simples com funcionalidades e integrações criados previamente que reduzem a necessidade de especialização interna. No entanto, confiar em uma solução de terceiros pode gerar dependência de um fornecedor específico e limitar as opções de personalização para atender às necessidades altamente específicas ou de nicho de uma organização.

Algumas organizações optam por combinar instrumentação integrada e provedores de soluções terceirizados para coletar dados de telemetria de agentes de IA.

Ambas as abordagens normalmente dependem do OpenTelemetry (OTel), uma ferramenta de observabilidade de código aberto hospedada na plataforma web GitHub.

O OTel surgiu como o framework padrão do setor para coletar e transmitir dados de telemetria, pois oferece uma abordagem de observabilidade neutra em relação a fornecedores, o que é particularmente valioso em sistemas de IA complexos, em que componentes de diferentes fornecedores devem trabalhar juntos sem dificuldades. Ele permite que os dados de observabilidade fluam de forma sistemática entre agentes, vários modelos, ferramentas externas e sistemas de geração aumentada de recuperação (RAG).

Análise e ação com base nos dados de observabilidade

Depois que as organizações coletam dados MELT por meio da abordagem escolhida, elas podem usá-los de várias maneiras.

Alguns dos casos de uso mais comuns são:

Agregação de dados e visualização

As equipes usam dashboards para visualizar métricas em tempo real, fluxos de eventos e mapas de rastreamento. Essa visão consolidada ajuda a identificar padrões e anomalias em todo o ecossistema de agentes de IA. Por exemplo, um dashboard pode revelar que os agentes de atendimento ao cliente ficam mais lentos todas as tardes às 15h, levando as equipes a investigar a causa.

Análise da causa raiz

Quando surgem problemas, as equipes correlacionam dados de métricas, eventos, logs e rastreamentos para identificar os pontos exatos de falha. Por exemplo, a vinculação de um pico nas taxas de erro (métrica) a falhas específicas de API (eventos) e a análise dos logs de decisão ajudam as equipes a entender por que um agente se comportou de forma inesperada.

Otimização de desempenho

As organizações usam insights de dados de observabilidade para melhorar a eficiência dos agentes. Elas podem reduzir o uso de tokens, otimizar a seleção de ferramentas ou reestruturar os fluxos de trabalho dos agentes com base na análise de rastreamento. Por exemplo, podem descobrir que um agente pesquisa o mesmo banco de dados três vezes em vez de salvar o resultado após a primeira pesquisa.

Melhoria contínua

As equipes estabelecem ciclos de feedback em que os insights de observabilidade direcionam o refinamento dos agentes. Avaliações regulares dos dados MELT ajudam a identificar problemas recorrentes e casos extremos, como agentes com dificuldades para responder a solicitações de reembolso ou que falham quando os usuários fazem perguntas não abordadas na documentação. Esses problemas podem indicar a necessidade de expansão dos conjuntos de dados de treinamento e de atualização dos documentos.

Exemplo: observabilidade de agentes de IA em ação

Considere como um varejista online pode usar a observabilidade para identificar e corrigir um problema com um agente de IA que interage com os clientes.

Primeiro, o dashboard de observabilidade mostra um pico de feedbacks negativos dos clientes referente a um determinado agente de IA.

Quando as equipes examinam os logs do agente, descobrem que ele usa uma chamada de ferramenta de banco de dados para responder às perguntas dos clientes. No entanto, as respostas contêm informações desatualizadas ou incorretas.

Um rastreamento (o registro completo do processo passo a passo do agente para lidar com a pergunta do cliente) identifica a chamada da ferramenta específica que retornou os dados obsoletos. Uma análise adicional revela o conjunto de dados preciso dentro do banco de dados que contém as informações desatualizadas.

Com esse insight, o varejista online atualiza ou remove o conjunto de dados problemático. A equipe também atualiza a lógica do agente para validar a precisão dos dados antes de responder aos clientes. Como resultado, o agente agora fornece respostas precisas e úteis que melhoram a satisfação do cliente.

IA e automação na observabilidade de agentes de IA

Embora a maior parte da observabilidade de agentes de IA ainda envolva a entrega de alertas e anomalias aos membros da equipe para investigação e resolução manual, a automação impulsionada por IA está transformando cada vez mais a maneira como as organizações coletam, analisam e agem com base em dados de telemetria.

Soluções avançadas de observabilidade já estão usando essas tecnologias para monitorar, depurar e otimizar agentes de IA com pouca ou nenhuma intervenção humana. Alguns casos de uso emergentes nessa área são:

  • Coleta, processamento e armazenamento automático de dados de telemetria de agentes de IA para auditorias de conformidade e análise de desempenho
  • Análise de grandes volumes de dados de agentes de IA para sinalizar anomalias e identificar problemas
  • Previsão de problemas com aplicações e agentes de IA antes que eles ocorram
  • Previsão das necessidades de recursos com base nos padrões de uso
  • Sugestão de melhorias na lógica ou no uso de ferramentas para otimizar o desempenho
  • Prevenção de acesso ou compartilhamento de dados sigilosos por agentes de IA
Soluções relacionadas
IBM DevOps Accelerate

Automatize a entrega de software para qualquer aplicação no local, na nuvem ou no mainframe.

Explore o DevOps Accelerate
Soluções de DevOps

Utilize softwares e ferramentas de DevOps para desenvolver, implementar e gerenciar aplicativos nativos da nuvem em diversos dispositivos e ambientes.

Explore as soluções de DevOps
Serviços de consultoria em nuvem 

Libere novos recursos e aumente a agilidade dos negócios com os serviços de consultoria em nuvem da IBM. Descubra como cocriar soluções, acelerar a transformação digital e otimizar o desempenho por meio de estratégias de nuvem híbrida e parcerias especializadas.

Serviço de nuvem
Dê o próximo passo

Libere o potencial do DevOps para criar, testar e implementar aplicativos seguros nativos da nuvem com integração e entrega contínuas.

Explore as soluções de DevOps Descubra o DevOps em ação
Notas de rodapé

1 AI Q4Pulse Survey: Key Findings, KPMG, novembro de 2024
2 Top Strategic Technology Trends for 2025: Agentic AI, Gartner, outubro de 2024