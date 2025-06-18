A crescente prevalência de agentes de IA apresenta complexidades significativas, como o desafio de avaliar o desempenho, a confiabilidade, a segurança e o comportamento ético desses agentes de IA autônomos.

As melhores práticas de avaliação da IA agêntica podem reduzir a exposição a vários riscos previsíveis e desconhecidos. No entanto, o rastreamento de desempenho eficaz pode ser um desafio para organizações e desenvolvedores, pois os agentes exigem a observação não apenas das saídas, mas também de comportamentos, decisões e intenções. Com o watsonx.governance, as organizações podem avaliar o desempenho dos agentes usando:

Métricas de avaliação com benchmarks : ajudam a avaliar a competência geral dos agentes e em várias tarefas.

: ajudam a avaliar a competência geral dos agentes e em várias tarefas. Análise da causa raiz : identifica as razões subjacentes do baixo desempenho nas cadeias de decisões de rastreamento, não apenas a saída final para informar melhorias para, por exemplo, falta de dados sem viés.

: identifica as razões subjacentes do baixo desempenho nas cadeias de decisões de rastreamento, não apenas a saída final para informar melhorias para, por exemplo, falta de dados sem viés. Feedback humano ou red teaming: permite que os SMEs observem e verifiquem as ações dos agentes (human in the loop) e testem os agentes em busca de suscetibilidades.

A partir de março, o watsonx.governance lançou esses novos recursos para compatibilidade com métricas especializadas adicionais. As novas métricas de avaliação de IA agêntica da RAG já estão disponíveis. O conjunto abrangente de métricas para avaliar o desempenho inclui HAP, PII, injeção de prompts, relevância de contexto, fidelidade, semelhança de resposta, relevância de resposta, taxa de acerto, precisão média, classificação recíproca e solicitações mal-sucedidas, entre outras, para garantir uma avaliação completa da eficácia de nosso sistema. Isso ajuda a confirmar se os agentes agem adequadamente e a detectar sinais de alerta ao adicionar as proteções necessárias para regular o comportamento dos agentes em relação ao resultado desejado.

Essas métricas estarão disponíveis adicionando um simples decorador em Python ao nó da ferramenta em uma aplicação LangGraph. A adição desse decorador resultará na computação da métrica como um subproduto da execução do nó na aplicação agêntica. A métrica calculada pode, então, ser usada na aplicação para tomar decisões de fluxo. Por exemplo, se o contexto buscado no banco de dados de vetores não for relevante para a consulta do usuário, não gere uma resposta, mas tente uma pesquisa na web para buscar o contexto correto. Esses avaliadores não são apenas fáceis de usar, mas também são eficientes e incluem métricas de código aberto e métricas avançadas da IBM. Assim, fornecem uma ampla gama de recursos para avaliação e são adequados para vários casos de uso e tipos de tarefas.