O que é avaliação de agentes de IA?

Autores

Cole Stryker

Staff Editor, AI Models

IBM Think

Michal Shmueli-Scheuer

Distinguished Engineer, AI Benchmarking and Evaluation

A avaliação de agentes de IA refere-se ao processo de avaliar e entender o desempenho de um agente de IA na execução de tarefas, tomada de decisão e interação com os usuários. Como os agentes operam com autonomia, avaliá-los é essencial para garantir que funcionem corretamente. Os agentes de IA devem se comportar de acordo com a intenção de seus projetistas, ser eficientes e aderir a certos princípios de IA ética para atender às necessidades da organização. A avaliação ajuda a verificar se os agentes estão atendendo a esses requisitos e também ajuda a melhorar a qualidade do agente, identificando áreas para refinamento e otimização.

Os agentes de IA generativa (IA gen) são frequentemente avaliados em tarefas tradicionais de texto para texto, semelhantes aos benchmarks de grandes modelos de linguagem (LLM) padrão, onde métricas como coerência, relevância e fidelidade do texto gerado são comumente usadas. No entanto, os agentes de IA generativa geralmente realizam operações mais amplas e complexas, incluindo raciocínio em várias etapas, chamada de ferramentas e interação com sistemas externos, que exigem uma avaliação mais abrangente. Mesmo quando a produção final é texto, ele pode ser o resultado de ações intermediárias, como consultar um banco de dados ou invocar uma API, cada uma das quais precisa ser avaliada separadamente.

Em outros casos, o agente pode não produzir nenhum tipo de saída textual, em vez de concluir uma tarefa como atualizar um registro ou enviar uma mensagem, onde o sucesso é medido pela execução correta. Portanto, a avaliação deve ir além da qualidade do texto no nível da superfície e avaliar o comportamento geral do agente, o sucesso da tarefa e o alinhamento com a intenção do usuário. Além disso, para evitar o desenvolvimento de agentes altamente capazes, mas que consomem muitos recursos, o que limita sua implementação prática, as medições de custo e eficiência devem ser incluídas como parte da avaliação.

Além de medir o desempenho, a avaliação dos agentes de IA deve priorizar dimensões críticas, como segurança, confiabilidade, conformidade com as políticas e mitigação de vieses. Esses fatores são essenciais para a implementação de agentes em ambientes do mundo real de alto risco. A avaliação ajuda a garantir que os agentes evitem comportamentos prejudiciais ou inseguros, mantenham a confiança do usuário por meio de saídas previsíveis e verificáveis e resistam à manipulação ou ao uso indevido.

Para atingir essas metas funcionais (qualidade, custo) e não funcionais (segurança), os métodos de avaliação podem incluir testes de benchmarks, avaliações e testes A/B e simulações do mundo real. Ao avaliar sistematicamente os agentes de IA, as organizações podem aprimorar seus recursos de IA, otimizar os esforços de automação e aprimorar as funções de negócios, minimizando os riscos associados à IA agêntica insegura, não confiável ou com viés.

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Como funciona a avaliação de agentes de IA

A avaliação de um agente de IA exige uma abordagem estruturada dentro de um framework formal de observabilidade mais amplo. Os métodos de avaliação (ou aval) diferem amplamente, mas o processo geralmente envolve as seguintes etapas:

1. Definar metas e métricas de avaliação

Qual é o propósito do agente? Quais são os resultados esperados? Como a IA é usada em cenários do mundo real?

Consulte "Métricas comuns de avaliação de agentes de IA" para conhecer algumas das métricas mais populares, que se enquadram nas categorias de desempenho, interação e experiência, IA responsável, sistema e eficiência e métricas específicas de tarefas.

2. Colete dados e prepare-se para os testes

Para avaliar o agente de IA com eficiência, use conjuntos de dados representativos, incluindo entradas variados que reflitam situações reais e cenários de teste que simulem condições em tempo real. Os dados anotados representam uma verdade absoluta em relação à qual os modelos de IA podem ser testados.

Mapeie cada etapa potencial do fluxo de trabalho de um agente, seja chamar uma API, passar informações para um segundo agente ou tomar uma decisão. Ao dividir o fluxo de trabalho de IA em partes individuais, é mais fácil avaliar como o agente lida com cada etapa. Considere também toda a abordagem do agente em todo o fluxo de trabalho ou, em outras palavras, o caminho de execução que o agente percorre para resolver um problema de várias etapas.

3. Realize testes

Execute o agente de IA em diferentes ambientes, potencialmente com diferentes LLMs como espinha dorsal, e acompanhe o desempenho. Divida as etapas individuais dos agentes e avalie cada uma delas. Por exemplo, monitore o uso da geração aumentada de recuperação (RAG) pelo agente para recuperar informações de um banco de dados externo ou a resposta de uma chamada de API.

4. Analise os resultados

Compare os resultados com os critérios de sucesso predefinidos, se existirem e, se não houver, use o LLM como juiz (veja abaixo). Avalie as trocas equilibrando o desempenho com considerações éticas.

O agente escolheu a ferramenta certa? Ele chamou a função correta? Ele passou as informações certas no contexto certo? Ele produziu uma resposta factualmente correta?

A função uso de chamadas/ferramentas é uma habilidade fundamental para construir agentes inteligentes capazes de apresentar respostas precisas em termos de contexto e em tempo real. Considere uma avaliação e análise dedicadas usando uma abordagem baseada em regras juntamente com a avaliação semântica usando LLM como juiz.

O LLM como juiz é um sistema automatizado de avaliação que mede o desempenho dos agentes de IA com base em critérios e métricas predefinidos. Em vez de depender apenas de avaliadores humanos, ele usa algoritmos, heurística ou modelos de pontuação baseados em IA para avaliar as respostas, decisões ou ações dos agentes.

Consulte "Métricas de avaliação de chamada de funções" abaixo.

5. Otimize e itere

Os desenvolvedores agora podem ajustar prompts, depurar algoritmos, simplificar a lógica ou configurar arquiteturas agênticas com base nos resultados da avaliação. Por exemplo, os casos de uso de suporte ao cliente podem ser melhorados acelerando a geração de respostas e os tempos de conclusão das tarefas. A eficiência do sistema pode ser otimizada para escalabilidade e uso de recursos.

Agentes de IA

Cinco tipos de agentes de IA: funções autônomas e aplicações no mundo real

Saiba como a IA orientada por objetivos e baseada em utilidade se adapta a fluxos de trabalho e ambientes complexos.

Métricas comuns de avaliação de agentes de IA

Os desenvolvedores querem que os agentes trabalhem conforme o esperado. E, dada a autonomia dos agentes de IA, é importante entender o "porquê" por trás das decisões que a IA toma. Revise algumas das métricas mais comuns que os desenvolvedores podem usar para fazer avaliações de seus agentes com sucesso.

Específico da tarefa

Dependendo da aplicação de IA, métricas específicas de avaliação de qualidade podem ser aplicadas:

  • O LLM como juiz avalia a qualidade da geração de texto de IA, independentemente da disponibilidade de dados reais.
  • BLEU e ROUGE são alternativas de menor custo que avaliam a qualidade do texto gerado por IA, comparando-o com o texto escrito por humanos.

Outras métricas funcionais para avaliar o desempenho de agentes de IA incluem:

  • A taxa de sucesso/conclusão de tarefas mede a proporção de tarefas ou objetivos que o agente conclui de forma correta ou satisfatória em relação ao número total de
    tentativas.
  • Taxa de erro é o percentual de saídas incorretas ou operações com falha.
  • O custo mede o uso de recursos, como token ou tempo de computação.
  • Latência é o tempo que um agente de IA leva para processar e retornar resultados.

IA ética e responsável

  • A vulnerabilidade de injeção de prompts avalia a taxa de sucesso dos prompts adversários, alterando o comportamento pretendido do agente.
  • A taxa de adesão a políticas é um percentual de respostas que estão em conformidade com políticas organizacionais ou éticas predefinidas.
  • A pontuação de viés e imparcialidade detecta disparidades na tomada de decisão de IA em diversos grupos de usuários.

Interação e experiência do usuário

Para agentes de IA que interagem com usuários, como chatbots e assistentes virtuais, os avaliadores analisam essas métricas.

  • A pontuação de satisfação dos usuários (CSAT) mede o nível de satisfação dos usuários com as respostas da IA.

  • A taxa de engajamento monitora a frequência com que os usuários interagem com o sistema de IA.

  • O fluxo conversacional avalia a capacidade da IA de manter conversas coerentes e significativas.

  • A taxa de conclusão de tarefas mede a eficácia com que o agente de IA ajuda os usuários a concluir uma tarefa.

Chamada de funções

Essas métricas baseadas em regras ajudam a avaliar a eficácia operacional dos sistemas orientados por IA:

  • Nome da função incorreta: o agente tentou chamar uma função que existe, mas usou um nome ou uma ortografia incorretos, levando a uma falha na execução.
  • Parâmetros necessários ausentes: o agente iniciou uma chamada de função, mas omitiu um ou mais parâmetros necessários para que a função funcione.
  • Tipo de valor de parâmetro errado: o agente forneceu um valor de parâmetro, mas seu tipo (cadeia de caracteres, número, booleano) não corresponde ao esperado pela função.
  • Valores permitidos: o agente usou um valor que está fora do conjunto de valores aceitos ou predefinidos para um parâmetro específico.
  • Parâmetro alucinado: o agente incluiu um parâmetro na chamada de função que não está definido ou compatível com a especificação da função.

Aqui estão algumas métricas semânticas baseadas no LLM como juiz.

  • A fundamentação dos valores dos parâmetros ajuda a garantir que cada valor de parâmetro seja derivado diretamente do texto do usuário, do histórico de contexto (como saídas anteriores de chamadas de APIs) ou dos padrões de especificação de APIs.
  • A transformação de unidades  verifica as conversões de unidades ou formatos (além dos tipos básicos) entre os valores no contexto e os valores dos parâmetros na chamada da ferramenta.
Soluções relacionadas
Agentes de IA para empresas

Crie, implemente e gerencie assistentes e agentes de IA potentes que automatizam fluxos de trabalho e processos com a IA generativa.

    Explore o watsonx Orchestrate
    Soluções de agentes de IA da IBM

    Construa o futuro do seu negócio com soluções de IA em que você pode confiar.

    Explore soluções de agentes de IA
    Serviços de IA do IBM® Consulting

    Os serviços de IA da IBM Consulting ajudam a reinventar a forma como as empresas trabalham com IA para gerar transformação.

    Explore os serviços de inteligência artificial
    Dê o próximo passo

    Se você optar por personalizar aplicativos e habilidades criados previamente ou criar e implementar serviços agênticos personalizados usando um estúdio de IA, a plataforma IBM watsonx tem aquilo de que você precisa.

    Explore o watsonx Orchestrate Explore o watsonx.ai