Avalie com arquivos do tipo " CSV "

Carregue arquivos do tipo ` CSV ` com casos de teste para avaliar sua versão preliminar do agente antes da implantação.

Importante:

Esta funcionalidade de avaliação será descontinuada em breve. Use a nova interface de avaliação para criar e gerenciar casos de teste.

Visão geral

A funcionalidade de avaliação de upload do CSV permite que você teste seu agente enviando casos de teste no formato CSV. Você pode realizar avaliações específicas ou completas e analisar os resultados detalhados para identificar problemas antes da implantação.

Principais recursos :

  • Carregue os arquivos d CSV, incluindo as instruções e as respostas esperadas

  • Executar avaliações específicas ou completas

  • Verificar o status de aprovação ou reprovação e os indicadores de qualidade

  • Baixar relatórios de avaliação

Antes de iniciar

Adicione as ferramentas, os colaboradores e o conhecimento de que seu agente precisa. As avaliações utilizam a configuração atual do seu agente; portanto, preparar esses dados garante que os testes sejam realistas.

Importante:
  • A avaliação de agentes não está disponível em locatários isolados no IBM Cloud.

  • Quando a supressão total está ativada, a avaliação de rascunhos fica desativada. A experiência do teste depende dos dados de rastreamento e, sem detalhes de rastreamento acessíveis, as avaliações não podem ser executadas de forma confiável. Para obter mais informações sobre os detalhes do rastreamento, consulte Agentes de monitoramento.

  • As respostas geradas por IA do seu agente podem variar. Valide as respostas antes do processamento.

Acessando a opção de teste

Para acessar a opção de teste :

  1. Acesse a página de configuração do agente.

  2. Clique em “Agente de teste” > “Experiência antiga ”.

A página “Gerenciar casos de teste e avaliações” é exibida.

Preparação de casos de teste

Crie um arquivo ` CSV ` (tamanho máximo: 5 MB) que contenha casos de teste para o seu agente.

Para preparar casos de teste :

  1. Clique em Carregar testes > Baixar. Modelo CSV para baixar um arquivo de amostra.

  2. Para cada caso de teste, adicione:

    • Um Prompt que represente uma expressão realista do usuário

    • Aquele Answer que define a resposta esperada do agente

Exemplo do formato CSV :

Prompt,Answer
"What is the capital of France?","Paris"
"List three healthcare providers.","Provider A, Provider B, Provider C"

Carregamento de casos de teste

Para enviar casos de teste :

  1. Clique em “Carregar testes” na página de gerenciamento de testes.

  2. Clique ou arraste seu arquivo ` CSV ` para a área de upload.

  3. Clique em Upload para confirmar.

O sistema verifica o formato do arquivo e confere se ele está dentro do limite de tamanho de 5 MB. Se você já tiver enviado arquivos anteriormente, o sistema os mantém disponíveis, mas os desmarca automaticamente. Apenas os casos de teste recém-carregados permanecem selecionados para avaliação.

Nota:

Carregue um arquivo por vez para manter cada avaliação focada e rastreável.

Gerenciamento de casos de teste

Depois de fazer o upload do seu arquivo ` CSV `, você poderá visualizar e gerenciar os casos de teste na tabela “Casos de teste”.

Ações disponíveis :

Ação

Descrição

Executar o

Execute apenas os casos de teste selecionados

Excluir

Remova os casos de teste selecionados

Cancelar

Desmarcar todas as opções selecionadas

Executar todos

Selecione e execute todos os casos de teste disponíveis

Características da mesa :

  • Pesquisar : Localize rapidamente casos de teste específicos (disponível apenas quando nenhum caso de teste estiver selecionado)

  • Classificar : Clique nos cabeçalhos das colunas para classificar por Prompt, Data de criação ou Última execução

  • Paginação : Exibir até 5 sugestões por página

Realização de avaliações

Depois de enviar e selecionar seus casos de teste, clique em Executar para iniciar a avaliação.

Nota:
  • Enquanto uma avaliação estiver em andamento, a tabela de casos de teste permanece temporariamente desativada. O sistema o reativa assim que a avaliação for concluída.

  • Sua avaliação pode levar até 10 minutos, dependendo do número de casos de teste e da carga geral do sistema.

Revisão dos resultados da avaliação

Cada avaliação aparece como uma linha na tabela Avaliações.

Propriedade

Descrição

Data da avaliação

Quando você iniciou a avaliação

Status da avaliação

Em andamento, Concluído ou Erro

Número de testes

Quantos critérios você incluiu na avaliação

Executado por

Usuário que iniciou a avaliação

Download

Exporte seu relatório de avaliação no formato d CSV

Análise de métricas de avaliação

Para analisar as métricas de avaliação, selecione uma avaliação clicando na data e hora em “Data da avaliação”. Isso abre um painel detalhado que mostra os resultados individuais dos testes agrupados em categorias:

Categoria

Descrição

Aprovado

O agente processou a solicitação com sucesso e retornou um resultado

Falha

O prompt encontrou um erro durante a execução

Avisos que requerem atenção

As sugestões sinalizadas nas categorias “Qualidade da resposta”, “Chamada de ferramenta” ou “Conclusão da mensagem” indicam áreas em que a configuração do agente pode precisar de ajustes

Qualidade de resposta

As métricas de qualidade das respostas avaliam em que medida as respostas do agente correspondem às expectativas do usuário:

  • Fidelidade : Avalia com que precisão o resultado reflete e se mantém fiel ao contexto fornecido ou às informações de origem (limite padrão: 0.70 )

  • Relevância : avalia o grau de relevância da resposta em relação à pergunta do usuário (limite padrão: 0.70 )

  • Precisão : mede o grau de correspondência entre o resultado gerado e a resposta de referência, com base na verdade fundamental contida no arquivo ` CSV ` (limite padrão: 0.70 )

Qualidade da ferramenta

As métricas de qualidade das ferramentas avaliam tanto as ferramentas disponíveis para o agente quanto as chamadas específicas de ferramentas que ele executa:

  • Precisão : Valida a sintaxe das chamadas de ferramentas, incluindo a estrutura e a correção dos parâmetros

  • Relevância : avalia se a ferramenta selecionada atende à solicitação do usuário com base no contexto da conversa (limite padrão: 0.80 )

Conclusão da mensagem

A conclusão de mensagens avalia a confiabilidade com que o agente conclui as mensagens durante a execução:

  • Sucesso : Número de mensagens concluídas com sucesso, sem exceções

  • Falhas : Número de mensagens que falham durante a execução e retornam um erro

O quê fazer em seguida

Depois de analisar os resultados da avaliação e identificar áreas que precisam de melhorias, aprimore as ferramentas, atualize os conhecimentos e ajuste as configurações. A análise regular ajuda você a desenvolver um agente que se torna, com o tempo, mais preciso, confiável e alinhado com seus objetivos de negócio.

Considere migrar para a nova experiência de avaliação para melhorar a criação e o gerenciamento de casos de teste.