Avalie com arquivos do tipo " CSV "
Carregue arquivos do tipo ` CSV ` com casos de teste para avaliar sua versão preliminar do agente antes da implantação.
Esta funcionalidade de avaliação será descontinuada em breve. Use a nova interface de avaliação para criar e gerenciar casos de teste.
Visão geral
A funcionalidade de avaliação de upload do CSV permite que você teste seu agente enviando casos de teste no formato CSV. Você pode realizar avaliações específicas ou completas e analisar os resultados detalhados para identificar problemas antes da implantação.
Principais recursos :
Carregue os arquivos d CSV, incluindo as instruções e as respostas esperadas
Executar avaliações específicas ou completas
Verificar o status de aprovação ou reprovação e os indicadores de qualidade
Baixar relatórios de avaliação
Antes de iniciar
Adicione as ferramentas, os colaboradores e o conhecimento de que seu agente precisa. As avaliações utilizam a configuração atual do seu agente; portanto, preparar esses dados garante que os testes sejam realistas.
A avaliação de agentes não está disponível em locatários isolados no IBM Cloud.
Quando a supressão total está ativada, a avaliação de rascunhos fica desativada. A experiência do teste depende dos dados de rastreamento e, sem detalhes de rastreamento acessíveis, as avaliações não podem ser executadas de forma confiável. Para obter mais informações sobre os detalhes do rastreamento, consulte Agentes de monitoramento.
As respostas geradas por IA do seu agente podem variar. Valide as respostas antes do processamento.
Acessando a opção de teste
Para acessar a opção de teste :
Acesse a página de configuração do agente.
Clique em “Agente de teste” > “Experiência antiga ”.
A página “Gerenciar casos de teste e avaliações” é exibida.
Preparação de casos de teste
Crie um arquivo ` CSV ` (tamanho máximo: 5 MB) que contenha casos de teste para o seu agente.
Para preparar casos de teste :
Clique em Carregar testes > Baixar. Modelo CSV para baixar um arquivo de amostra.
Para cada caso de teste, adicione:
Um
Promptque represente uma expressão realista do usuárioAquele
Answerque define a resposta esperada do agente
Exemplo do formato CSV :
Prompt,Answer
"What is the capital of France?","Paris"
"List three healthcare providers.","Provider A, Provider B, Provider C"
Carregamento de casos de teste
Para enviar casos de teste :
Clique em “Carregar testes” na página de gerenciamento de testes.
Clique ou arraste seu arquivo ` CSV ` para a área de upload.
Clique em Upload para confirmar.
O sistema verifica o formato do arquivo e confere se ele está dentro do limite de tamanho de 5 MB. Se você já tiver enviado arquivos anteriormente, o sistema os mantém disponíveis, mas os desmarca automaticamente. Apenas os casos de teste recém-carregados permanecem selecionados para avaliação.
Carregue um arquivo por vez para manter cada avaliação focada e rastreável.
Gerenciamento de casos de teste
Depois de fazer o upload do seu arquivo ` CSV `, você poderá visualizar e gerenciar os casos de teste na tabela “Casos de teste”.
Ações disponíveis :
Ação |
Descrição |
|---|---|
Executar o |
Execute apenas os casos de teste selecionados |
Excluir |
Remova os casos de teste selecionados |
Cancelar |
Desmarcar todas as opções selecionadas |
Executar todos |
Selecione e execute todos os casos de teste disponíveis |
Características da mesa :
Pesquisar : Localize rapidamente casos de teste específicos (disponível apenas quando nenhum caso de teste estiver selecionado)
Classificar : Clique nos cabeçalhos das colunas para classificar por Prompt, Data de criação ou Última execução
Paginação : Exibir até 5 sugestões por página
Realização de avaliações
Depois de enviar e selecionar seus casos de teste, clique em Executar para iniciar a avaliação.
Enquanto uma avaliação estiver em andamento, a tabela de casos de teste permanece temporariamente desativada. O sistema o reativa assim que a avaliação for concluída.
Sua avaliação pode levar até 10 minutos, dependendo do número de casos de teste e da carga geral do sistema.
Revisão dos resultados da avaliação
Cada avaliação aparece como uma linha na tabela Avaliações.
Propriedade |
Descrição |
|---|---|
Data da avaliação |
Quando você iniciou a avaliação |
Status da avaliação |
Em andamento, Concluído ou Erro |
Número de testes |
Quantos critérios você incluiu na avaliação |
Executado por |
Usuário que iniciou a avaliação |
Download |
Exporte seu relatório de avaliação no formato d CSV |
Análise de métricas de avaliação
Para analisar as métricas de avaliação, selecione uma avaliação clicando na data e hora em “Data da avaliação”. Isso abre um painel detalhado que mostra os resultados individuais dos testes agrupados em categorias:
Categoria |
Descrição |
|---|---|
Aprovado |
O agente processou a solicitação com sucesso e retornou um resultado |
Falha |
O prompt encontrou um erro durante a execução |
Avisos que requerem atenção |
As sugestões sinalizadas nas categorias “Qualidade da resposta”, “Chamada de ferramenta” ou “Conclusão da mensagem” indicam áreas em que a configuração do agente pode precisar de ajustes |
Qualidade de resposta
As métricas de qualidade das respostas avaliam em que medida as respostas do agente correspondem às expectativas do usuário:
Fidelidade : Avalia com que precisão o resultado reflete e se mantém fiel ao contexto fornecido ou às informações de origem (limite padrão: 0.70 )
Relevância : avalia o grau de relevância da resposta em relação à pergunta do usuário (limite padrão: 0.70 )
Precisão : mede o grau de correspondência entre o resultado gerado e a resposta de referência, com base na verdade fundamental contida no arquivo ` CSV ` (limite padrão: 0.70 )
Qualidade da ferramenta
As métricas de qualidade das ferramentas avaliam tanto as ferramentas disponíveis para o agente quanto as chamadas específicas de ferramentas que ele executa:
Precisão : Valida a sintaxe das chamadas de ferramentas, incluindo a estrutura e a correção dos parâmetros
Relevância : avalia se a ferramenta selecionada atende à solicitação do usuário com base no contexto da conversa (limite padrão: 0.80 )
Conclusão da mensagem
A conclusão de mensagens avalia a confiabilidade com que o agente conclui as mensagens durante a execução:
Sucesso : Número de mensagens concluídas com sucesso, sem exceções
Falhas : Número de mensagens que falham durante a execução e retornam um erro
O quê fazer em seguida
Depois de analisar os resultados da avaliação e identificar áreas que precisam de melhorias, aprimore as ferramentas, atualize os conhecimentos e ajuste as configurações. A análise regular ajuda você a desenvolver um agente que se torna, com o tempo, mais preciso, confiável e alinhado com seus objetivos de negócio.
Considere migrar para a nova experiência de avaliação para melhorar a criação e o gerenciamento de casos de teste.