Valutare con i file di " CSV "

Carica i file " CSV " contenenti i casi di test per valutare la versione preliminare dell'agente prima della distribuzione.

Importante:

Questa funzione di valutazione verrà presto dismessa. Utilizza la nuova interfaccia di valutazione per creare e gestire i casi di test.

Panoramica

La funzione di valutazione dei caricamenti dell' CSV e ti consente di testare il tuo agente caricando casi di test in formato CSV. È possibile eseguire valutazioni mirate o complete ed esaminare i risultati dettagliati per individuare eventuali problemi prima della distribuzione.

Funzionalità principali :

  • Carica i file " CSV " contenenti le domande e le risposte previste

  • Eseguire valutazioni mirate o complete

  • Verificare lo stato (superato o non superato) e gli indicatori di qualità

  • Scarica i rapporti di valutazione

Prima di iniziare

Aggiungi gli strumenti, i collaboratori e le competenze di cui il tuo agente ha bisogno. Le valutazioni utilizzano la configurazione attuale del tuo agente, quindi preparare questi dati garantisce test realistici.

Importante:
  • La valutazione degli agenti non è disponibile nei tenant isolati in IBM Cloud.

  • Quando è attivata la redazione completa, la valutazione delle bozze è disattivata. L'esito del test dipende dai dati di tracciamento e, in assenza di dettagli accessibili relativi alla tracciatura, le valutazioni non possono essere eseguite in modo affidabile. Per ulteriori informazioni sui dettagli delle tracce, consultare la sezione Agenti di monitoraggio.

  • Le risposte generate dall'intelligenza artificiale dal tuo agente possono variare. Convalidare le risposte prima dell'elaborazione.

Accedere all'opzione di prova

Per accedere all'opzione di prova :

  1. Vai alla pagina di configurazione dell'agente.

  2. Fai clic su "Agente di test" > "Interfaccia precedente ".

Si apre la pagina "Gestisci casi di test e valutazioni".

Preparazione dei casi di test

Crea un file ` CSV ` (dimensione massima: 5 MB) contenente i casi di test per il tuo agente.

Per preparare i casi di test :

  1. Fai clic su Carica test > Scarica. Modello CSV per scaricare un file di esempio.

  2. Per ogni caso di test, aggiungere:

    • Uno Prompt che rappresenta un'espressione realistica dell'utente

    • Uno Answer che definisce la risposta prevista dell'agente

Esempio di formato " CSV ":

Prompt,Answer
"What is the capital of France?","Paris"
"List three healthcare providers.","Provider A, Provider B, Provider C"

Caricamento dei casi di test

Per caricare i casi di test :

  1. Fai clic su «Carica test» nella pagina di gestione dei test.

  2. Clicca sul file o trascinalo dall' CSV e nell'area di caricamento.

  3. Fare clic su Carica per confermare.

Il sistema verifica la validità del formato del file e controlla che non superi il limite di 5 MB. Se hai caricato dei file in precedenza, il sistema li mantiene disponibili ma li deseleziona automaticamente. Solo i casi di test appena caricati rimangono selezionati per la valutazione.

Nota:

Carica un file alla volta per garantire che ogni valutazione sia mirata e tracciabile.

Gestione dei casi di test

Dopo aver caricato il file « CSV », potrai visualizzare e gestire i casi di test nella tabella «Casi di test».

Azioni disponibili :

Azione

Descrizione

Esegui

Esegui solo i casi di test selezionati

Elimina

Rimuovi i casi di test selezionati

Annulla

Deseleziona tutti i messaggi selezionati

Esegui tutto

Seleziona ed esegui tutti i casi di test disponibili

Caratteristiche del tavolo :

  • Cerca : individua rapidamente casi di test specifici (disponibile solo se non sono stati selezionati casi di test)

  • Ordina : clicca sulle intestazioni delle colonne per ordinare per Prompt, Data di creazione o Ultima esecuzione

  • Impostazione delle pagine : visualizza fino a 5 suggerimenti per pagina

Esecuzione delle valutazioni

Dopo aver caricato e selezionato i casi di test, clicca su "Esegui" per avviare la valutazione.

Nota:
  • Mentre è in corso una valutazione, la tabella dei casi di test rimane temporaneamente disabilitata. Il sistema lo riattiva al termine della valutazione.

  • La valutazione potrebbe richiedere fino a 10 minuti, a seconda del numero di casi di test e del carico complessivo del sistema.

Esame dei risultati della valutazione

Ogni valutazione appare come una riga nella tabella «Valutazioni».

Proprietà

Descrizione

Data della valutazione

Quando hai avviato la valutazione

Stato valutazione

In corso, Completato o Errore

Numero di test

Quanti suggerimenti hai incluso nella valutazione

Eseguito da

Utente che ha avviato la valutazione

Scarica

Esporta il tuo rapporto di valutazione in formato « CSV »

Analisi degli indicatori di valutazione

Per analizzare i parametri di valutazione, seleziona una valutazione cliccando sulla data indicata nella colonna "Data di valutazione". Si aprirà una dashboard dettagliata che mostra i risultati dei singoli test raggruppati per categorie:

Categoria

Descrizione

Passa

L'agente ha elaborato correttamente la richiesta e ha restituito un risultato

Errore

Durante l'esecuzione si è verificato un errore

Avvisi che richiedono attenzione

I suggerimenti contrassegnati nelle sezioni "Qualità della risposta", "Utilizzo degli strumenti" o "Completamento del messaggio" indicano le aree in cui potrebbe essere necessario perfezionare la configurazione dell'operatore

Qualità della risposta

Gli indicatori di qualità delle risposte valutano in che misura le risposte dell'operatore corrispondono alle aspettative degli utenti:

  • Fedeltà : misura la precisione con cui il risultato riflette il contesto o le informazioni di origine forniti e ne rispetta i principi (soglia predefinita: 0.70 )

  • Rilevanza : valuta quanto la risposta sia pertinente rispetto alla domanda dell'utente (soglia predefinita: 0.70 )

  • Correttezza : misura il grado di corrispondenza tra il risultato generato e la risposta di riferimento, sulla base dei dati di riferimento contenuti nel file ` CSV ` (soglia predefinita: 0.70 )

Qualità degli strumenti

Gli indicatori di qualità degli strumenti valutano sia gli strumenti a disposizione dell'agente sia le specifiche operazioni eseguite da quest'ultimo:

  • Accuratezza : verifica la sintassi delle chiamate alle funzioni, compresa la struttura e la correttezza dei parametri

  • Rilevanza : valuta se lo strumento selezionato risponde alla richiesta dell'utente in base al contesto della conversazione (soglia predefinita: 0.80 )

Completamento del messaggio

La valutazione del completamento dei messaggi misura l'affidabilità con cui l'agente porta a termine i messaggi durante l'esecuzione:

  • Successo : numero di messaggi completati correttamente senza eccezioni

  • Errore : numero di messaggi che generano un errore durante l'esecuzione

Cosa fare successivamente

Dopo aver esaminato i risultati della valutazione e individuato le aree da migliorare, perfeziona gli strumenti, aggiorna le conoscenze e modifica le configurazioni. Un'analisi regolare ti aiuta a sviluppare un agente che, col passare del tempo, diventa più preciso, affidabile e in linea con i tuoi obiettivi aziendali.

Ti invitiamo a passare alla nuova esperienza di valutazione per migliorare la creazione e la gestione dei casi di test.