Configurazione delle valutazioni qualitative dell'IA generativa
È possibile utilizzare le valutazioni di qualità dell'IA generativa configurata per misurare il rendimento del modello di base nell'esecuzione delle attività.
Quando si valutano i modelli di prompt, è possibile esaminare un riepilogo dei risultati di valutazione della qualità AI generativa per i seguenti tipi di attività:
- Riepilogo del testo
- Generazione di contenuto
- Estrazione di entità
- Risposta alle domande
- Richiamo RAG (augmented Generation)
Il riepilogo visualizza i punteggi e violazioni per le metriche calcolate con le impostazioni predefinite.
Per configurare le valutazioni di qualità AI generative con le proprie impostazioni, è possibile impostare una dimensione di esempio minima e impostare valori di soglia per ciascuna metrica come mostrato nel seguente esempio:

La dimensione minima del campione indica il numero minimo di record di transazione del modello che si desidera valutare e i valori di soglia creano avvisi quando i punteggi della metrica violano le soglie. I punteggi della metrica devono essere superiori ai valori di soglia inferiori per evitare violazioni. Valori di metrica più elevati indicano punteggi migliori.
È inoltre possibile configurare le impostazioni per calcolare le metriche con i modelli LLM-as-a-judge. I modelli LLM-as-a-judge sono modelli LLM che possono essere utilizzati per valutare le prestazioni di altri modelli.
Per calcolare le metriche con i modelli LLM-as-a-judge, è necessario selezionare Gestisci per aggiungere un sistema " generative_ai_evaluator quando si configurano le impostazioni di valutazione.

È possibile selezionare un valutatore per calcolare le metriche di qualità delle risposte e di qualità del recupero.

È inoltre possibile utilizzare un blocco note per creare un valutatore quando si impostano i modelli di prompt e si rivedono i risultati della valutazione per l'attività RAG in watsonx.governance