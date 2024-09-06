Esistono molti framework di valutazione e molte metriche RAG diverse. Oltre a Ragas, altri framework includono Unitxt di IBM ed Evals di OpenAI. A differenza degli altri framework, Ragas utilizza un altro LLM-as-a-Judge per valutare le prestazioni di una pipeline RAG.

Sono disponibili diverse metriche di valutazione per misurare le prestazioni della nostra pipeline RAG. Le metriche che utilizzeremo nel framework open source Ragas possono essere suddivise in due parti:

Valutazione della generazione La fedeltà misura se tutte le risposte generate possono essere dedotte dal contesto recuperato. La pertinenza della risposta misura la pertinenza della risposta generata rispetto alla domanda.

Valutazione del recupero La precisione del contesto misura la classificazione delle entità rilevanti per la verità sul campo nel contesto. Una maggiore precisione del contesto significa che gli elementi rilevanti per la verità di base vengono classificati più in alto rispetto al "rumore". Il richiamo del contesto calcola la misura in cui le risposte generate dall'LLM alle query degli utenti possono essere trovate nel contesto recuperato.



Queste metriche sono intese come indicativi soggettivi della capacità di una pipeline RAG di recuperare le informazioni pertinenti dalla sua base di conoscenza per formulare una risposta. È importante notare che non esiste un ideale per dati, prompt o LLM: un contesto che ha un punteggio di context_relevance basso non è necessariamente un cattivo contesto. Potrebbe essere dovuto a una certa quantità di "rumore" o a informazioni meno rilevanti, o semplicemente perché l'attività stessa è aperta a molteplici interpretazioni. Anche il rumore non è necessariamente negativo. Noi, in quanto esseri umani, produciamo una certa quantità di rumore nelle nostre risposte ma siamo comprensibili quando rispondiamo alle domande.

Inoltre, ci sono bias che influiscono sulla valutazione di una pipeline RAG, come la preferenza per risposte più brevi o più lunghe, altrimenti note come distorsioni della lunghezza. Questo tipo di bias può portare a valutare una risposta più alta di un'altra a causa della sua lunghezza e non della sua sostanza.

Per questi motivi, eseguire valutazioni multiple è buona prassi. Questo esercizio può essere eseguito modificando il modello di prompt, le metriche, la sequenza di valutazione dell'LLM e altro ancora. Se stai creando un set di dati per la tua pipeline RAG, consigliamo inoltre di utilizzare modelli diversi per l'LLM che genera le risposte e l'LLM che critica le risposte. Se si utilizza lo stesso modello per entrambi, c'è un maggiore potenziale di distorsione nell'autovalutazione. Poiché queste metriche di valutazione sono soggettive, i risultati prodotti da questi framework devono essere controllati anche da giudici umani.

In questo tutorial, non creiamo un sistema RAG, ma usiamo Ragas per valutare l'output di un sistema RAG creato in precedenza. Per ulteriori informazioni su come creare il tuo sistema RAG utilizzando LangChain, consulta il nostro tutorial dettagliato su RAG.