Valuta la pipeline RAG utilizzando Ragas in Python con watsonx

In questo tutorial, utilizzeremo il framework Ragas per la valutazione di retrieval-augmented generation (RAG) in Python usando LangChain.

La RAG è una tecnica di elaborazione del linguaggio naturale (NLP) che combina il recupero delle informazioni e modelli generativi per produrre risposte più accurate, pertinenti e contestualizzate. Nelle attività tradizionali di generazione del linguaggio, vengono utilizzati modelli linguistici di grandi dimensioni (LLM) come GPT-4 (Generative Pre-trained Transformer) di OpenAI o IBM® Granite Models per costruire risposte in base al prompt di input. Un caso d'uso comune di questi grandi modelli linguistici nel mondo reale sono i chatbot. Tuttavia, questi modelli faticano a produrre risposte contestualmente rilevanti, veritiere o aggiornate.

La RAG risolve questa limitazione incorporando un passaggio di recupero prima della generazione della risposta. Durante il recupero, ulteriori frammenti di testo pertinenti al prompt vengono estratti da una knowledge base, ad esempio documenti pertinenti da un ampio corpus di testo, in genere memorizzati in un database vettoriale. Infine, viene utilizzato un un LLM per generare risposte basate sul prompt originale aumentato con il contesto recuperato.

Panoramica della valutazione della RAG

Esistono molti framework di valutazione e molte metriche RAG diverse. Oltre a Ragas, altri framework includono Unitxt di IBM ed Evals di OpenAI. A differenza degli altri framework, Ragas utilizza un altro LLM-as-a-Judge per valutare le prestazioni di una pipeline RAG.

Sono disponibili diverse metriche di valutazione per misurare le prestazioni della nostra pipeline RAG. Le metriche che utilizzeremo nel framework open source Ragas possono essere suddivise in due parti:

Valutazione della generazione
- La fedeltà misura se tutte le risposte generate possono essere dedotte dal contesto recuperato.
- La pertinenza della risposta misura la pertinenza della risposta generata rispetto alla domanda.
Valutazione del recupero
- La precisione del contesto misura la classificazione delle entità rilevanti per la verità sul campo nel contesto. Una maggiore precisione del contesto significa che gli elementi rilevanti per la verità di base vengono classificati più in alto rispetto al "rumore".
- Il richiamo del contesto calcola la misura in cui le risposte generate dall'LLM alle query degli utenti possono essere trovate nel contesto recuperato.

Queste metriche sono intese come indicativi soggettivi della capacità di una pipeline RAG di recuperare le informazioni pertinenti dalla sua base di conoscenza per formulare una risposta. È importante notare che non esiste un ideale per dati, prompt o LLM: un contesto che ha un punteggio di context_relevance basso non è necessariamente un cattivo contesto. Potrebbe essere dovuto a una certa quantità di "rumore" o a informazioni meno rilevanti, o semplicemente perché l'attività stessa è aperta a molteplici interpretazioni. Anche il rumore non è necessariamente negativo. Noi, in quanto esseri umani, produciamo una certa quantità di rumore nelle nostre risposte ma siamo comprensibili quando rispondiamo alle domande.

Inoltre, ci sono bias che influiscono sulla valutazione di una pipeline RAG, come la preferenza per risposte più brevi o più lunghe, altrimenti note come distorsioni della lunghezza. Questo tipo di bias può portare a valutare una risposta più alta di un'altra a causa della sua lunghezza e non della sua sostanza.

Per questi motivi, eseguire valutazioni multiple è buona prassi. Questo esercizio può essere eseguito modificando il modello di prompt, le metriche, la sequenza di valutazione dell'LLM e altro ancora. Se stai creando un set di dati per la tua pipeline RAG, consigliamo inoltre di utilizzare modelli diversi per l'LLM che genera le risposte e l'LLM che critica le risposte. Se si utilizza lo stesso modello per entrambi, c'è un maggiore potenziale di distorsione nell'autovalutazione. Poiché queste metriche di valutazione sono soggettive, i risultati prodotti da questi framework devono essere controllati anche da giudici umani.

In questo tutorial, non creiamo un sistema RAG, ma usiamo Ragas per valutare l'output di un sistema RAG creato in precedenza. Per ulteriori informazioni su come creare il tuo sistema RAG utilizzando LangChain, consulta il nostro tutorial dettagliato su RAG.

Prerequisiti

Per creare un progetto watsonx.ai è necessario creare un progetto IBM® Cloud. Registrati qui per aprire un account gratuito.

Passaggi

Passaggio 1. Configurare il tuo ambiente

Sebbene sia possibile scegliere tra diversi strumenti, questo tutorial illustra come configurare un account IBM per utilizzare un Jupyter Notebook.

Accedi a watsonx.ai usando il tuo account IBM Cloud.
Crea un progetto watsonx.ai.

Puoi ottenere l'ID del tuo progetto dall'interno del tuo progetto. Fai clic sulla scheda Gestisci. Quindi, copia l'ID del progetto dalla sezione Dettagli della pagina Generali. Per questo tutorial, ti servirà questo ID.
Crea un Jupyter Notebook.

Questo passaggio apre un ambiente notebook in cui puoi copiare il codice di questo tutorial per implementare una tua valutazione RAG. In alternativa, puoi scaricare questo notebook sul tuo sistema locale e caricarlo nel tuo progetto watsonx.ai come asset. Per visualizzare altri tutorial su Granite, visita la IBM Granite Community. Questo Jupyter Notebook è disponibile anche su GitHub.

Passaggio 2: configura un'istanza di watsonx.ai Runtime e una chiave API

Crea un'istanza del servizio watsonx.ai Runtime (seleziona la regione appropriata e scegli il piano Lite, che è un'istanza gratuita).
Genera una chiave API.
Associa l'istanza del servizio watsonx.ai Runtime al progetto che hai creato in watsonx.ai.

Passaggio 3. Installare e importare le librerie pertinenti e configurare le tue credenziali

Abbiamo bisogno di alcune librerie e moduli per questo tutorial. Assicurati di importare quelli elencati. Se non sono installati, un'installazione rapida di pip risolve il problema. Questo tutorial è stato creato utilizzando Python 3.11.9.

#installations
%pip install -q langchain_community
%pip install -q "ragas==0.2.1"
%pip install -q langchain_ibm
%pip install -q ibm_watson_machine_learning
%pip install -q ibm_watsonx_ai
%pip install -q langchain_core
%pip install -q nltk import os

from langchain_community.llms import WatsonxLLM as _WatsonxLLM
from langchain_ibm import WatsonxEmbeddings
from langchain.callbacks.manager import CallbackManagerForLLMRun
from langchain.schema import LLMResult
from ragas import evaluate
from ragas.llms import LangchainLLMWrapper
from ragas.metrics import answer_relevancy, context_precision, context_recall, faithfulness
from typing import List, Optional, Any
from datasets import load_dataset
from ibm_watson_machine_learning.metanames import GenTextParamsMetaNames as GenParams
from ibm_watsonx_ai.foundation_models.utils.enums import EmbeddingTypes

Configura le tue credenziali. Inserisci la tua chiave API e l'ID del progetto come stringhe. A seconda della tua istanza del servizio fornito, utilizza una delle regioni elencate come URL watsonx:

Dallas: https://us-south.ml.cloud.ibm.com
Londra: https://eu-gb.ml.cloud.ibm.com
Francoforte: https://eu-de.ml.cloud.ibm.com
Tokyo: https://jp-tok.ml.cloud.ibm.com

os.environ["WATSONX_APIKEY"] = <API_KEY>
os.environ["WATSONX_PROJECT_ID"] = <PROJECT_ID>
os.environ["WATSONX_URL"] = "https://us-south.ml.cloud.ibm.com"

Passaggio 4: carica il set di dati

La valutazione di Ragas richiede un set di dati contenente le esecuzioni della pipeline RAG di diversi prompt. Oltre alle domande stesse, il set di dati deve contenere le risposte attese note come "good truths", le risposte prodotte dall'LLM e l'elenco degli elementi di contesto recuperati dalla pipeline RAG rispondendo a ciascuna domanda. Puoi creare il tuo set di dati end-to-end ma, ai fini di questo tutorial, il set di dati che stiamo utilizzando in questo tutorial è disponibile su Hugging Face. Carichiamo il set di dati.

amnesty_qa = load_dataset(“explodinggradients/amnesty_qa”, “english_v2”)
amnesty_qa

Output

Repo card metadata block was not found. Setting CardData to empty.
DatasetDict({
    eval: Dataset({
        features: [‘question’, ‘ground_truth’, ‘answer’, ‘contexts’],
        num_rows: 20
    })
})

I dati vengono caricati come DatasetDict e le caratteristiche che ci interessano rientrano nella suddivisione "eval".

dataset = amnesty_qa[“eval”]
dataset

Output

Dataset({
features: [‘question’, ‘ground_truth’, ‘answer’, ‘contexts’],
num_rows: 20
})

Ora, carica i dati in un dataframe Pandas. Per vedere un esempio di una voce in questo set di dati, consultare la documentazione di HuggingFace.

df = dataset.to_pandas()

I set di dati per la valutazione dei RAG possono essere creati in vari modi. Un elemento chiave per la creazione di questo set di dati è stata la base di conoscenza esterna fornita a un LLM. Questa conoscenza può essere ottenuta da una pagina web ottenuta mediante scraping, un file di testo di base, un documento importato e altro ancora. In questo caso vengono utilizzate le segnalazioni raccolte da Amnesty International . Il contenuto del set di dati potrebbe essere stato creato end-to-end o utilizzando un approccio di generazione di dati sintetici, ad esempio TestsetGenerator di Ragas. L'uso di TestsetGenerator richiede i documenti caricati, un generatore LLM, un LLM critico e un modello di embedding.

A sua volta, l'approccio end-to-end prevede diversi passaggi. Supponiamo che sia stato adottato per la creazione di questo set di dati: le domande memorizzate nella colonna dedicata sono state generate da un LLM o da un utente umano. Per generare le verità di base per ogni domanda, l'utente potrebbe averle create manualmente o averle generate utilizzando un LLM con il modello di prompt appropriato. Queste risposte sono considerate le risposte ideali e vengono memorizzate nella colonna ground_truth. Infine, è stata utilizzata una pipeline RAG per generare le risposte visualizzate nella colonna delle risposte. Durante la creazione della pipeline RAG, la knowledge base esterna è stata vettorializzata. Quindi, interrogando il sistema RAG, i blocchi di testo pertinenti utilizzati dall'LLM per generare ogni risposta sono stati ottenuti dal database vettoriale utilizzando un algoritmo di somiglianza come l'algoritmo di recupero top-k. Questi set di dati sono stati archiviati nella colonna dei contesti.

Passaggio 5: stabilisci i modelli per la valutazione e l'embedding

In questo tutorial, utilizziamo un modello IBM® Granite come giudice.

Ragas utilizza di default modelli AI. WatsonXLLM è il wrapper per i foundation model IBM® watsonx.ai. Un wrapper WatsonXLLM compatibile con Ragas è in lavorazione e non è ancora disponibile. Per ora, per usare Ragas con i modelli Granite, dobbiamo modificare le proprietà dell'involucro.

class WatsonxLLM(_WatsonxLLM):
    temperature: float = 0.05
    “””
    A workaround for interface incompatibility: Ragas expected all LLMs to
    have a `temperature` property whereas WatsonxLLM does not define it.
    “””

    def _generate(
        self,
        prompts: List[str],
        stop: Optional[List[str]] = None,
        run_manager: Optional[CallbackManagerForLLMRun] = None,
        stream: Optional[bool] = None,
        **kwargs: Any,
    ) -> LLMResult:
        “””
        A workaround for interface incompatibility: Ragas expected the
        `token_usage` property of the LLM result be of a particular shape.
        WatsonX returns it in a slightly different shape.
        “””
        result: LLMResult = super()._generate(prompts, stop, run_manager, stream, **kwargs)
        if not result.llm_output or “token_usage” not in result.llm_output:
            return result
        usage = result.llm_output[“token_usage”]
        if not isinstance(usage, dict):
            return result
        result.llm_output[“token_usage”] = {
            “prompt_tokens”: usage[“input_token_count”],
            “completion_tokens”: usage[“generated_token_count”],
            “total_tokens”: usage[“input_token_count”] + usage[“generated_token_count”],
        }
    return result

Per questo tutorial, consigliamo di utilizzare il modello IBM® Granite-3.0-8B-Instruct come LLM per ottenere risultati simili. Puoi utilizzare liberamente qualsiasi modello AI tu scelga per confrontarlo con questo benchmark e scegliere quello più adatto alla tua applicazione. I foundation model disponibili tramite watsonx sono disponibili qui. Lo scopo di questi modelli nelle applicazioni LLM è quello di fungere da motore di ragionamento che decide quali azioni intraprendere e quali risposte produrre. Per utilizzare il wrapper WatsonxLLM con Ragas, dobbiamo usare un LangchainLLMWrapper.

watsonx_llm = LangchainLLMWrapper(
    langchain_llm = WatsonxLLM(
        model_id = “ibm/granite-3-8b-instruct”,
        url = os.getenv(“WATSONX_URL”),
        apikey = os.getenv(“WATSONX_APIKEY”),
        project_id = os.getenv(“WATSONX_PROJECT_ID”),
        params = {
            GenParams.MAX_NEW_TOKENS: 200,
            GenParams.MIN_NEW_TOKENS: 1,
            GenParams.STOP_SEQUENCES: [“<|endoftext|>“],
            GenParams.TEMPERATURE: 0.2,
            GenParams.TOP_K: 50,
            GenParams.TOP_P: 1,
        }
    )
)

Il modello Granite viene utilizzato come modello di valutazione. Non utilizzeremo un modello per generare alcuna risposta perché sono già memorizzate nella colonna delle risposte del dataset.

Il modello di embedding che stiamo utilizzando è un modello IBM® Slate tramite un watsonx.ai LangChain wrapper. Se non hai definito alcun modello di embedding, Ragas utilizza gli embedding OpenAI per impostazione predefinita. Il modello di embedding è essenziale per la valutazione, in quanto viene utilizzato per incorporare i dati delle colonne separate per misurare la distanza tra loro.

watsonx_embeddings = WatsonxEmbeddings(
    model_id = EmbeddingTypes.IBM_SLATE_30M_ENG.value,
    url = os.getenv(“WATSONX_URL”),
    apikey = os.getenv(“WATSONX_APIKEY”),
    project_id = os.getenv(“WATSONX_PROJECT_ID”)
)

Passaggio 6: genera una valutazione con i Raga

Infine, ora possiamo eseguire la valutazione Ragas sul set di dati. Qui, inseriamo il set di dati, le metriche per la valutazione, l'LLM e il modello di embedding come parametri.

Se vengono visualizzati messaggi di avviso, ignorali, attendi il completamento della valutazione e stampa il risultato come mostrato.

result = evaluate(
    amnesty_qa[“eval”],
    metrics=[
        context_precision,
        faithfulness,
        answer_relevancy,
        context_recall,
    ],
    llm=watsonx_llm,
    embeddings=watsonx_embeddings)

print(result)

Output

{‘context_precision’: 0.9444, ‘faithfulness’: 0.6000, ‘answer_relevancy’: 0.6917, ‘context_recall’: 0.8333}

Questo è tutto. È stata completata una valutazione della pipeline RAG. Come accennato, è possibile eseguire più valutazioni, provare diversi modelli e modificare i parametri. Più valutazioni vengono eseguite, più possiamo valutare in modo completo l'accuratezza e l'efficacia di un sistema LLM utilizzando la RAG.

Riepilogo

In questo tutorial hai utilizzato Ragas per valutare la tua pipeline RAG. Il tuo output includeva le metriche context_precision, faithfulness, answer_relevancy e context_recall. L'LLM utilizzato per la valutazione era un modello IBM Granite e il modello di embedding era un modello IBM Slate accessibile tramite l'API di embedding watsonx.ai.

La valutazione effettuata è importante in quanto può essere applicata ai futuri workflow di AI generativa per valutare le prestazioni dei suoi sistemi RAG e migliorarle.

Ti invitiamo a consultare la pagina della documentazione di Ragas per maggiori informazioni sulle metriche e sul processo di valutazione.

Sblocca la potenza dell'AI generativa + ML

Scopri come incorporare in tutta sicurezza l'AI generativa e il machine learning nella tua azienda.

Risorse

La guida del CEO all'AI generativa

Scopri come i CEO possono trovare il giusto equilibrio tra il valore che l'AI generativa può creare, gli investimenti che richiede e i rischi che introduce.

Porta le tue competenze in materia di gen AI al livello successivo

Impara i concetti fondamentali e sviluppa le tue competenze con laboratori pratici, corsi, progetti guidati, prove e molto altro.

Sblocca la potenza dell'AI generativa + ML

Scopri come incorporare in tutta sicurezza l'AI generativa e il machine learning nella tua azienda.

Sfruttare al meglio l'AI: aumentare il ROI con la gen AI

Vuoi ottenere un ritorno migliore sui tuoi investimenti nell'AI? Scopri come lo scaling della GenAI in settori chiave può favorire il cambiamento, aiutando le tue menti migliori a creare e fornire nuove soluzioni innovative.

AI in Action 2024

Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative di AI per scoprire cosa funziona, cosa non funziona e come giocare d'anticipo.

Esplora IBM Granite

IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.

Come scegliere il giusto foundation model

Scopri come scegliere il foundation model di AI più adatto al tuo caso d'uso.

Come prosperare in questa nuova era dell'AI in tutta fiducia e sicurezza

Approfondisci i 3 elementi critici di una solida strategia AI: creare un vantaggio competitivo, scalare l'AI attraverso l'azienda e promuovere un'AI affidabile.

Soluzioni correlate

IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai

Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI

Servizi AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI

Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai

Prenota una demo live