Evalúe la canalización RAG por medio de Ragas en Python con watsonx

En este tutorial, utilizaremos la infraestructura Ragas para la evaluación de generación aumentada por recuperación (RAG, por sus siglas en inglés) en Python mediante LangChain.

RAG es una técnica de procesamiento de lenguaje natural (PLN) que combina la recuperación de información y modelos generativos para producir respuestas más precisas, relevantes y conscientes del contexto. En las tareas tradicionales de generación de lenguaje, se utilizan modelos de lenguaje grandes (LLM) como GPT-4 (transformador generativo preentrenado) de OpenAI o modelos IBM® Granite para construir respuestas basadas en una instrucción de entrada. Los casos de uso comunes en el mundo real de estos modelos de lenguaje grandes son los chatbots. Estos modelos tienen dificultades para producir respuestas que sean contextualmente relevantes, objetivamente precisas o actualizadas.

Las aplicaciones RAG abordan esta limitación incorporando un paso de recuperación antes de la generación de la respuesta. Durante la recuperación, los fragmentos de texto adicionales relevantes para la instrucción se extraen de una base de conocimientos, como documentos relevantes de un gran corpus de texto, generalmente almacenados en una base de datos vectorial. Finalmente, se utiliza un LLM para generar respuestas basadas en la instrucción original aumentada con el contexto recuperado.

Descripción general de la evaluación de RAG

Existen muchos marcos de evaluación de RAG y métricas de evaluación diferentes. Además de Ragas, otros marcos incluyen Unitxt de IBM y Evals de OpenAI. A diferencia de otras infraestructuras, Ragas utiliza otro LLM como juez para evaluar el rendimiento de un pipeline de RAG.

Hay varias métricas de evaluación disponibles para medir el rendimiento de nuestro pipeline de RAG. Las métricas que utilizaremos en la infraestructura Ragas de código abierto se pueden dividir en dos partes:

Evaluación de generación
- La fidelidad mide si todas las respuestas generadas se pueden inferir del contexto recuperado.
- La relevancia de la respuesta mide la relevancia de la respuesta generada a la pregunta.
Evaluación de recuperación
- La precisión del contexto mide la clasificación de las entidades relevantes de la verdad fundamental en el contexto. Una mayor precisión del contexto significa que los elementos relevantes para la verdad fundamental se clasifican por encima del "ruido".
- La recuperación de contexto mide el grado en que las respuestas generadas por el LLM a las consultas de los usuarios se pueden encontrar en el contexto recuperado.

Estas métricas están destinadas a ser proxies subjetivos de qué tan bien un pipeline de RAG recupera información relevante de su base de conocimientos para formar una respuesta. Es importante tener en cuenta que no existe un ideal para datos, instrucciones o LLM. Incluso el contexto que tiene una puntuación context_relevance baja no es necesariamente un mal contexto. La puntuación baja puede deberse a cierta cantidad de "ruido" o información menos relevante, o simplemente porque la tarea en sí está abierta a múltiples interpretaciones. El ruido tampoco es necesariamente malo. Nosotros, como humanos, producimos una cierta cantidad de ruido en nuestras respuestas y, al mismo tiempo, somos inteligibles al responder preguntas.

También hay sesgos que afectan la evaluación de un pipeline de RAG, como la preferencia por respuestas más cortas o más largas, también conocido como sesgo de longitud. Este tipo de sesgo puede llevar a que una respuesta se evalúe mejor que otra debido a su longitud y no a su sustancia.

Por estas razones, es una de las mejores prácticas realizar múltiples evaluaciones. Este ejercicio se puede lograr cambiando la plantilla de instrucciones del LLM, las métricas, la secuencia de evaluación y más. Si está creando su propio conjunto de datos para su pipeline de RAG, también se recomienda utilizar diferentes modelos para el LLM que genera las respuestas y el LLM que critica las respuestas. Si se utiliza el mismo modelo para ambos, existe un mayor potencial de sesgo de autoevaluación. Debido a que estas métricas de evaluación son subjetivas, los resultados producidos por estas infraestructuras también deben ser verificados por jueces humanos.

En este tutorial, no creamos un sistema RAG. En su lugar, estamos utilizando Ragas para evaluar el resultado de un sistema RAG creado previamente. Para obtener más información sobre cómo crear su sistema RAG con LangChain, consulte nuestro tutorial detallado de RAG.

Requisitos previos

Necesita una cuenta de IBM Cloud para crear un proyecto en watsonx.ai . Regístrese aquí para obtener una cuenta gratuita.

Pasos

Paso 1: Configuración del entorno

Si bien puede elegir entre varias herramientas, este tutorial lo guiará a través de cómo configurar una cuenta de IBM para usar un Jupyter Notebook.

Inicie sesión en watsonx.ai con su cuenta de IBM Cloud.
Cree un proyecto watsonx.ai.

Puede obtener su ID de proyecto desde dentro de su proyecto. Haga clic en la pestaña Manage. A continuación, copie el ID del proyecto de la sección Details de la página General. Necesita este ID para este tutorial.
Cree un Jupyter Notebook.

Este paso abre un entorno de notebook donde puede copiar el código de este tutorial para implementar una evaluación de RAG propia. También puede descargar este notebook en su sistema local y cargarlo en su proyecto watsonx.ai como activo. Para ver más tutoriales de Granite, consulte la comunidad de IBM Granite. Este Jupyter Notebook también está disponible en GitHub.

Paso 2. Configure una instancia de watsonx.ai Runtime y una clave de API

Cree una instancia de servicio watsonx.ai Runtime (seleccione la región adecuada y elija el plan Lite, que es una instancia gratuita).
Genere una clave de API.
Asocie la instancia del servicio watsonx.ai Runtime al proyecto que creó en watsonx.ai.

Paso 3. Instalación e importación de bibliotecas relevantes y configuración de sus credenciales

Necesitamos algunas bibliotecas y módulos para este tutorial. Asegúrese de importar los enumerados y, si no están instalados, una instalación rápida de pip resuelve el problema. Este tutorial se creó con Python 3.11.9.

#installations
%pip install -q langchain_community
%pip install -q "ragas==0.2.1"
%pip install -q langchain_ibm
%pip install -q ibm_watson_machine_learning
%pip install -q ibm_watsonx_ai
%pip install -q langchain_core
%pip install -q nltk import os

from langchain_community.llms import WatsonxLLM as _WatsonxLLM
from langchain_ibm import WatsonxEmbeddings
from langchain.callbacks.manager import CallbackManagerForLLMRun
from langchain.schema import LLMResult
from ragas import evaluate
from ragas.llms import LangchainLLMWrapper
from ragas.metrics import answer_relevancy, context_precision, context_recall, faithfulness
from typing import List, Optional, Any
from datasets import load_dataset
from ibm_watson_machine_learning.metanames import GenTextParamsMetaNames as GenParams
from ibm_watsonx_ai.foundation_models.utils.enums import EmbeddingTypes

Configure sus credenciales. Ingrese su clave API y el ID del proyecto como cadenas. Dependiendo de su instancia de servicio aprovisionada, use una de las regiones enumeradas como URL de watsonx:

Dallas: https://us-south.ml.cloud.ibm.com
Londres: https://eu-gb.ml.cloud.ibm.com
Fráncfort: https://eu-de.ml.cloud.ibm.com
Tokio: https://jp-tok.ml.cloud.ibm.com

os.environ["WATSONX_APIKEY"] = <API_KEY>
os.environ["WATSONX_PROJECT_ID"] = <PROJECT_ID>
os.environ["WATSONX_URL"] = "https://us-south.ml.cloud.ibm.com"

Paso 4. Cargue el conjunto de datos

La evaluación de Ragas requiere un conjunto de datos que contenga ejecuciones del pipeline de RAG de varias instrucciones diferentes. Además de las preguntas en sí, el conjunto de datos debe contener las respuestas esperadas conocidas como "verdades fundamentales", las respuestas producidas por el LLM y la lista de piezas de contexto recuperadas por el pipeline de RAG al responder cada pregunta. Puede crear su propio conjunto de datos de extremo a extremo, pero para los fines de este tutorial, el conjunto de datos que estamos utilizando en este tutorial está disponible en Hugging Face. Carguemos el conjunto de datos.

amnesty_qa = load_dataset(“explodinggradients/amnesty_qa”, “english_v2”)
amnesty_qa

Resultado:

Repo card metadata block was not found. Setting CardData to empty.
DatasetDict({
    eval: Dataset({
        features: [‘question’, ‘ground_truth’, ‘answer’, ‘contexts’],
        num_rows: 20
    })
})

Los datos se cargan como DatasetDict y las características que nos interesan están dentro de la división "eval".

dataset = amnesty_qa[“eval”]
dataset

Resultado:

Dataset({
features: [‘question’, ‘ground_truth’, ‘answer’, ‘contexts’],
num_rows: 20
})

Ahora, cargue los datos en un marco de datos de Pandas. Para ver un ejemplo de una entrada en este conjunto de datos, consulte la documentación de HuggingFace.

df = dataset.to_pandas()

Los conjuntos de datos para la evaluación de RAG se pueden crear de varias maneras. Un elemento clave para la creación de este conjunto de datos fue la base de conocimientos externa proporcionada a un LLM. Este conocimiento se puede obtener de una página web raspada, un archivo de texto básico, un documento importado y más. En este caso, se utilizan los informes recopilados de Amnistía Internacional. El contenido del conjunto de datos podría haberse creado de principio a fin o mediante un enfoque de generación de datos sintéticos, como TestsetGenerator de Ragas. El uso de TestsetGenerator requiere los documentos cargados, un LLM generador, un LLM crítico y un modelo de incorporación.

A su vez, el enfoque de extremo a extremo implica varios pasos. Supongamos que se adoptó este enfoque para la creación de este conjunto de datos. Esto significa que un LLM o un usuario humano generó las preguntas almacenadas en la columna de preguntas. Para generar las verdades fundamentales para cada pregunta, el usuario podría haberlas creado manualmente o generarlas mediante un LLM con la plantilla de instrucciones adecuada. Estas respuestas se consideran ideales y se almacenan en la columna ground_truth. Por último, se utilizó un pipeline de RAG para generar las respuestas que se ven en la columna de respuesta. Al crear el pipeline de RAG, se vectorizó la base de conocimientos externa. Luego, al consultar el sistema RAG, los fragmentos de texto relevantes que el LLM utilizó para generar cada respuesta se obtuvieron del almacén de vectores mediante el uso de un algoritmo de similitud, como el algoritmo de recuperación top-k. Estos conjuntos de datos se almacenaron en la columna contexts.

Paso 5. Establezca los modelos para evaluar e incorporar

En este tutorial, estamos utilizando un modelo IBM Granite como juez.

Ragas utiliza modelos de IA abierta de forma predeterminada. WatsonxLLM es el contenedor para los modelos fundacionales de IBM watsonx.ai. Un contenedor watsonxLLM compatible con Ragas es un trabajo en progreso y aún no está disponible. Por ahora, para usar Ragas con los modelos Granite, necesitamos alterar las propiedades del contenedor.

class WatsonxLLM(_WatsonxLLM):
    temperature: float = 0.05
    “””
    A workaround for interface incompatibility: Ragas expected all LLMs to
    have a `temperature` property whereas WatsonxLLM does not define it.
    “””

    def _generate(
        self,
        prompts: List[str],
        stop: Optional[List[str]] = None,
        run_manager: Optional[CallbackManagerForLLMRun] = None,
        stream: Optional[bool] = None,
        **kwargs: Any,
    ) -> LLMResult:
        “””
        A workaround for interface incompatibility: Ragas expected the
        `token_usage` property of the LLM result be of a particular shape.
        WatsonX returns it in a slightly different shape.
        “””
        result: LLMResult = super()._generate(prompts, stop, run_manager, stream, **kwargs)
        if not result.llm_output or “token_usage” not in result.llm_output:
            return result
        usage = result.llm_output[“token_usage”]
        if not isinstance(usage, dict):
            return result
        result.llm_output[“token_usage”] = {
            “prompt_tokens”: usage[“input_token_count”],
            “completion_tokens”: usage[“generated_token_count”],
            “total_tokens”: usage[“input_token_count”] + usage[“generated_token_count”],
        }
    return result

Para este tutorial, sugerimos utilizar el modelo IBM Granite-3.0-8B-Instruct como el LLM para lograr resultados similares. Puede utilizar cualquier modelo de IA de su elección para compararlo con este punto de referencia y elegir el que mejor se adapte a su aplicación. Los modelos fundacionales disponibles a través de watsonx.ai se pueden encontrar aquí. El propósito de estos modelos en las aplicaciones LLM es servir como motor de razonamiento que decide qué acciones tomar y qué respuestas producir. Para usar el contenedor watsonxLLM con Ragas, necesitamos usar un LangchainLLMWrapper.

watsonx_llm = LangchainLLMWrapper(
    langchain_llm = WatsonxLLM(
        model_id = “ibm/granite-3-8b-instruct”,
        url = os.getenv(“WATSONX_URL”),
        apikey = os.getenv(“WATSONX_APIKEY”),
        project_id = os.getenv(“WATSONX_PROJECT_ID”),
        params = {
            GenParams.MAX_NEW_TOKENS: 200,
            GenParams.MIN_NEW_TOKENS: 1,
            GenParams.STOP_SEQUENCES: [“<|endoftext|>“],
            GenParams.TEMPERATURE: 0.2,
            GenParams.TOP_K: 50,
            GenParams.TOP_P: 1,
        }
    )
)

El modelo Granite se utiliza como modelo de evaluación. No vamos a utilizar un modelo para generar ninguna respuesta porque las respuestas ya están almacenadas en la columna de respuesta del conjunto de datos.

El modelo de incorporación que estamos utilizando es un modelo IBM® Slate a través de un contenedor watsonx.ai LangChain. Si no se define un modelo de incorporación, Ragas utiliza incorporaciones de OpenAI de forma predeterminada. El modelo de incorporación es esencial para la evaluación, ya que se utiliza para incorporar los datos de las columnas separadas para medir la distancia entre ellas.

watsonx_embeddings = WatsonxEmbeddings(
    model_id = EmbeddingTypes.IBM_SLATE_30M_ENG.value,
    url = os.getenv(“WATSONX_URL”),
    apikey = os.getenv(“WATSONX_APIKEY”),
    project_id = os.getenv(“WATSONX_PROJECT_ID”)
)

Paso 6. Genere una evaluación con Ragas

Finalmente, ahora podemos ejecutar la evaluación de Ragas en el conjunto de datos. Aquí, pasamos el conjunto de datos, las métricas para la evaluación, el LLM y el modelo de incorporación como parámetros.

Si aparecen mensajes de advertencia, ignórelos, permita que se complete la evaluación e imprima el resultado como se muestra.

result = evaluate(
    amnesty_qa[“eval”],
    metrics=[
        context_precision,
        faithfulness,
        answer_relevancy,
        context_recall,
    ],
    llm=watsonx_llm,
    embeddings=watsonx_embeddings)

print(result)

Resultado:

{‘context_precision’: 0.9444, ‘faithfulness’: 0.6000, ‘answer_relevancy’: 0.6917, ‘context_recall’: 0.8333}

Y eso es todo. Se completó una evaluación del pipeline de RAG. Como se mencionó, puede ejecutar múltiples evaluaciones, probar diferentes modelos y alterar parámetros. Cuantas más evaluaciones se realicen, más podremos evaluar de manera integral la precisión y eficacia de un sistema LLM mediante RAG.

Resumen

En este tutorial, utilizó Ragas para evaluar su pipeline de RAG. Su resultado incluyó las métricas context_precision , fidelidad, answer_relevancy y context_recall . El LLM utilizado para la evaluación fue un modelo IBM Granite y el modelo de incorporación utilizado fue un modelo IBM Slate al que se accedió a través de la API de incorporaciones watsonx.ai.

La evaluación realizada es importante, ya que se puede aplicar a futuros flujos de trabajo de IA generativa para evaluar el rendimiento de sus sistemas RAG y mejorarlos.

Le recomendamos que consulte la página de documentación de Ragas para obtener más información sobre sus métricas y proceso de evaluación.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

Recursos

La guía del CEO para la IA generativa

Descubra cómo los directores ejecutivos (CEO) pueden equilibrar el valor que la IA generativa puede crear con la inversión que exige y los riesgos que representa.

Lleve sus habilidades de IA generativa al siguiente nivel

Aprenda los conceptos fundamentales y construya sus habilidades con laboratorios prácticos, cursos, proyectos guiados, ensayos y mucho más.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

Ponga la IA a trabajar: Impulso del retorno de la inversión (ROI) con IA generativa

¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.

IA en acción 2024

Encuestamos a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo pueden avanzar.

Explorar IBM Granite

IBM® Granite es nuestra familia de modelos abiertos de IA, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.

Cómo elegir el modelo fundacional adecuado

Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.

Cómo prosperar en esta nueva era de la IA con confianza y seguridad

Indague en los 3 elementos críticos de una estrategia sólida de IA: crear una ventaja competitiva, escalar la IA en todo el negocio y avanzar en la IA confiable.

Soluciones relacionadas

IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai

Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA

Servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA

Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai

Reserve una demostración en vivo