Existen muchos marcos de evaluación RAG y métricas de evaluación diferentes. Además de Ragas, otros marcos incluyen Unitxt de IBM y Evals de OpenAI. A diferencia de los otros marcos, Ragas utiliza otro LLM como juez para evaluar el rendimiento de un pipeline RAG.

Hay varias métricas de evaluación disponibles para medir el rendimiento de nuestro pipeline RAG. Las métricas que utilizaremos en el marco Ragas de código abierto se pueden dividir en dos partes:

Evaluación de la generación La fidelidad mide si todas las respuestas generadas pueden inferirse del contexto recuperado. La relevancia de la respuesta mide la relevancia de la respuesta generada a la pregunta.

Evaluación de recuperación La precisión del contexto mide la clasificación de las entidades relevantes para la verdad sobre el terreno en el contexto. Una mayor precisión contextual significa que los elementos relevantes para la verdad sobre el terreno se clasifican por encima del "ruido". La recuperación de contexto mide hasta qué punto las respuestas generadas por el LLM a las consultas de los usuarios se pueden encontrar en el contexto recuperado.



Estas métricas pretenden ser proxies subjetivos de lo bien que un pipeline RAG recupera información relevante de su base de conocimientos para formar una respuesta. Es importante tener en cuenta que no existe un ideal para datos, instrucciones o LLM. Incluso el contexto que tiene una puntuación context_relevance baja no es necesariamente un mal contexto. La baja puntuación puede deberse a cierta cantidad de "ruido" o información menos relevante, o simplemente porque la tarea en sí está abierta a múltiples interpretaciones. El ruido tampoco es necesariamente malo. Nosotros, como humanos, producimos una cierta cantidad de ruido en nuestras respuestas y, al mismo tiempo, somos inteligibles al responder a las preguntas.

También hay sesgos que afectan a la evaluación de un pipeline RAG, como la preferencia por respuestas más cortas o más largas, también conocido como sesgo de longitud. Este tipo de sesgo puede hacer que una respuesta se evalúe mejor que otra debido a su longitud y no a su sustancia.

Por estas razones, es una buena práctica realizar múltiples evaluaciones. Este ejercicio se puede realizar cambiando la plantilla de instrucciones del LLM, las métricas, la secuencia de evaluación y más. Si está creando su propio conjunto de datos para su pipeline RAG, también se recomienda utilizar diferentes modelos para el LLM que genera las respuestas y el LLM que critica las respuestas. Si se utiliza el mismo modelo para ambos, existe un mayor potencial de sesgo de autoevaluación. Dado que estas métricas de evaluación son subjetivas, los resultados producidos por estos marcos también deben ser comprobados por jueces humanos.

En este tutorial, no creamos un sistema RAG. En su lugar, estamos utilizando Ragas para evaluar el output de un sistema RAG creado previamente. Para obtener más información sobre cómo crear su sistema RAG utilizando LangChain, consulte nuestro tutorial detallado de RAG.