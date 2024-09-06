Existen muchos marcos de evaluación de RAG y métricas de evaluación diferentes. Además de Ragas, otros marcos incluyen Unitxt de IBM y Evals de OpenAI. A diferencia de otras infraestructuras, Ragas utiliza otro LLM como juez para evaluar el rendimiento de un pipeline de RAG.

Hay varias métricas de evaluación disponibles para medir el rendimiento de nuestro pipeline de RAG. Las métricas que utilizaremos en la infraestructura Ragas de código abierto se pueden dividir en dos partes:

Evaluación de generación La fidelidad mide si todas las respuestas generadas se pueden inferir del contexto recuperado. La relevancia de la respuesta mide la relevancia de la respuesta generada a la pregunta.

Evaluación de recuperación La precisión del contexto mide la clasificación de las entidades relevantes de la verdad fundamental en el contexto. Una mayor precisión del contexto significa que los elementos relevantes para la verdad fundamental se clasifican por encima del "ruido". La recuperación de contexto mide el grado en que las respuestas generadas por el LLM a las consultas de los usuarios se pueden encontrar en el contexto recuperado.



Estas métricas están destinadas a ser proxies subjetivos de qué tan bien un pipeline de RAG recupera información relevante de su base de conocimientos para formar una respuesta. Es importante tener en cuenta que no existe un ideal para datos, instrucciones o LLM. Incluso el contexto que tiene una puntuación context_relevance baja no es necesariamente un mal contexto. La puntuación baja puede deberse a cierta cantidad de "ruido" o información menos relevante, o simplemente porque la tarea en sí está abierta a múltiples interpretaciones. El ruido tampoco es necesariamente malo. Nosotros, como humanos, producimos una cierta cantidad de ruido en nuestras respuestas y, al mismo tiempo, somos inteligibles al responder preguntas.

También hay sesgos que afectan la evaluación de un pipeline de RAG, como la preferencia por respuestas más cortas o más largas, también conocido como sesgo de longitud. Este tipo de sesgo puede llevar a que una respuesta se evalúe mejor que otra debido a su longitud y no a su sustancia.

Por estas razones, es una de las mejores prácticas realizar múltiples evaluaciones. Este ejercicio se puede lograr cambiando la plantilla de instrucciones del LLM, las métricas, la secuencia de evaluación y más. Si está creando su propio conjunto de datos para su pipeline de RAG, también se recomienda utilizar diferentes modelos para el LLM que genera las respuestas y el LLM que critica las respuestas. Si se utiliza el mismo modelo para ambos, existe un mayor potencial de sesgo de autoevaluación. Debido a que estas métricas de evaluación son subjetivas, los resultados producidos por estas infraestructuras también deben ser verificados por jueces humanos.

En este tutorial, no creamos un sistema RAG. En su lugar, estamos utilizando Ragas para evaluar el resultado de un sistema RAG creado previamente. Para obtener más información sobre cómo crear su sistema RAG con LangChain, consulte nuestro tutorial detallado de RAG.