Há muitos frameworks de avaliação e métricas de avaliação diferentes da RAG. Além do Ragas, outros frameworks incluem o Unitxt da IBM e o Evals da OpenAI. Ao contrário dos outros frameworks, o Ragas usa outro LLM como juiz para avaliar o desempenho de um pipeline da RAG.

Existem várias métricas de avaliação disponíveis para medir o desempenho do nosso pipeline da RAG. As métricas que usaremos no framework de código aberto Ragas podem ser divididas em duas partes:

Avaliação de geração A fidelidade é medida se todas as respostas geradas puderem ser inferidas a partir do contexto recuperado. A relevância da resposta mede a relevância da resposta gerada para a pergunta.

Avaliação de recuperação A precisão do contexto mede a classificação das entidades relevantes no contexto. Maior precisão de contexto significa que os itens relevantes da verdade absoluta são classificados com maior precisão do que "ruído". O recall de contexto mede até que ponto as respostas geradas pelo LLM para as consultas do usuário podem ser encontradas no contexto recuperado.



Essas métricas devem ser proxies subjetivos de quão bem um pipeline da RAG recupera informações relevantes de sua base de conhecimento para formar uma resposta. É importante observar que não há um ideal para dados, prompts ou LLMs. Mesmo o contexto que tem uma context_relevance de pontuação baixa não é necessariamente um contexto ruim. A pontuação baixa pode se deve a alguma quantidade de "ruído", ou informações menos relevantes, ou simplesmente porque a tarefa em si está aberta a múltiplas interpretações. O ruído também não é necessariamente ruim. Nós, como humanos, produzimos uma certa quantidade de ruído em nossas respostas, ao mesmo tempo em que somos inteligíveis ao responder perguntas.

Há também vieses que afetam a avaliação de um pipeline da RAG, como a preferência por respostas mais curtas ou mais longas, também conhecida como viés de comprimento. Esse tipo de viés pode levar a que uma resposta seja avaliada mais altamente do que outra devido ao seu comprimento e não à sua substância.

Por esses motivos, é uma melhor prática realizar várias avaliações. Este exercício pode ser realizado alterando o modelo de prompt, as métricas, a sequência de avaliação e muito mais do LLM. Se você estiver criando seu próprio conjunto de dados para o pipeline da RAG, também é recomendável usar modelos diferentes para o LLM que gera as respostas e o LLM que critica as respostas. Se o mesmo modelo é usado para ambos, há maior potencial para viés de autoavaliação. Como essas métricas são subjetivas, os resultados produzidos por esses frameworks também devem ser verificados por juízes humanos.

Neste tutorial, não criamos um sistema de RAG. Em vez disso, estamos usando o Ragas para avaliar a saída de um sistema de RAG criado anteriormente. Para obter mais informações sobre como construir seu sistema de RAG usando o LangChain, consulte nosso tutorial de RAG detalhado.