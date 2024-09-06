Il existe de nombreux cadres et indicateurs RAG. À l'exception de Ragas, d'autres cadres incluent Unitxt d'IBM et Evals d'OpenAI. Contrairement aux autres cadres, Ragas utilise un autre LLM en tant que juge pour évaluer la performance d’un pipeline RAG.

Plusieurs indicateurs d’évaluation sont disponibles pour mesurer les performances de notre pipeline RAG. Les indicateurs que nous utiliserons dans le cadre open source Ragas peuvent être divisés en deux parties :

Évaluation des générations La fidélité mesure si toutes les réponses générées peuvent être déduites du contexte récupéré. La pertinence des réponses mesure la pertinence de la réponse générée pour la question.

Évaluation de la récupération La précision contextuelle évalue le classement des entités pertinentes de référence dans le contexte. Une plus grande précision contextuelle signifie que les éléments pertinents par rapport à la réalité sont mieux classés que les éléments moins pertinents. Le rappel contextuel mesure dans quelle mesure les réponses générées par le LLM aux requêtes des utilisateurs peuvent être trouvées dans le contexte récupéré.



Ces indicateurs se veulent des indicateurs subjectifs de la capacité d’un pipeline RAG à récupérer les informations pertinentes de sa base de connaissances pour former une réponse. Il est important de noter qu'il n'y a pas d'idéal pour les données, les prompts ou les LLM. Même un contexte dont le context_relevance est faible n'est pas nécessairement un contexte de mauvaise qualité. Le faible score peut être attribué à un certain niveau de « bruit », à des informations moins pertinentes, ou simplement au fait que la tâche elle-même peut être interprétée de différentes manières. Le bruit n'est pas nécessairement mauvais non plus. Nous, en tant qu’humains, produisons une certaine quantité de bruit dans nos réponses tout en étant intelligibles dans la réponse aux questions.

Il existe également des biais qui affectent l’évaluation d’un pipeline RAG, comme la préférence pour des réponses plus courtes ou plus longues, également connu sous le nom de biais de longueur. Ce type de biais peut conduire à ce qu’une réponse soit mieux évaluée qu’une autre en raison de sa longueur et non de son fond.

C’est pourquoi il est recommandé de réaliser plusieurs évaluations. Cet exercice peut être effectué en modifiant le modèle de prompt du LLM, les indicateurs, la séquence d’évaluation, etc. Si vous créez votre propre jeu de données pour votre pipeline RAG, il est également recommandé d'utiliser des modèles différents pour le LLM qui génère les réponses et celui qui les évalue. Si le même modèle est utilisé pour les deux, le risque de biais d'auto-évaluation est plus élevé. Ces indicateurs d'évaluation étant subjectifs, les résultats produits par ces cadres doivent également être vérifiés par des évaluateurs humains.

Dans ce tutoriel, nous ne créons pas de système RAG. À la place, nous utilisons Ragas pour évaluer la sortie d’un système RAG déjà créé. Pour en savoir plus sur la création de votre système RAG à l’aide de LangChain, consultez notre tutoriel RAG détaillé.