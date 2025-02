Les benchmarks appliquent différents indicateurs pour évaluer les performances des LLM. Voici certains des plus courants :

L’ exactitude, ou précision , désigne le pourcentage de prévisions correctes.



Le rappel , également appelé taux de sensibilité, quantifie les vrais positifs, à savoir le nombre de prédictions correctes.



Le score F1 regroupe à la fois la précision et le rappel en un seul indicateur. Il considère que les deux mesures ont un poids égal pour équilibrer les faux positifs et les faux négatifs. Les scores F1 varient de 0 à 1, 1 indiquant un excellent rappel et une excellente précision.



La correspondance exacte est la proportion de prédictions exactes produites par un LLM. Il s’agit d’un critère important pour la traduction et la réponse aux questions.



La perplexité mesure la qualité des prédictions d’un modèle. Plus le score de perplexité d’un LLM est bas, plus sa capacité à comprendre une tâche est grande.

Le score BLEU (bilingual evaluation understudy) évalue la traduction automatique. On calcule les n-grammes correspondants (une séquence de n symboles textuels adjacents) en comparant la traduction prédite par un LLM à une traduction réalisée par un humain.

Le score ROUGE (recall-oriented understudy for gisting evaluation) évalue la synthèse de texte et se décline en plusieurs types. ROUGE-N, par exemple, effectue des calculs similaires à ceux du score BLEU sur les résumés, tandis que ROUGE-L calcule la plus longue sous-séquence commune aux deux résumés : celui prédit et celui produit par l’humain.

Ces indicateurs quantitatifs sont généralement combinés pour garantir une évaluation plus complète et plus fiable.

Parallèlement, l’évaluation humaine implique des indicateurs qualitatifs tels que la cohérence, la pertinence et la signification sémantique. Les évaluateurs humains qui examinent et notent un LLM peuvent réaliser une évaluation plus nuancée. Toutefois, cette méthode peut s’avérer gourmande en main-d’œuvre, subjective et chronophage. Il est donc nécessaire de trouver un équilibre entre indicateurs quantitatifs et qualitatifs.