Les benchmarks LLM sont des cadres normalisés conçus pour évaluer la performance des grands modèles de langage (LLM). Ils se composent d’échantillons de données, d’un ensemble de questions ou de tâches permettant de tester les compétences spécifiques des LLM, d’indicateurs d’évaluation des performances et d’un mécanisme de notation.
Les modèles sont évalués en fonction de leurs capacités telles que le codage, le bon sens et le raisonnement. Citons également d’autres capacités comme le traitement automatique du langage naturel, notamment la traduction automatique, la réponse aux questions et la synthèse de texte.
Les benchmarks LLM jouent un rôle crucial dans le développement et l’amélioration des modèles. Ils illustrent les progrès d’un LLM au fur et à mesure qu’il apprend, avec des mesures quantitatives qui mettent en évidence les domaines dans lesquels le modèle excelle, ainsi que les aspects à améliorer.
Cela guide le processus de réglage fin pour aider les chercheurs et les développeurs de LLM à faire progresser le domaine. Les benchmarks LLM fournissent également une comparaison objective des différents modèles pour permettre aux développeurs de logiciels et aux entreprises de choisir les modèles les plus adaptés à leurs besoins.
Les benchmarks LLM fonctionnent de manière simple. Ils fournissent une tâche qu’un LLM doit accomplir, évaluent les performances du modèle en fonction d’un indicateur donné et produisent un score basé sur cet indicateur. Voici comment fonctionne chaque étape en détail :
Les benchmarks LLM comportent des échantillons de données prêts à l’emploi : défis de codage, documents volumineux, problèmes mathématiques, conversations réelles, questions scientifiques. Diverses tâches sont également à portée de main, notamment le raisonnement de bon sens, la résolution de problèmes, la réponse aux questions, la synthèse et la traduction. Tous ces éléments sont fournis au modèle au début du test.
Lors de l’exécution du benchmark, il est introduit dans un modèle selon l’une des trois approches suivantes :
Few shot : avant de demander au LLM d’accomplir une tâche, on lui fournit quelques exemples montrant comment s’y prendre.Cela démontre la capacité du modèle à apprendre à partir de données limitées.
Zero shot : on demande au LLM d’accomplir une tâche sans lui avoir montré d’exemple au préalable.Cela démontre la capacité du modèle à comprendre de nouveaux concepts et à s’adapter à des scénarios inédits.
Réglage fin : le modèle est entraîné sur un jeu de données similaire à celui du benchmark.L’objectif est d’améliorer la performance du LLM sur la tâche associée au benchmark.
Une fois les tests effectués, le benchmark LLM compare la sortie du modèle à la solution attendue ou à la réponse standard et génère un score compris entre 0 et 100.
Les benchmarks appliquent différents indicateurs pour évaluer les performances des LLM. Voici certains des plus courants :
L’exactitude, ou précision, désigne le pourcentage de prévisions correctes.
Le rappel, également appelé taux de sensibilité, quantifie les vrais positifs, à savoir le nombre de prédictions correctes.
Le score F1 regroupe à la fois la précision et le rappel en un seul indicateur. Il considère que les deux mesures ont un poids égal pour équilibrer les faux positifs et les faux négatifs. Les scores F1 varient de 0 à 1, 1 indiquant un excellent rappel et une excellente précision.
La correspondance exacte est la proportion de prédictions exactes produites par un LLM. Il s’agit d’un critère important pour la traduction et la réponse aux questions.
La perplexité mesure la qualité des prédictions d’un modèle. Plus le score de perplexité d’un LLM est bas, plus sa capacité à comprendre une tâche est grande.
Le score BLEU (bilingual evaluation understudy) évalue la traduction automatique. On calcule les n-grammes correspondants (une séquence de n symboles textuels adjacents) en comparant la traduction prédite par un LLM à une traduction réalisée par un humain.
Le score ROUGE (recall-oriented understudy for gisting evaluation) évalue la synthèse de texte et se décline en plusieurs types. ROUGE-N, par exemple, effectue des calculs similaires à ceux du score BLEU sur les résumés, tandis que ROUGE-L calcule la plus longue sous-séquence commune aux deux résumés : celui prédit et celui produit par l’humain.
Ces indicateurs quantitatifs sont généralement combinés pour garantir une évaluation plus complète et plus fiable.
Parallèlement, l’évaluation humaine implique des indicateurs qualitatifs tels que la cohérence, la pertinence et la signification sémantique. Les évaluateurs humains qui examinent et notent un LLM peuvent réaliser une évaluation plus nuancée. Toutefois, cette méthode peut s’avérer gourmande en main-d’œuvre, subjective et chronophage. Il est donc nécessaire de trouver un équilibre entre indicateurs quantitatifs et qualitatifs.
Bien que les benchmarks soient de solides indicateurs des performances d’un LLM, ils ne permettent pas de prédire dans quelle mesure un modèle fonctionnera dans le monde réel. Voici quelques contraintes des benchmarks LLM :
Une fois qu’un modèle a atteint le score le plus élevé possible pour un benchmark donné, ce dernier doit être mis à jour avec des tâches plus difficiles pour obtenir une mesure pratique.
Étant donné que les benchmarks LLM emploient des échantillons de données provenant principalement d’un large éventail de sujets et de tâches, ils peuvent ne pas présenter une mesure appropriée pour les scénarios de cas extrêmes, les domaines spécialisés ou les cas d’utilisation spécifiques.
Les benchmarks LLM ne peuvent tester que les compétences actuelles des modèles. Au fur et à mesure que les LLM progressent et que de nouvelles capacités voient le jour, de nouveaux benchmarks devront être créés.
Si un LLM est entraîné sur le même jeu de données que le benchmark, cela pourrait conduire à un surajustement, dans lequel le modèle pourrait être performant sur les données de test, mais pas sur les données réelles. Le score ne reflèterait donc pas les capacités réelles du LLM.
Les classements de LLM publient un classement des LLM basé sur une variété de benchmarks. Les classements permettent de suivre la myriade de LLM et de comparer leurs performances. Les classements de LLM sont particulièrement utiles pour prendre des décisions quant aux modèles à employer.
Chaque benchmark dispose généralement de son propre classement, mais des classements de LLM indépendants sont également disponibles. Ainsi, Hugging Face dispose d’une collection de classements, dont un classement de LLM ouvert qui classe plusieurs modèles open source en fonction des benchmarks ARC, HellaSwag, MMLU, GSM8K, TruthfulQA et Winogrande.
Les chercheurs classent les benchmarks LLM en fonction des deux aspects suivants :1
Critères d’évaluation : les paramètres d’évaluation du LLM sont soit la vérité terrain, soit les préférences humaines. La vérité terrain désigne les informations supposées vraies, tandis que les préférences humaines sont des choix reflétant l’utilisation dans le monde réel.
Source des questions : les prompts peuvent provenir de sources statiques ou dynamiques. Les prompts statiques contiennent des questions prédéfinies, tandis que les prompts dynamiques sont des questions créées dans un environnement interactif.
Les benchmarks peuvent entrer dans une ou plusieurs de ces catégories. Voici comment fonctionnent certains benchmarks populaires :
L’ARC mesure les capacités de réponse aux questions et de raisonnement d’un LLM à travers une série de plus de 7 000 questions de sciences naturelles de niveau scolaire. Ces questions sont divisées en une série de questions faciles et une série de questions difficiles. La notation est simple : un modèle reçoit un point pour chaque réponse correcte et 1/N points s’il fournit plusieurs réponses et que l’une d’entre elles est correcte.2
Chatbot Arena est une plateforme de benchmark ouverte qui met en concurrence deux chatbots anonymes. Les utilisateurs ont des conversations aléatoires avec les deux chatbots dans une « arène », puis votent pour celui qu’ils préfèrent, après quoi l’identité des modèles est révélée. Ces données de comparaison par paires collaboratives sont intégrées dans des méthodes statistiques qui estiment les scores et créent des classements approximatifs pour les différents LLM. Les algorithmes d’échantillonnage sont également utilisés pour coupler les modèles.1
GSM8K teste les capacités de raisonnement mathématique des LLM. Il s’agit d’un corpus de 8 500 problèmes mathématiques de niveau primaire. Les solutions sont recueillies en langage naturel, et non sous forme d’expressions mathématiques. Les vérificateurs d’IA sont entraînés pour évaluer les solutions des modèles.3
HellaSwag (« Harder Endings, Longer contexts and Low-shot Activities for Situations With Adversarial Generations »)est un benchmark axé sur le raisonnement de bon sens et l’inférence en langage naturel. Les modèles sont chargés de compléter des phrases en choisissant parmi un certain nombre de fins possibles. Ces fins comprennent des réponses erronées créées grâce au filtrage contradictoire, un algorithme qui génère des réponses réalistes, mais incorrectes. HellaSwag évalue la précision dans les catégories few shot et zero shot.4
HumanEval évalue les performances d’un LLM en termes de génération de code, en particulier d’exactitude fonctionnelle. Les modèles reçoivent des problèmes de programmation à résoudre et sont évalués en fonction de la réussite des tests unitaires correspondants. Cette procédure est similaire aux développeurs de logiciels humains, qui testent l’exactitude de leur code en réussissant des tests unitaires particuliers. Le test de référence HumanEval utilise son propre indicateur d’évaluation appelé pass@k, qui est la probabilité qu’au moins une des solutions de code générées par les k pour un problème de codage réussisse les tests unitaires de ce problème.5
MMLU est un benchmark qui évalue l’étendue des connaissances des LLM, leur capacité à comprendre le langage naturel et à résoudre des problèmes à l’aide des connaissances acquises. Le jeu de données de MMLU comprend plus de 15 000 questions de culture générale à choix multiple portant sur 57 thématiques. L’évaluation se fait uniquement dans les environnements few shot et zero shot. Le benchmark MMLU évalue la précision du modèle dans chaque thématique, puis il calcule la moyenne de ces chiffres pour obtenir le score final.6
Également connu sous le nom de Mostly Basic Python Problems, MBPP est un autre benchmark de génération de code. Il dispose d’un corpus de plus de 900 tâches de codage. À l’instar de HumanEval, il évalue l’exactitude fonctionnelle selon la réussite d’un ensemble de cas de test. L’évaluation est menée dans des environnements few-shot et ajustés. MBPP utilise deux indicateurs : le pourcentage de problèmes résolus par n’importe quel échantillon du modèle et le pourcentage d’échantillons résolvant leurs tâches respectives.7
Les chercheurs à l’origine de Chatbot Arena ont également créé MT-Bench pour tester la capacité des LLM à dialoguer et à suivre des instructions. Son jeu de données se compose de questions ouvertes à plusieurs tours, avec 10 questions chacune dans ces huit domaines : codage, extraction, connaissances I (STIM), connaissances II (sciences humaines et sociales), mathématiques, raisonnement, jeu de rôle et écriture. MT-Bench utilise le LLM GPT-4 pour évaluer les réponses d’autres LLM.8
Comme HumanEval, SWE-bench teste les capacités des LLM en matière de génération de code et met l’accent sur la résolution des problèmes. Les modèles sont chargés de corriger un bogue ou de traiter une demande de fonctionnalité dans une base de code donnée. L’indicateur d’évaluation du benchmark est le pourcentage d’instances de tâches résolues.9
Les grands modèles de langage sont sujets aux hallucinations, ce qui entraîne des sorties inexactes. Le benchmark TruthfulQA vise à résoudre ce problème en mesurant la capacité des LLM à générer des réponses véridiques aux questions. Son jeu de données contient plus de 800 questions portant sur 38 thématiques. TruthfulQA associe l’évaluation humaine au LLM GPT-3 finement réglé sur les indicateurs BLEU et ROUGE pour prédire l’évaluation humaine de l’informativité et de la véracité.10
Winogrande évalue les capacités de raisonnement de bon sens des LLM. S’appuyant sur le benchmark initial Winograd Schema Challenge (WSC), il dispose d’un immense jeu de données, à savoir 44 000 problèmes en crowdsourcing, qui utilise également un filtrage contradictoire. Le critère de notation est la précision.11
Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.
1 « Chatbot Arena : An Open Platform for Evaluating LLMs by Human Preference », arXiv, 7 mars 2024.
2 « Think you have Solved Question Answering ? Try ARC, the AI2 Reasoning Challenge », arXiv, 14 mars 2018.
3 « Training Verifiers to Solve Math Word Problems », arXiv, 18 novembre 2021.
4 « HellaSwag : Can a Machine Really Finish Your Sentence ? », arXiv, 19 mai 2019.
5 « Evaluating Large Language Models Trained on Code », arXiv, 14 juillet 2021.
6 « Measuring Massive Multitask Language Understanding », arXiv, 7 septembre 2020.
7 « Program Synthesis with Large Language Models », arXiv, 16 août 2021.
8 « Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena », arXiv, 9 juin 2023.
9 « SWE-bench : Can Language Models Resolve Real-World GitHub Issues ? », arXiv, 5 avril 2024.
10 « TruthfulQA : Measuring How Models Mimic Human Falsehoods », arXiv, 8 mai 2022.
11 «WinoGrande : An Adversarial Winograd Schema Challenge at Scale », arXiv, 21 novembre 2019.