Références de LLM : qu’est-ce que c’est ?

Auteurs

Staff Writer

IBM Think

Staff Editor, AI Models

IBM Think

Qu’est-ce qu’un benchmark LLM ?

Les benchmarks sont des cadres normalisés conçus pour évaluer la performance des grands modèles de langage (LLM). Ces benchmarks sont des échantillons de données, un ensemble de questions ou de tâches permettant de tester les compétences spécifiques des LLM, des indicateurs d’évaluation des performances et un mécanisme de notation.

Les modèles sont évalués en fonction de leurs capacités telles que le codage, le bon sens et le raisonnement. Citons également d’autres capacités comme le traitement automatique du langage naturel, notamment la traduction automatique, la réponse aux questions et la synthèse de texte.

Les benchmarks LLM jouent un rôle crucial dans le développement et l’amélioration des modèles. Ils illustrent les progrès d’un LLM au fur et à mesure qu’il apprend, avec des mesures quantitatives qui mettent en évidence les domaines dans lesquels le modèle excelle, ainsi que les aspects à améliorer.

Cela guide le processus de réglage fin pour aider les chercheurs et les développeurs de LLM à faire progresser le domaine. Les benchmarks LLM fournissent également une comparaison objective des différents modèles pour permettre aux développeurs de logiciels et aux entreprises de choisir les modèles les plus adaptés à leurs besoins.

Benchmarks LLM : comment ça marche ?

Les benchmarks de LLM fonctionnent de manière simple. Ils fournissent une tâche qu’un LLM doit accomplir, évaluent les performances du modèle en fonction d’un indicateur donné et produisent un score basé sur cet indicateur. Voici comment fonctionne chaque étape en détail :

Configuration

Les benchmarks LLM comportent des échantillons de données prêts à l’emploi : défis de codage, documents volumineux, problèmes mathématiques, conversations réelles, questions scientifiques. Diverses tâches sont également à portée de main, notamment le raisonnement de bon sens, la résolution de problèmes, la réponse aux questions, la synthèse et la traduction. Tous ces éléments sont fournis au modèle au début du test.

Tests

Lors de l’exécution du benchmark, il est introduit dans un modèle selon l’une des trois approches suivantes :

Few shot : avant de demander au LLM d’accomplir une tâche, on lui fournit quelques exemples montrant comment s’y prendre. Cela démontre la capacité du modèle à apprendre à partir de données limitées.
Zero shot : on demande au LLM d’accomplir une tâche sans lui avoir montré d’exemple au préalable. Cela démontre la capacité du modèle à comprendre de nouveaux concepts et à s’adapter à des scénarios inédits.
Réglage fin : le modèle est entraîné sur un jeu de données similaire à celui du benchmark. L’objectif est d’améliorer la performance du LLM sur la tâche associée au benchmark.

Notation

Une fois les tests effectués, le benchmark LLM compare la sortie du modèle à la solution attendue ou à la réponse standard et génère un score compris entre 0 et 100.

Newsletter sectorielle

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Indicateurs clés pour l’analyse comparative des LLM

Les benchmarks appliquent différents indicateurs pour évaluer les performances des LLM. Voici certains des plus courants :

L’exactitude, ou précision, désigne le pourcentage de prévisions correctes.
Le rappel, également appelé taux de sensibilité, quantifie les vrais positifs, à savoir le nombre de prédictions correctes.
Le score F1 regroupe à la fois la précision et le rappel en un seul indicateur. Il considère que les deux mesures ont un poids égal pour équilibrer les faux positifs et les faux négatifs. Les scores F1 varient de 0 à 1, 1 indiquant un excellent rappel et une excellente précision.
La correspondance exacte est la proportion de prédictions exactes produites par un LLM. Il s’agit d’un critère important pour la traduction et la réponse aux questions.
La perplexité mesure la qualité des prédictions d’un modèle. Plus le score de perplexité d’un LLM est bas, plus sa capacité à comprendre une tâche est grande.
Le score BLEU (bilingual evaluation understudy) évalue la traduction automatique. On calcule les n-grammes correspondants (une séquence de n symboles textuels adjacents) en comparant la traduction prédite par un LLM à une traduction réalisée par un humain.
Le score ROUGE (recall-oriented understudy for gisting evaluation) évalue la synthèse de texte et se décline en plusieurs types. ROUGE-N, par exemple, effectue des calculs similaires à ceux du score BLEU sur les résumés, tandis que ROUGE-L calcule la plus longue sous-séquence commune aux deux résumés : celui prédit et celui produit par l’humain.

Ces indicateurs quantitatifs sont généralement combinés pour garantir une évaluation plus complète et plus fiable.

Parallèlement, l’évaluation humaine implique des indicateurs qualitatifs tels que la cohérence, la pertinence et la signification sémantique. Les évaluateurs humains qui examinent et notent un LLM peuvent réaliser une évaluation plus nuancée. Toutefois, cette méthode peut s’avérer gourmande en main-d’œuvre, subjective et chronophage. Il est donc nécessaire de trouver un équilibre entre les indicateurs quantitatifs et qualitatifs.

AI Academy

Pourquoi les modèles de fondation constituent-ils un changement de paradigme pour l’IA ?

Découvrez une nouvelle catégorie de modèles IA flexibles et réutilisables, capables de générer de nouveaux revenus, de réduire les coûts et d’augmenter la productivité. Utilisez ensuite notre guide pour obtenir plus d’informations.

Accéder à l’épisode

Limites des benchmarks de LLM

Bien que les benchmarks soient de solides indicateurs des performances d’un LLM, ils ne permettent pas de prédire dans quelle mesure un modèle fonctionnera dans le monde réel. Voici quelques contraintes des benchmarks de LLM :

Notation limitée

Une fois qu’un modèle a atteint le score le plus élevé possible pour un benchmark donné, ce benchmark doit être mis à jour avec des tâches plus difficiles pour obtenir une mesure pratique.

Jeu de données étendu

Étant donné que les benchmarks de LLM utilisent des échantillons de données provenant principalement d’un large éventail de sujets et de tâches, ils peuvent ne pas présenter une mesure appropriée pour les scénarios de cas extrêmes, les domaines spécialisés ou les cas d’utilisation spécifiques.

Évaluations limitées

Les benchmarks LLM ne peuvent tester que les compétences actuelles des modèles. Au fur et à mesure que les LLM progressent et que de nouvelles capacités voient le jour, de nouveaux benchmarks devront être créés.

Surajustement

Si un LLM est entraîné sur le même jeu de données que le benchmark, cela pourrait conduire à un surajustement, dans lequel le modèle pourrait être performant sur les données de test, mais pas sur les données réelles. Le score ne reflèterait donc pas les capacités réelles du LLM.

Que sont les classements LLM ?

Les classements de LLM publient un classement des LLM basé sur une variété de benchmarks. Les classements permettent de suivre la myriade de LLM et de comparer leurs performances. Les classements de LLM sont particulièrement utiles pour prendre des décisions quant aux modèles à utiliser.

Chaque benchmark dispose généralement de son propre classement, mais on trouve aussi des classements de LLM indépendants. Ainsi, Hugging Face dispose d’une collection de classements, dont un classement de LLM ouvert qui classe plusieurs modèles open source en fonction des benchmarks ARC, HellaSwag, MMLU, GSM8K, TruthfulQA et Winogrande.

Benchmarks LLM courants

Les chercheurs classent les benchmarks de LLM en fonction des deux aspects suivants¹ :

Critères d’évaluation : les paramètres d’évaluation du LLM sont soit la vérité terrain, soit les préférences humaines. La vérité terrain désigne les informations supposées vraies, tandis que les préférences humaines sont des choix reflétant l’utilisation dans le monde réel.
Source des questions : les prompts peuvent provenir de sources statiques ou dynamiques. Les prompts statiques contiennent des questions prédéfinies, tandis que les prompts dynamiques sont des questions créées dans un environnement interactif.

Les benchmarks peuvent entrer dans une ou plusieurs de ces catégories. Voici comment fonctionnent certains benchmarks populaires :

AI2 Reasoning Challenge (ARC)

L’ARC mesure les capacités de réponse aux questions et de raisonnement d’un LLM à travers une série de plus de 7 000 questions de sciences naturelles de niveau scolaire. Ces questions sont divisées en une série de questions faciles et une série de questions difficiles. La notation est simple : un modèle reçoit un point pour chaque réponse correcte et 1/N points s’il fournit plusieurs réponses et que l’une d’entre elles est correcte².

Chatbot Arena

Chatbot Arena est une plateforme de benchmark ouverte qui met en concurrence deux chatbots anonymes. Les utilisateurs ont des conversations aléatoires avec les deux chatbots dans une « arène », puis votent pour celui qu’ils préfèrent, après quoi l’identité des modèles est révélée. Ces données de comparaison par paires collaboratives sont intégrées dans des méthodes statistiques qui estiment les scores et créent des classements approximatifs pour les différents LLM. Les algorithmes d’échantillonnage sont également utilisés pour coupler les modèles¹.

Grade School Math 8K (GSM8K)

GSM8K teste les capacités de raisonnement mathématique des LLM. Il s’agit d’un corpus de 8 500 problèmes mathématiques de niveau primaire. Les solutions sont recueillies en langage naturel, et non sous forme d’expressions mathématiques. Les vérificateurs d’IA sont formés pour évaluer les solutions des modèles.³

HellaSwag

HellaSwag (« Harder Endings, Longer contexts and Low-shot Activities for Situations With Adversarial Generations ») est un benchmark axé sur le raisonnement de bon sens et l’inférence en langage naturel. Les modèles sont chargés de compléter des phrases en choisissant parmi un certain nombre de fins possibles. Ces fins comprennent des réponses erronées créées grâce au filtrage contradictoire, un algorithme qui génère des réponses réalistes, mais incorrectes. HellaSwag évalue la précision dans les catégories few shot et zero shot.⁴

HumanEval

HumanEval évalue les performances d’un LLM en termes de génération de code, en particulier d’exactitude fonctionnelle. Les modèles reçoivent des problèmes de programmation à résoudre et sont évalués en fonction de la réussite des tests unitaires correspondants. Cette procédure est similaire aux développeurs de logiciels humains, qui testent l’exactitude de leur code en réussissant des tests unitaires particuliers. Le test de référence HumanEval utilise son propre indicateur d’évaluation appelé pass@k, qui est la probabilité qu’au moins une des solutions de code générées par les k pour un problème de codage réussisse les tests unitaires de ce problème.⁵

Massive Multitask Language Understanding (MMLU)

MMLU est un benchmark qui évalue l’étendue des connaissances des LLM, leur capacité à comprendre le langage naturel et à résoudre des problèmes à l’aide des connaissances acquises. Le jeu de données de MMLU comprend plus de 15 000 questions de culture générale à choix multiple portant sur 57 thématiques. L’évaluation se fait uniquement dans les environnements few shot et zero shot. Le benchmark MMLU évalue la précision du modèle dans chaque thématique, puis il calcule la moyenne de ces chiffres pour obtenir le score final.⁶

Mostly Basic Programming Problems (MBPP)

MBPP, également connu sous le nom de Mostly Basic Python Problems, est un autre benchmark de génération de code. Il dispose d’un corpus de plus de 900 tâches de codage. À l’instar de HumanEval, il évalue l’exactitude fonctionnelle selon la réussite d’un ensemble de cas de test. L’évaluation est menée dans des environnements few-shot et ajustés. MBPP utilise deux indicateurs : le pourcentage de problèmes résolus par n’importe quel échantillon du modèle et le pourcentage d’échantillons résolvant leurs tâches respectives⁷.

MT-Bench

Les chercheurs à l’origine de Chatbot Arena ont également créé MT-Bench pour tester la capacité des LLM à dialoguer et à suivre des instructions. Son jeu de données se compose de questions ouvertes à plusieurs tours, avec 10 questions chacune dans ces huit domaines : codage, extraction, connaissances I (STIM), connaissances II (sciences humaines et sociales), mathématiques, raisonnement, jeu de rôle et écriture. MT-Bench utilise le LLM GPT-4 pour évaluer les réponses d’autres LLM.⁸

SWE-bench

Comme HumanEval, SWE-bench teste les capacités des LLM en matière de génération de code et met l’accent sur la résolution des problèmes. Les modèles sont chargés de corriger un bogue ou de traiter une demande de fonctionnalité dans une base de code donnée. L’indicateur d’évaluation du benchmark est le pourcentage d’instances de tâches résolues.⁹

TruthfulQA

Les grands modèles de langage sont sujets aux hallucinations, ce qui entraîne des sorties inexactes. Le benchmark TruthfulQA vise à résoudre ce problème en mesurant la capacité des LLM à générer des réponses véridiques aux questions. Son jeu de données contient plus de 800 questions portant sur 38 thématiques. TruthfulQA associe l’évaluation humaine au LLM GPT-3 finement réglé sur les indicateurs BLEU et ROUGE pour prédire l’évaluation humaine de l’informativité et de la véracité.¹⁰

Winogrande

Winogrande évalue les capacités de raisonnement de bon sens des LLM. S’appuyant sur le benchmark initial Winograd Schema Challenge (WSC), il dispose d’un immense jeu de données, à savoir 44 000 problèmes en crowdsourcing, qui utilise également un filtrage contradictoire. Le critère de notation est la précision.¹¹

Choisir le bon modèle de fondation

Découvrez comment choisir la bonne approche pour préparer des ensembles de données et utiliser des modèles de fondation.

Ressources

Découvrir IBM Granite

Découvrez IBM Granite, notre famille de modèles d'IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d'IA. Explorez les options de langage, de code, de séries temporelles et de garde-fous.

Choisir le bon modèle de fondation

Découvrez comment choisir le modèle de fondation d’IA le mieux adapté à votre cas d’utilisation.

Découvrir la puissance des LLM

Plonger dans les articles, les blogs et les tutoriels d'IBM Developer pour approfondir vos connaissances sur les LLM.

Le guide du PDG sur l’optimisation des modèles

Découvrez comment pousser continuellement vos équipes à améliorer les performances des modèles et à dépasser la concurrence en utilisant les dernières techniques et infrastructures d’IA.

Une approche différenciée des modèles de fondation IA

Découvrez la valeur des modèles de fondation dédiés aux entreprises qui offrent confiance, performances et avantages rentables à tous les secteurs.

Libérez la puissance de l’IA générative et du ML

Apprenez comment intégrer l’IA générative, le machine learning et les modèles de fondation dans vos opérations métier pour améliorer les performances.

L’IA en action 2024

Lisez les résultats de l'enquête menée auprès de 2 000 organisations sur leurs initiatives en matière d'IA pour découvrir ce qui fonctionne, ce qui ne fonctionne pas et comment vous pouvez prendre de l'avance

Solutions connexes

Modèles de fondation

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai

Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA

Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA

Passez à l’étape suivante

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille IBM watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.