Évaluation des LLM : pourquoi tester les modèles IA est important

Deux personnes regardant pensivement un écran d’ordinateur

Auteurs

Amanda McGrath

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Imaginez qu’une entreprise embauche un nouvel employé. Son CV est excellent et il accomplit toutes ses tâches rapidement et efficacement. Son travail est techniquement fait, mais est-il bien fait ? Est-il précis, fiable et de haute qualité ?

Comme pour toute nouvelle recrue, les responsables prennent le temps d’examiner son travail pour s’assurer qu’il répond aux attentes de l’entreprise et qu’il est performant. Alors que l’intelligence artificielle (IA) joue un rôle de plus en plus important dans les résultats et les décisions, les entreprises doivent faire de même pour les LLM.

Les grands modèles de langage (LLM) sont des modèles de fondation entraînés sur d’immenses quantités de données et utilisés pour des tâches de compréhension et de génération de texte. Par exemple, ce type de système d’IA est particulièrement utile pour réaliser des tâches telles que la création de contenu, la synthèse et l’analyse des sentiments.

Les LLM ont révolutionné le traitement automatique du langage naturel (TAL) et ont fait connaître l’IA générative au grand public. Chat GPT-3 et GPT-4 d’OpenAI, ainsi que Llama de Meta, sont les exemples les plus connus, mais un large éventail de LLM est utilisé dans divers domaines. Les LLM alimentent des outils d’IA tels que les chatbots, les assistants virtuels, les outils de traduction et les systèmes de génération de code.

Au fur et à mesure que l’adoption des applications LLM se généralise, notamment dans les secteurs à fort enjeu comme la santé et la finance, tester leurs sorties devient de plus en plus important. C’est là que l’évaluation des LLM entre en jeu.

Qu’est-ce que l’évaluation des LLM ?

L’évaluation des LLM consiste à évaluer la performance et les capacités de grands modèles de langage. Il s’agit de tester ces modèles sur une multitude de tâches, de jeux de données et d’indicateurs afin d’évaluer leur efficacité.

Les méthodes d’évaluation peuvent associer points de référence automatisés et évaluation humaine pour identifier les forces et les faiblesses du LLM. Ce processus consiste à comparer les sorties du modèle à des données de référence (informations supposées vraies) ou à des réponses générées par l’humain afin de déterminer la précision, la cohérence et la fiabilité du modèle. Les résultats des évaluations permettent aux chercheurs et aux développeurs d’identifier les aspects à améliorer. Les processus d’évaluation constituent également un élément central des opérations de grands modèles de langage, ou LLMOPs, c’est-à-dire la gestion opérationnelle des LLM.

Pourquoi l’évaluation des LLM est-elle importante ?

Les LLM jouent un rôle de plus en plus important dans la vie quotidienne, et leur évaluation permet de s’assurer qu’ils fonctionnent comme prévu. Au-delà de l’aspect technique, l’évaluation des LLM permet également d’instaurer la confiance entre utilisateurs et parties prenantes.

L’évaluation des LLM peut être utile dans les domaines suivants :

  • Performance des modèles
  • Considérations éthiques
  • Analyse comparative
  • Développement de nouveaux modèles
  • Confiance des utilisateurs et des parties prenantes

Performance des modèles

L’évaluation des LLM montre si le modèle fonctionne comme prévu et génère des résultats de haute qualité, que ce soit dans ses tâches ou dans ses domaines d’application. Au-delà de la fonctionnalité de base, l’évaluation peut révéler des nuances dans la compréhension du langage, la qualité de la génération et la compétence spécifique à la tâche. Elle peut également mettre en évidence des faiblesses potentielles, notamment des lacunes dans les connaissances ou des incohérences dans le raisonnement, ce qui permet aux chercheurs et aux développeurs de mieux cibler les améliorations à apporter.

Considérations éthiques

Lors de leur développement, les LLM sont influencés par nos biais, notamment à travers les données d’entraînement. L’évaluation permet d’identifier et d’éliminer les préjugés ou les inexactitudes décelés dans les réponses du modèle. Favoriser l’éthique de l’IA permet de se prémunir contre les technologies susceptibles de perpétuer les inégalités sociales et de favoriser les résultats factuels.

Analyse comparative

L’évaluation des LLM permet de comparer les performances de différents modèles et de choisir celui qui correspond le mieux aux besoins de l’utilisateur. Elle offre un moyen normalisé de comparer les résultats des indicateurs de performance bruts à des facteurs tels que l’efficacité de calcul et l’évolutivité.

Développement de nouveaux modèles

Les informations obtenues grâce à l’évaluation des LLM permettent de guider le développement de nouveaux modèles. Elles permettent aux chercheurs d’innover pour créer de nouvelles techniques d’entraînement, de nouveaux modèles ou des capacités bien spécifiques.

Confiance des utilisateurs et des parties prenantes

L’évaluation des LLM favorise la transparence dans le développement et renforce la confiance dans les résultats. Par conséquent, elle aide les organisations à définir des attentes réalistes et à susciter la confiance dans les outils d’IA.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets encore. 

Évaluation des modèles LLM et évaluation des systèmes LLM

Bien qu’étroitement liées, l’évaluation des LLM et celle des systèmes LLM ont des objectifs distincts.

L’évaluation des LLM (également appelée évaluation des modèles de LLM) consiste à évaluer les performances des modèles. Elle porte sur le modèle linguistique de base lui-même, et plus particulièrement sur sa capacité à comprendre et à générer du texte dans un éventail de tâches et de domaines. L’évaluation des modèles implique généralement d’en tester les capacités brutes, c’est-à-dire leur compréhension du langage, la qualité des résultats qu’ils génèrent et les performances propres à chaque tâche.

L’évaluation du système LLM est plus complète et fournit des informations sur la performance de bout en bout de l’application alimentée par le LLM. L’évaluation du système consiste à examiner l’ensemble de l’écosystème construit autour d’un LLM. Cet effort porte notamment sur l’évolutivité, la sécurité et l’intégration avec d’autres composants, comme les API ou les bases de données.

En résumé, l’évaluation des modèles consiste à s’assurer que les LLM fonctionnent pour des tâches spécifiques, tandis que l’évaluation des systèmes est une approche plus globale de son utilisation et de son efficacité. Les deux sont essentielles pour développer des applications de LLM robustes et efficaces.

Indicateurs d’évaluation des LLM

Lorsque l’on souhaite évaluer un LLM, la première étape consiste à définir les critères d’évaluation globaux en fonction de l’utilisation prévue du modèle. On utilise pour cela de nombreux indicateurs, dont voici une sélection des plus courants :

  • Exactitude
  • Rappel
  • Score F1
  • Cohérence
  • Perplexité
  • BLEU
  • ROUGE
  • Latence
  • Toxicité

Exactitude

Cet indicateur calcule le pourcentage de réponses correctes dans des tâches telles que la classification ou la réponse à des questions.

Rappel

Cet indicateur mesure le nombre réel de vrais positifs, ou de prédictions correctes, par rapport aux faux dans les réponses du LLM.

Score F1

Cet indicateur regroupe précision et rappel en un seul et même indicateur. Les scores F1 varient entre 0 et 1, 1 indiquant un excellent niveau de rappel et de précision.

Cohérence

Cet indicateur évalue le flux logique et la cohérence des textes générés.

Perplexité

Cet indicateur mesure la capacité du modèle à prédire une séquence de mots ou un échantillon de texte. Plus le modèle prédit le résultat correct avec constance, plus son score de perplexité est faible.

BLEU (Bilingual Evaluation Understudy)

Cet indicateur évalue la qualité des textes générés automatiquement, notamment dans les tâches de traduction.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

Cet indicateur évalue la qualité des résumés textuels en les comparant à des résumés créés par des humains.

Latence

Cet indicateur mesure l’efficacité et la vitesse globale du modèle.

Toxicité

Cet indicateur mesure la présence de contenu préjudiciable ou offensant dans les sorties du modèle.

Application des cadres d’évaluation des LLM et des benchmarks

Les évaluateurs établissent des critères clairs et sélectionnent ensuite un cadre qui offre une méthodologie complète pour évaluer les performances d’un modèle. Par exemple, le cadre d’évaluation des modèles de fondation d’IBM (FM-eval) est utilisé pour valider et évaluer les nouveaux LLM de manière systématique, reproductible et cohérente.

Les cadres d’évaluation contiennent des benchmarks LLM, c’est-à-dire des jeux de données ou des tâches standardisés qui permettent d’analyser les résultats et de guider le processus d’évaluation. Alors que les cadres définissent la manière dont les LLM sont évalués, les benchmarks définissent ce qu’il faut évaluer, à savoir les tâches et les données.

Les benchmarks LLM se composent de jeux de données, de tâches et de prompts conçus pour tester les différentes compétences du LLM, comme la réponse aux questions, la traduction automatique, la synthèse et l’analyse des sentiments. Ils comprennent également des indicateurs permettant d’évaluer la performance, ainsi qu’un mécanisme de notation. Leurs critères d’évaluation sont soit la vérité terrain, soit les préférences humaines.

En évaluant les LLM selon ces benchmarks, les développeurs peuvent comparer la performance des différents modèles et suivre leurs progrès au fil du temps. Voici quelques exemples de benchmarks LLM largement utilisés :

  • Le jeu de données MMLU (Massive Multitask Language Understanding), qui comporte un ensemble de questions à choix multiple couvrant divers domaines.
  • HumanEval, qui évalue les performances des LLM en matière de génération de code, en particulier l’exactitude fonctionnelle.
  • TruthfulQA, qui s’attaque aux problèmes d’hallucination en mesurant la capacité des LLM à générer des réponses véridiques aux questions.
  • GLUE (General Language Understanding Evaluation) et SuperGLUE, qui testent les performances des modèles de traitement automatique du langage naturel (TALN), en particulier ceux conçus pour les tâches de compréhension du langage.
  • La bibliothèque Hugging Face, qui offre un accès open source à de nombreux jeux de données d’évaluation.

Les benchmarks sélectionnés sont introduits dans le LLM par le biais de tests zero-shot, few-shot et de réglage fin pour voir comment le modèle fonctionne. Dans le cadre des tests few-shot, le LLM est évalué sur sa capacité à fonctionner avec des données limitées après avoir reçu un petit nombre d’exemples étiquetés qui démontrent comment accomplir la tâche. Les tests zéro-shot demandent au LLM d’effectuer une tâche sans aucun exemple, ce qui permet de tester la façon dont il s’adapte à de nouvelles circonstances. Enfin, le réglage fin entraîne le modèle sur un jeu de données similaire à celui utilisé par les benchmarks afin d’améliorer la maîtrise d’une tâche spécifique.

Les résultats de l’évaluation permettent d’optimiser et d’itérer le modèle en ajustant ses paramètres, en l’affinant ou même en l’entraînant à nouveau sur de nouvelles données.

« LLM-as-a-judge » et « human-in-the-loop »

Lors de l’évaluation des résultats d’un modèle, les développeurs et les chercheurs utilisent deux approches : l’évaluation « LLM-as-a-judge » et l’évaluation « human-in-the-loop ».

L’évaluation dite « LLM-as-a-judge » (« en tant que juge ») consiste à utiliser le LLM pour évaluer la qualité de ses propres sorties. Par exemple, il peut s’agir de comparer un texte généré par un modèle à un jeu de données de référence, ou d’utiliser des indicateurs comme la perplexité ou le score F1 pour mesurer les résultats.

Dans le cadre de l’approche « human-in-the-loop » (« humain dans la boucle »), les évaluateurs humains jaugent la qualité des résultats du LLM. Cette méthode se prête particulièrement bien aux évaluations plus nuancées, portant par exemple sur la cohérence, la pertinence et l’expérience utilisateur, qui sont difficiles à appréhender à l’aide d’indicateurs automatisés uniquement.

Cas d’utilisation de l’évaluation des LLM

L’évaluation des LLM comporte de nombreux cas d’utilisation. En voici quelques exemples :

Évaluer la précision d’un système de réponse aux questions

Dans le cadre de la génération augmentée de récupération (RAG), l’évaluation consiste à tester la qualité des réponses générées par les modèles. Les chercheurs utilisent des jeux de données tels que SQuAD (Stanford Question Answering Dataset) ou TruthfulQA pour vérifier la précision du système de réponse aux questions alimenté par LLM en comparant les réponses du modèle aux réponses de la réalité.

Évaluer la fluidité et la cohérence des textes générés

À l’aide d’indicateurs tels que BLEU et l’évaluation humaine, les chercheurs testent la qualité des réponses textuelles proposées par les chatbots ou les systèmes de traduction automatique. Cela permet de s’assurer que le texte généré est fluide, cohérent et adapté au contexte.

Détecter les biais et la toxicité

En s’appuyant sur des jeux de données et des indicateurs spécialisés, les chercheurs évaluent la présence de biais et de contenus toxiques dans les textes générés par LLM. Par exemple, le jeu de données ToxiGen permet d’évaluer la toxicité des sorties en vue d’obtenir des applications plus sûres et plus inclusives.

Comparer la performance des différents LLM

Les chercheurs peuvent utiliser des jeux de données de référence tels que GLUE ou SuperGLUE pour comparer les performances de différents LLM à travers diverses tâches de TALN, telles que l’analyse des sentiments ou la reconnaissance d’entités nommées.

Dans ces cas d’utilisation comme dans d’autres, l’évaluation des LLM peut apporter des avantages importants aux entreprises. En identifiant les aspects à améliorer et les faiblesses à corriger, l’évaluation des LLM favorise une meilleure expérience utilisateur, ainsi que la réduction des risques, et permet d’obtenir un avantage concurrentiel.

Défis de l’évaluation des LLM

Mais l’évaluation des LLM a son lot de défis et de limites. Face au développement rapide des LLM, établir des benchmarks standardisés et durables s’avère difficile. Évaluer la compréhension contextuelle est un défi, au même titre que la détection des nuances les plus fines des biais.

L’explicabilité est également un problème : les LLM sont souvent considérés comme étant des « boîtes noires ». En effet, il peut s’avérer difficile d’interpréter leur processus décisionnel à des fins d’évaluation et d’identifier les facteurs déterminant leurs sorties.

En outre, de nombreux jeux de données d’évaluation ne sont pas représentatifs des différentes langues ou cultures. Par conséquent, les modèles testés à l’aide de ces jeux de données peuvent donner de bons résultats pour certains benchmarks, mais échouer dans les scénarios réels.

Le développement et la mise en œuvre des LLM et autres applications complexes de machine learning ne cessent d’évoluer. Il est donc indispensable de surmonter ces défis pour optimiser les processus d’évaluation et permettre aux évaluateurs, ainsi qu’aux développeurs, de renforcer l’efficacité, la sécurité et l’utilisation éthique des LLM.

Ressources

Qu’est-ce que la gouvernance de l’IA ?
Sujet connexe
Qu’est-ce que la gestion des risques liés à l’IA ?
Blog
Qu’est-ce que l’éthique de l’IA ?
Sujet connexe
Qu’est-ce que le LLMOps ?
Sujet connexe

Passez à l’étape suivante

Accélérez la mise en place de workflows d’IA responsables, transparents et explicables tout au long du cycle de vie pour les modèles d’IA générative et de machine learning. Dirigez, gérez et surveillez les activités d’IA de votre organisation pour mieux vous adapter aux réglementations de plus en plus nombreuses en matière d’IA, et détecter et atténuer les risques plus efficacement.

Découvrez watsonx.governance Réserver une démo live