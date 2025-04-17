Un nouveau modèle a-t-il triché sur un critère de référence donné ? Quel est le meilleur critère de référence ? Et que signifie « meilleur » lorsque chaque critère mesure les performances sur une tâche différente ?
Ces questions incitent des experts comme Marina Danilevsky, chercheuse principale chez IBM, à aborder l’évaluation des modèles avec prudence.« Être performant sur un test de référence signifie simplement cela : être performant sur ce test de référence », déclare-t-elle à IBM Think. Selon elle, la transparence est essentielle. « Nous devons reconnaître les nombreux éléments qu'un test de performance donné ne teste pas, afin que les prochains tests de performance comblent certaines de ces lacunes. »
Contrairement à la recherche d’un critère de référence unique et définitif, les nouvelles solutions redonnent le contrôle aux utilisateurs. Une équipe de la plateforme d’IA open source Hugging Face a récemment lancé YourBench, un outil open source qui permet aux entreprises et aux développeurs d’exploiter leurs propres données pour créer des critères de référence personnalisés afin d’évaluer les performances de leurs modèles. La plupart des critères testent les « capacités générales », explique Sumuk Shashidhar, chercheur chez Hugging Face, dans une interview accordée à IBM Think. « Pour de nombreux cas d’utilisation dans la vie réelle, ce qui importe le plus, c’est la façon dont un modèle exécute votre tâche spécifique », ajoute-t-il.
Afin d'améliorer l'utilité des benchmarks pour les applications réelles, YourBench génère automatiquement des benchmarks adaptés au domaine directement à partir des documents fournis par l'utilisateur, à la fois à moindre coût et sans avoir à annoter les documents manuellement, explique Shashidhar. Plus précisément, les chercheurs démontrent l’efficacité de YourBench en reproduisant sept sous-ensembles différents de MMLU– ou Massive Multitask Language Understanding – pour un coût total d’inférence inférieur à 15 USD, tout en préservant les classements relatifs de performance des modèles. Le MMLU est utilisé pour évaluer la capacité des modèles linguistiques à comprendre et à appliquer des connaissances dans différents domaines.
Certaines entreprises, comme IBM, ont déjà développé un générateur de critères de référence personnalisés similaire à YourBench. « Cela me rappelle notre pipeline maison pour créer des données synthétiques à des fins d’entraînement ou d’évaluation », explique Mme Danilevsky. « Créer des données synthétiques est facile. Créer des données synthétiques de qualité ne l’est pas », ajoute-t-elle. « Ainsi, même si YourBench est efficace avec les sous-ensembles MMLU, cela ne signifie pas pour autant qu’il est performant pour toutes les tâches que je lui confie. »
Une autre alternative qui a connu un essor fulgurant est Chatbot Arena (CA), un outil de référence participatif. Au lieu de tests mathématiques ou linguistiques rigoureux, il permet aux utilisateurs de poser une question, d’obtenir des réponses de deux modèles d’IA anonymes et d’évaluer lequel est le meilleur.
Lancé par deux étudiants diplômés de l’université de Californie à Berkeley, CA bénéficie désormais d’un accès anticipé aux modèles de tous les principaux acteurs de l’IA, ce qui permet aux passionnés de faire s’affronter les bots entre eux, « créant ainsi du suspense et rendant l’évaluation des modèles ludique », explique Anastasios Angelopoulos, cofondateur de CA, dans une interview accordée à IBM Think.Sorte de Billboard Hot 100 des modèles d’IA, le classement de CA a reçu plus de deux millions de votes à ce jour.
Comme ils suivent de près les nouveaux modèles, M. Angelopoulos a été moins surpris que beaucoup lorsque DeepSeek-R1 a connu un regain de popularité. « Les modèles open source rattrapent leur retard depuis un certain temps, DeepSeek n’a donc fait que confirmer cette tendance. »
Les fondateurs ont créé Chatbot Arena en réponse à la frustration suscitée par les outils de référence traditionnels. Selon M. Angelopoulos, une partie du problème réside dans le fait que « les outils de référence sont statiques : certains modèles obtiennent de très bons résultats sur des critères spécifiques ». Il en résulte un risque de « surajustement des données », explique-t-il, c’est-à-dire qu’un modèle apprend trop bien les données d’entraînement. L’avantage de Chatbot Arena, ajoute-t-il, est que les données sont en temps réel. « Vous ne pouvez pas surajuster les données. Elles ne sont pas contaminées ni obsolètes. »
Pour Mme Danilevsky, « le classement agrégé de Chatbot Arena n’est pas exploitable en soi », dit-elle. « Pour de nombreuses applications concrètes, il est nécessaire d’avoir des commentaires plus nuancés sur un modèle, au-delà d’un simple pouce vers le haut ou vers le bas. » Elle reconnaît toutefois que le concept est très populaire. « Je voudrais simplement mieux comprendre comment et pourquoi les gens réagissent ainsi à un modèle donné. Des métadonnées supplémentaires seraient vraiment utiles dans ce cas. »
Même Angelopoulos estime que « l'utilisation réelle mesure quelque chose de différent des critères de référence ». Il utilise le modèle GPT-4.5 d'OpenAI comme exemple. Il n’était pas très performant sur de nombreux critères de référence qualitatifs, mais les gens l’ont adoré. Vous avez besoin d'un outil différent pour mesurer l'ambiance d'un modèle. »
