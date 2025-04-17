Un nouveau modèle a-t-il triché sur un critère de référence donné ? Quel est le meilleur critère de référence ? Et que signifie « meilleur » lorsque chaque critère mesure les performances sur une tâche différente ?

Ces questions incitent des experts comme Marina Danilevsky, chercheuse principale chez IBM, à aborder l’évaluation des modèles avec prudence.« Être performant sur un test de référence signifie simplement cela : être performant sur ce test de référence », déclare-t-elle à IBM Think. Selon elle, la transparence est essentielle. « Nous devons reconnaître les nombreux éléments qu'un test de performance donné ne teste pas, afin que les prochains tests de performance comblent certaines de ces lacunes. »

Contrairement à la recherche d’un critère de référence unique et définitif, les nouvelles solutions redonnent le contrôle aux utilisateurs. Une équipe de la plateforme d’IA open source Hugging Face a récemment lancé YourBench, un outil open source qui permet aux entreprises et aux développeurs d’exploiter leurs propres données pour créer des critères de référence personnalisés afin d’évaluer les performances de leurs modèles. La plupart des critères testent les « capacités générales », explique Sumuk Shashidhar, chercheur chez Hugging Face, dans une interview accordée à IBM Think. « Pour de nombreux cas d’utilisation dans la vie réelle, ce qui importe le plus, c’est la façon dont un modèle exécute votre tâche spécifique », ajoute-t-il.

Afin d'améliorer l'utilité des benchmarks pour les applications réelles, YourBench génère automatiquement des benchmarks adaptés au domaine directement à partir des documents fournis par l'utilisateur, à la fois à moindre coût et sans avoir à annoter les documents manuellement, explique Shashidhar. Plus précisément, les chercheurs démontrent l’efficacité de YourBench en reproduisant sept sous-ensembles différents de MMLU– ou Massive Multitask Language Understanding – pour un coût total d’inférence inférieur à 15 USD, tout en préservant les classements relatifs de performance des modèles. Le MMLU est utilisé pour évaluer la capacité des modèles linguistiques à comprendre et à appliquer des connaissances dans différents domaines.