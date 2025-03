Imaginez qu’une entreprise embauche un nouvel employé. Son CV est excellent et il accomplit toutes ses tâches rapidement et efficacement. Son travail est techniquement fait, mais est-il bien fait ? Est-il précis, fiable et de haute qualité ?

Comme pour toute nouvelle recrue, les responsables prennent le temps d’examiner son travail pour s’assurer qu’il répond aux attentes de l’entreprise et qu’il est performant. Alors que l’intelligence artificielle (IA) joue un rôle de plus en plus important dans les résultats et les décisions, les entreprises doivent faire de même pour les LLM.

Les grands modèles de langage (LLM) sont des modèles de fondation entraînés sur d’immenses quantités de données et utilisés pour des tâches de compréhension et de génération de texte. Par exemple, ce type de système d’IA est particulièrement utile pour réaliser des tâches telles que la création de contenu, la synthèse et l’analyse des sentiments.

Les LLM ont révolutionné le traitement automatique du langage naturel (TAL) et ont fait connaître l’IA générative au grand public. Chat GPT-3 et GPT-4 d’OpenAI, ainsi que Llama de Meta, sont les exemples les plus connus, mais un large éventail de LLM est utilisé dans divers domaines. Les LLM alimentent des outils d’IA tels que les chatbots, les assistants virtuels, les outils de traduction et les systèmes de génération de code.

Au fur et à mesure que l’adoption des applications LLM se généralise, notamment dans les secteurs à fort enjeu comme la santé et la finance, tester leurs sorties devient de plus en plus important. C’est là que l’évaluation des LLM entre en jeu.