Les modèles IA sont de plus en plus sollicités pour s'auto-évaluer, ce qui soulève une question critique : qui surveille les surveillants ?
Les entreprises d’IA développent des modèles pour évaluer d’autres systèmes d’IA, marquant ainsi une évolution par rapport aux méthodes d’évaluation traditionnelles dirigées par l’humain. Le nouveau modèle de Meta, par exemple, peut évaluer la performance de l’IA sans intervention humaine. Cela suscite un débat parmi les chercheurs concernant la précision et les limites des tests automatisés.
L'évaluateur autodidacte utilise des données d'entraînement générées par l'IA et une technique de réflexion en chaîne pour évaluer les réponses en sciences, en codage et en mathématiques. L'objectif est la transparence, mais cela comporte des risques. « C'est un gros problème : valider les validateurs », explique Kush Varshney, boursier IBM. L’auto-évaluation de l’IA est prometteuse d’une plus grande efficacité, mais elle comporte également des risques importants. M. Varshney et son équipe d'IBM sont en train de développer des indicateurs d'évaluation pour les modèles LLM-as-a-judge, c'est-à-dire des modèles LLM capables d'évaluer d'autres résultats de l'IA. Pourtant, comme le dit M. Varshney, « il s’agit d’un problème de recherche ouvert ».
La question centrale est de savoir si l'on peut faire confiance aux modèles IA pour s'améliorer, ou s'ils risquent d'amplifier leurs propres erreurs.
« Pensez à placer un micro à proximité d'un haut-parleur », explique M. Varshney. « Dans tout système de commentaires, les erreurs ou le bruit sont amplifiés. »
L'évaluateur autodidacte de Meta tente d'atténuer ces risques en fournissant une piste de raisonnement, un peu comme si un humain expliquait son processus de pensée. Cependant, le fait de s'appuyer sur des données synthétiques et sur l'auto-amélioration soulève une question : les jugements du modèle sont-ils non biaisés ? Il en résulte un biais lorsque les productions d’un système d’IA reflètent des hypothèses injustes ou faussées, généralement en raison de données ou d’algorithmes biaisés.
« L'objectif doit être de rendre les juges de LLM non biaisés, nous devons donc évaluer leur biais », déclare Varshney. L'une des méthodes consiste à mélanger des réponses à choix multiples pour déterminer si un modèle présente un biais de position, c'est-à-dire s'il favorise une réponse plutôt qu'une autre. Tout comme le biais de verbosité et le biais d'auto-valorisation, les biais de position peuvent tous fausser les évaluations. « La gestion de ces risques fait partie du développement de l’IA », explique M. Varshney. L’avancement de l’IA responsable nécessite d’identifier et d’atténuer les biais.
Garantir une auto-évaluation fiable de l'IA est encore plus difficile dans des domaines spécialisés tels que les mathématiques avancées et la recherche scientifique. Cela signifie que des experts humains sont souvent nécessaires pour valider les résultats et assurer la fiabilité et le bon fonctionnement des systèmes d'IA.
« Il y a beaucoup d’ astuces pour essayer d’y parvenir, comme mélanger des réponses à choix multiples », explique M. Varshney.
Selon Dev Nag, fondateur et PDG de QueryPal, l'évaluateur autodidacte de Meta vise à amplifier et à élargir le jugement humain, et non à le retirer de la boucle.
« Voyez ça comme la façon dont un enseignant peut créer des problèmes d’entraînement basés sur sa compréhension de ce qui constitue une bonne ou une mauvaise réponse », explique M. Nag. « Tout comme AlphaGo a utilisé les règles du jeu de Go comme base avant de se lancer dans l'auto-apprentissage, l'évaluateur autodidacte s'appuie sur des critères de qualité établis par l'homme avant de générer des exemples d'entraînement synthétiques qui intègrent implicitement le jugement de l'homme. »
Même avec une IA qui s'autocontrôle, des audits périodiques peuvent permettre de déceler des biais ou des problèmes cachés, explique Dan O'Toole, PDG d'Arrive IA.
« Le fait d'utiliser plusieurs modèles IA pour effectuer la même évaluation de manière indépendante, ou de les enchaîner de manière séquentielle, réduit les erreurs et met en évidence les problèmes potentiels », dit-il. L'explicabilité est également essentielle. « La chaîne de pensée est une étape importante vers la transparence, qui accroît la fiabilité. »
M. O'Toole souligne que des indicateurs spécialisés sont essentiels dans des domaines tels que les mathématiques avancées et la recherche scientifique. Meta, par exemple, a utilisé MT-Bench et RewardBench pour une évaluation à usage général, explique-t-il, mais des de référence comme GSM8K sont appropriés pour la résolution de problèmes mathématiques. CRUXEval peut faciliter le raisonnement sur le code, tandis que des repères de référence spécifiques au domaine comme FactKB, PubMed et SciBench peuvent contribuer à garantir que les modèles répondent à des besoins spécifiques.
M. Nag souligne qu'il est crucial de mesurer les performances et de garantir la fiabilité, en particulier dans les domaines spécialisés. Il estime que le critère de référence ultime devrait être l'adéquation des résultats avec les évaluations effectuées par des experts humains dans le domaine.
« L’accord de 88,7 % de l’évaluateur autodidacte avec les jugements humains sur RewardBench constitue une base solide, mais suivre d’autres facteurs, comme la cohérence, l’explicabilité et la capacité du système à identifier les cas limites, est tout aussi important », dit-il. « Tout comme le jeu d'AlphaGo a été validé par ses performances face à des champions humains, les systèmes d'évaluation devraient être régulièrement testés face à des panels d'experts du domaine. »
Jen Clark, qui dirige les services de conseil et de technologie chez EisnerAmper, souligne que le développement de l’IA nécessite des cadres des exigences pour garantir à la fois la sécurité et un progrès efficace.
« Alors que l’IA continue de progresser, il est essentiel de s’appuyer sur des méthodologies qui ont soutenu la recherche humaine, comme la méthode scientifique, les communautés fortes et les réseaux de collaboration », ajoute-t-elle. « Il est crucial de concentrer les efforts sur ce point pour assurer la sécurité de l’IA et gérer la vitesse et l’échelle du développement de l’IA. »
