Tout le monde souhaite voir ses valeurs humaines idéales reflétées dans les technologies. Nous attendons des technologies telles que l’intelligence artificielle (IA) qu’elles ne nous mentent pas, qu’elles ne pratiquent pas la discrimination et qu’elles soient sûres pour nous et nos enfants. Pourtant, de nombreux créateurs d’IA sont actuellement confrontés à des réactions négatives en raison des biais, des inexactitudes et des pratiques problématiques en matière de données qui sont révélés dans leurs modèles. Ces problèmes nécessitent plus qu’une solution technique, algorithmique ou basée sur l’IA. En réalité, c’est une approche socio-technique holistique qui s’impose.
Tous les modèles prédictifs, dont l’IA, sont plus précis lorsqu’ils intègrent l’intelligence et l’expérience humaines dans toute leur diversité. Il ne s’agit pas d’une opinion, mais d’une validité empirique. Prenons le théorème de prédiction de la diversité. En termes simples, lorsque la diversité d’un groupe est grande, l’erreur de la foule est faible, ce qui confirme le concept de « sagesse de la foule ». Une étude influente a montré que des groupes diversifiés de personnes peu douées en résolution de problèmes peuvent surpasser des groupes de personnes très douées en la matière (Hong & Page, 2004).
En langage mathématique, plus votre variance est large, plus votre moyenne est standard. L’équation se présente comme suit :
Où
c = la prédiction moyenne de la foule
𝜽 = la valeur réelle
si = la prédiction du nième individu
n = le nombre d’individus
Une étude complémentaire a fourni d’autres calculs qui affinent les définitions statistiques d’une foule sage, notamment l’ignorance des prédictions des autres membres et l’inclusion de ceux dont les prédictions ou les jugements sont les plus différents (corrélés négativement). Ce n’est donc pas seulement le volume, mais aussi la diversité qui améliore les prédictions. Comment cette idée peut-elle influencer l’évaluation des modèles d’IA ?
Pour citer un aphorisme courant, tous les modèles sont faux. Cela vaut pour les domaines des statistiques, des sciences et de l’IA. Les modèles créés sans expertise dans le domaine peuvent conduire à des résultats erronés.
Aujourd’hui, un petit groupe homogène de personnes détermine les données à utiliser pour entraîner les modèles d’IA générative, qui proviennent de sources largement dominées par l’anglais. « Pour la plupart des plus de 6 000 langues existant dans le monde, les données textuelles disponibles ne sont pas suffisantes pour entraîner un modèle de fondation à grande échelle » (extrait de « On the Opportunities and Risks of Foundation Models », Bommasani et al., 2022).
De plus, les modèles eux-mêmes sont créés à partir d’architectures limitées : « Presque tous les modèles de TALN de pointe sont désormais adaptés à partir de l’un des quelques modèles de fondation, tels que BERT, RoBERTa, BART, T5, etc. Si cette homogénéisation produit un effet de levier extrêmement élevé (toute amélioration des modèles de fondation peut entraîner des avantages immédiats pour l’ensemble du TALN), elle constitue également un inconvénient : tous les systèmes d’IA pourraient hériter des mêmes biais problématiques de quelques modèles de fondation (Bommasani et al.) ».
Pour que l’IA générative reflète mieux les diverses communautés qu’elle sert, un éventail beaucoup plus large de données humaines doit être représenté dans les modèles.
L’évaluation de la précision des modèles va de pair avec l’évaluation des biais. Nous devons donc nous demander quel est l’objectif du modèle et pour qui il est optimisé. Prenons par exemple les algorithmes de recommandation de contenu et les algorithmes des moteurs de recherche : qui en tire le plus grand bénéfice ? Les parties prenantes peuvent avoir des intérêts et des objectifs très différents. Les algorithmes et les modèles nécessitent des cibles ou des proxys pour l’erreur de Bayes : l’erreur minimale qu’un modèle doit améliorer. Ce proxy est souvent une personne, telle qu’un expert en la matière possédant une expertise dans le domaine.
Les nouvelles réglementations et les plans d’action en matière d’IA soulignent de plus en plus l’importance des formulaires d’évaluation de l’impact des algorithmes. L’objectif de ces formulaires est de recueillir des informations essentielles sur les modèles d’IA afin que les équipes de gouvernance puissent évaluer et traiter leurs risques avant de les déployer. Voici quelques questions types :
Bien que conçus avec de bonnes intentions, le problème est que la plupart des propriétaires de modèles d’IA ne comprennent pas comment évaluer les risques liés à leur cas d’utilisation. Une objection courante pourrait être : « Comment mon modèle pourrait-il être injuste s’il ne recueille pas de données personnelles ? » Par conséquent, les formulaires sont rarement remplis avec la rigueur nécessaire pour que les systèmes de gouvernance puissent signaler avec précision les facteurs de risque.
Ainsi, la nature socio-technique de la solution est mise en évidence. Un propriétaire de modèle, c’est-à-dire un individu, ne peut pas se contenter d’une liste de cases à cocher pour évaluer si son cas d’utilisation causera un préjudice. Ce qu’il faut plutôt, ce sont des groupes de personnes ayant des expériences de vie très variées, réunies en communautés bienveillantes en vue d’avoir des conversations difficiles sur l’impact disproportionné.
IBM croit en une approche « client zéro », mettant en œuvre les recommandations et les systèmes que l’entreprise proposerait à ses propres clients dans le cadre de solutions de conseil et de produits. Cette approche s’étend aux pratiques éthiques, c’est pourquoi IBM a créé un centre d’excellence (COE) dédié à l’IA digne de confiance.
Comme expliqué ci-dessus, la diversité des expériences et des compétences est essentielle afin d’évaluer correctement les effets de l’IA. Cependant, la perspective de participer à un centre d’excellence peut être intimidante dans une entreprise qui regorge d’innovateurs, d’experts et d’ingénieurs émérites dans le domaine de l’IA. Il est donc nécessaire de cultiver une communauté où règne un climat bienveillant. IBM le communique clairement en disant : « Vous vous intéressez à l’IA ? Vous vous intéressez à l’éthique de l’IA ? Vous avez votre place à cette table. »
Le COE propose des formations en éthique de l’IA aux praticiens de tous niveaux, avec des programmes d’apprentissage synchrone (enseignant et étudiants en classe) et asynchrone (autoguidés).
Mais c’est la formation appliquée du COE qui donne à nos praticiens les connaissances les plus approfondies, car ils travaillent avec des équipes internationales, diversifiées et multidisciplinaires sur des projets réels afin de mieux comprendre l’impact disproportionné. Ils exploitent également les cadres de design thinking que le groupe Design for AI d’IBM utilise en interne et avec ses clients afin d’évaluer les effets indésirables des modèles d’IA, en gardant à l’esprit les personnes souvent marginalisées. (Voir Wheel of Power and Privilege de Sylvia Duckworth pour des exemples de la manière dont les caractéristiques personnelles se recoupent pour privilégier ou marginaliser certaines personnes). IBM a également fait don d’un grand nombre de ces cadres à la communauté open source Design Ethically.
Vous trouverez ci-dessous quelques-uns des rapports publiés par IBM sur ces projets :
Des outils automatisés de gouvernance des modèles d’IA sont nécessaires pour obtenir des informations importantes sur les performances de votre modèle d’IA. Mais notez qu’il est préférable d’identifier les risques bien avant que votre modèle ne soit développé et mis en production. La création de communautés de praticiens diversifiées et multidisciplinaires offrant un espace sûr où les gens peuvent avoir des conversations difficiles sur l’impact disproportionné vous permettra de commencer à mettre en œuvre vos principes et à développer l’IA de manière responsable.
Dans la pratique, lorsque vous recrutez des praticiens de l’IA, gardez à l’esprit que plus de 70 % des efforts nécessaires à la création de modèles consistent à sélectionner les bonnes données. Vous devez recruter des personnes qui savent comment collecter des données représentatives, tout en respectant le consentement des personnes concernées. Vous devez également rechercher des personnes qui savent travailler en étroite collaboration avec des experts du domaine afin de s’assurer qu’elles adoptent la bonne approche. Il est essentiel de s’assurer que ces praticiens possèdent l’intelligence émotionnelle nécessaire afin de sélectionner les données de manière responsable, avec humilité et discernement. Nous devons nous efforcer d’apprendre à reconnaître comment et quand les systèmes d’IA peuvent exacerber les inégalités, tout autant qu’ils peuvent renforcer l’intelligence humaine.
