Accueil
Think
Thèmes
Biais algorithmique
Date de publication : 20 septembre 2024
Collaboratrices : Alexandra Jonker, Julie Rogers
On parle de « biais algorithmique » lorsque des erreurs systématiques dans les algorithmes de machine learning produisent des résultats injustes ou discriminatoires. Ce phénomène reflète ou renforce souvent les préjugés socioéconomiques, ethniques et sexistes existants.
Les systèmes d’intelligence artificielle (IA) utilisent des algorithmes pour identifier des modèles et des informations dans les données, ou pour prédire des valeurs de sortie à partir d’un ensemble donné de variables d’entrée. Les algorithmes biaisés peuvent avoir une incidence sur ces informations et ces résultats et aboutir à des décisions ou à des actions préjudiciables, promouvoir ou perpétuer la discrimination et les inégalités, et éroder la confiance dans l’IA et dans les institutions qui l’utilisent. Dans ce contexte, les entreprises encourent des risques juridiques et financiers. Par exemple, selon la loi européenne sur l’IA, le non-respect des pratiques interdites en matière d’IA peut entraîner des amendes allant jusqu’à 35 000 000 euros ou 7 % du chiffre d’affaires annuel mondial, le montant le plus élevé étant retenu.
Le biais algorithmique est particulièrement préoccupant lorsqu’il apparaît au sein des systèmes d’IA qui soutiennent les décisions ayant d’importantes répercussions sur la vie des gens, dans des secteurs tels que la santé, l’application de la loi et les ressources humaines. Les biais peuvent entrer dans les algorithmes de différentes manières, par exemple des données d’entraînement biaisées ou limitées, des décisions de programmation subjectives ou l’interprétation des résultats.
Afin de limiter le biais algorithmique, il convient d’abord d’appliquer les principes de gouvernance de l’IA, notamment la transparence et l’explicabilité, tout au long du cycle de vie de l’IA.
Le biais algorithmique n’est pas causé par les algorithmes eux-même, mais par la manière dont l’équipe de science des données collecte et code les données d’entraînement. Les causes sont :
On parle de données erronées lorsqu’elles ne sont pas représentatives, qu’elles manquent d’informations, qu’elles sont historiquement biaisées ou qu’elles sont autrement « mauvaises »1. Il en résulte des algorithmes qui produisent des résultats injustes et amplifient tout biais dans les données. Les systèmes d’IA qui utilisent des résultats biaisés comme données d’entrée pour la prise de décision créent une boucle de rétroaction qui peut également renforcer les biais au fil du temps. Ce cycle, dans lequel l’algorithme apprend et perpétue en permanence les mêmes modèles biaisés, conduit à des résultats de plus en plus biaisés.
Des biais peuvent également survenir au cours de la phase d’entraînement si les données sont mal catégorisées ou évaluées. Il arrive que les algorithmes « apprennent » de la corrélation des données plutôt que de la causalité, car ils ne sont pas aptes à comprendre la différence. Dans ce cas, les productions de l’algorithme peuvent être biaisées dans la mesure où le modèle n’a pas pris en compte d’autres facteurs potentiellement plus importants dans les données.
Un exemple couramment cité de biais de corrélation est un modèle hypothétique qui établit un lien de causalité entre l’augmentation des attaques de requins et l’augmentation des ventes de glaces. En réalité, les deux situations ont tendance à se produire pendant l’été et présentent seulement une relation de corrélation.
La conception des algorithmes peut également introduire des biais. Des erreurs de programmation, telles que le fait pour un concepteur d’IA de pondérer injustement des facteurs dans le processus de prise de décision, peuvent être introduites dans le système de manière involontaire. La pondération est une technique qui permet généralement d’éviter les biais, car elle nécessite d’ajuster les données de manière à ce qu’elles représentent mieux la population réelle. Cependant, les concepteurs peuvent être amenés à formuler des hypothèses, ce qui peut entraîner des inexactitudes et introduire des biais. Les développeurs peuvent également intégrer aux algorithmes des règles subjectives basées sur leurs propres préjugés conscients ou inconscients.
Les systèmes d’IA utilisent parfois des variables dites « proxys » pour les attributs protégés, tels que l’ethnie ou le sexe. Cependant, les proxys peuvent être involontairement biaisés, car ils peuvent présenter une corrélation fausse ou accidentelle avec les attributs sensibles qu’ils sont censés remplacer. Par exemple, si un algorithme utilise les codes postaux en tant que proxy du statut économique, il pourrait injustement désavantager certains groupes si les codes postaux sont associés à des données démographiques ethniques particulières.
Des biais d’évaluation se produisent lorsque les résultats des algorithmes sont interprétés sur la base des idées préconçues des personnes impliquées, plutôt que de conclusions objectives. Même si l’algorithme est neutre et repose sur des données, la manière dont une personne ou une entreprise applique les résultats de l’algorithme peut conduire à des résultats injustes en fonction de la manière dont elle comprend les résultats.
Lorsque le biais algorithmique n’est pas corrigé, il peut perpétuer la discrimination et les inégalités, causer des dommages juridiques, nuire à la réputation et éroder la confiance.
Les décisions algorithmiques biaisées renforcent les disparités sociétales que subissent les groupes marginalisés, et ces préjugés humains conduisent à des résultats injustes et potentiellement nuisibles de la part des systèmes d’IA. Si bon nombre des applications d’IA les plus courantes peuvent sembler dépourvues de réels enjeux (par exemple les moteurs de recherche, les chatbots et les réseaux sociaux), d’autres peuvent peser sur des décisions qui changent le cours d’une vie. L’utilisation d’outils d’IA biaisés dans des domaines tels que la justice pénale, les soins de santé et le recrutement pourrait donner des résultats dévastateurs.
Par exemple, la marginalisation des Afro-Américains dans le passé se reflète dans les données historiques sur les arrestations à Oakland, en Californie, aux États-Unis. Si ces données sont utilisées pour entraîner un algorithme de police prédictive (PPA), les décisions sont susceptibles de refléter et de renforcer ces préjugés ethniques passés.
Les organisations qui utilisent des systèmes d’IA biaisés pourraient subir des sanctions juridiques et un préjudice de réputation, car les recommandations biaisées peuvent avoir ce que l’on appelle un « impact disparate ». Ce terme juridique fait référence à des situations où des politiques et des pratiques en apparence neutres peuvent affecter de manière disproportionnée des personnes appartenant à des groupes protégés, tels que ceux susceptibles de faire l’objet d’une discrimination fondée sur l’ethnie, la religion, le sexe ou d’autres caractéristiques.
Les groupes protégés pénalisés par des décisions d’IA biaisées pourraient intenter des actions en justice, ce qui pourrait entraîner des responsabilités financières importantes, une atteinte à la réputation à long terme et une condamnation pour les parties prenantes. Les organisations s’exposent également à des sanctions financières s’il s’avère qu’elles enfreignent les lois antidiscrimination applicables.
Les résultats biaisés des outils d’IA érodent la confiance dans l’IA de nombreuses façons. S’il s’avère qu’une organisation dispose de systèmes d’IA biaisés, les parties prenantes au sein de l’entreprise risquent de perdre confiance dans les processus de prise de décision algorithmiques. Ces parties prenantes pourraient également estimer que la valeur d’optimisation de l’IA ne l’emporte plus sur les risques qu’elle comporte et perdre confiance dans la technologie en général.
Le biais algorithmique peut également entraîner une perte de confiance de la part des clients. Il suffit d’un seul cas de discrimination pour ruiner la réputation d’une marque, surtout dans une ère où les nouvelles se répandent rapidement. Il est particulièrement important de conserver la confiance dans l’IA auprès des groupes marginalisés tels que les personnes de couleur, qui subissent déjà des préjugés et des discriminations dans le monde réel.
Le biais algorithmique peut se produire dans n’importe quel scénario ou secteur où un système IA est utilisé pour prendre des décisions. Voici quelques exemples de biais algorithmique dans le monde réel :
Les tribunaux américains utilisent l’outil COMPAS (« Correctional Offender Management Profiling for Alternative Sanctions ») pour évaluer le risque de récidive des accusés. Une étude de ProPublica a révélé la possibilité que l’algorithme ait classé les accusés blancs et les accusés noirs différemment. Par exemple, dans l’évaluation des risques, les accusés noirs étaient deux fois plus susceptibles que les accusés blancs d’être classés à tort comme présentant un risque plus élevé de récidive violente. L’entreprise qui a créé l’outil conteste cette analyse, mais elle ne divulgue pas les méthodes utilisées pour obtenir les scores de risque2.
Les chercheurs ont mis au point leur propre algorithme de police prédictive, en l’entraînant avec les données de rapports de victimes de Bogotá, en Colombie. Or, ils se sont aperçus que les prédictions du modèle étaient largement erronées lorsqu’ils les ont comparées aux données réelles sur la criminalité. Par exemple, il a prédit 20 % de lieux à forte criminalité de plus que la réalité dans les districts présentant un volume élevé de signalements. Cela reflétait un biais social, à savoir que les personnes noires sont plus susceptibles d’être dénoncées pour un crime que les personnes blanches3.
Dans le secteur de la santé, la sous-représentation des groupes minoritaires dans les données peut fausser les algorithmes d’IA prédictive. Il a ainsi été constaté que les systèmes de diagnostic assisté par ordinateur fournissaient des résultats moins précis pour les patients noirs que pour les patients blancs.
Amazon a abandonné un outil de recrutement basé sur l’IA après avoir découvert qu’il était systématiquement discriminatoire à l’égard des femmes qui postulaient à un emploi. Les développeurs ont entraîné l’algorithme de recrutement en utilisant les CV des anciennes recrues, qui étaient principalement des hommes. Par conséquent, l’algorithme favorisait injustement les mots-clés et les caractéristiques trouvés dans les CV des hommes4.
Les biais au sein des services financiers peuvent avoir de graves conséquences sur les moyens de subsistance des individus, car les données historiques peuvent contenir des biais démographiques affectant la solvabilité, les accords de prêts et plus encore. Par exemple, une étude de l’université de Californie à Berkeley a montré qu’un système d’IA utilisé pour les prêts immobiliers appliquait systématiquement des taux plus élevés aux emprunteurs issus de minorités qu’aux emprunteurs blancs pour les mêmes prêts5.
Des chercheurs universitaires ont constaté des biais liés au genre dans le générateur d’images par IA Midjourney. En analysant plus de 100 images, ils ont également découvert des cas de biais liés à l’ethnie, à la classe sociale et à l’âge dans les résultats. Par exemple, lorsqu’on lui a demandé de créer des images de personnes exerçant des professions spécialisées, l’application montrait à la fois des personnes plus jeunes et plus âgées, mais les personnes âgées étaient toujours des hommes, ce qui renforçait les préjugés sexistes à l’égard des femmes sur le lieu de travail6.
Les recherches du MIT ont révélé que certains systèmes de reconnaissance faciale grand public, utilisés pour faire correspondre les visages sur les photos, par exemple, n’étaient pas capables de reconnaître les personnes à la peau plus foncée. La reconnaissance était encore pire pour les femmes à la peau plus foncée. Le fait que les données d’entraînement n’étaient pas représentatives des données démographiques réelles a faussé les résultats7.
Après qu’une loi de Chicago a contraint les sociétés de VTC à divulguer leurs tarifs, les chercheurs ont découvert que l’algorithme de tarification d’Uber et de Lyft facturait davantage pour les déposes dans les quartiers à forte population non blanche8.
La réduction des biais dans les systèmes d’IA commence par la gouvernance de l’IA, c’est-à-dire les garde-fous qui garantissent que les outils et les systèmes d’IA sont et restent sûrs et éthiques. Elle établit les cadres, les règles et les normes qui dirigent la recherche, le développement et l’application de l’IA pour assurer la sécurité, l’équité et le respect des droits humains.
Les organisations peuvent envisager de mettre en œuvre les principes de gouvernance suivants afin d’éviter les biais potentiels tout au long du cycle de vie des systèmes d’IA :
La qualité du machine learning dépend des données qui l’entraînent. Pour que l’IA reflète mieux les diverses communautés qu’elle sert, un éventail beaucoup plus large de données humaines doit être représenté dans les modèles. Les données alimentant les modèles de machine learning et les systèmes d’apprentissage profond doivent être complètes et équilibrées, représenter tous les groupes de personnes et refléter la démographie réelle de la société.
Aucun système informatique n’est jamais entièrement « entraîné » ou « fini ». Une surveillance et des tests continus (par le biais d’initiatives telles que les évaluations d’impact, les audits algorithmiques et les tests de causalité) peuvent contribuer à détecter et à corriger les biais potentiels avant que des problèmes apparaissent. Les processus tels que le système « human-in-the-loop » (« humain dans la boucle ») exigent que les recommandations soient examinées par des humains avant qu’une décision ne soit prise, afin de fournir un niveau supplémentaire d’assurance qualité.
Les systèmes d’IA peuvent s’apparenter à des « boîtes noires », ce qui rend difficile la compréhension de leurs résultats. Les plus transparents documentent et expliquent clairement la méthodologie de l’algorithme sous-jacent et les personnes qui l’ont entraîné. Plus les gens comprennent comment les systèmes d’IA sont entraînés et optimisés et comment ils prennent les décisions, plus les parties prenantes et la société dans son ensemble peuvent faire confiance à la précision et à l’équité de l’IA.
La mise en place d’une IA inclusive commence par une équipe diversifiée et interdisciplinaire de programmeurs d’IA, de développeurs, de data scientists, d’ingénieurs ML et plus encore, qui présentent une diversité ethnique, économique, de niveau d’études, de sexe, de fonction et d’autres indicateurs démographiques. La diversité au sein de la conception et du développement apportera des perspectives différentes qui permettront d’identifier et d’atténuer les biais qui pourraient autrement passer inaperçus.
Les gouvernements et les décideurs politiques mettent au point des cadres et des réglementations en matière d’IA pour orienter et, dans certains cas, faire appliquer l’utilisation sûre et responsable de l’IA. Voici quelques exemples :
Maintenant disponible : gérez les modèles d’IA générative créés sur n’importe quelle plateforme et déployés dans le cloud ou sur site.
Créez et entraînez rapidement des modèles prédictifs de haute qualité. Simplifiez la gestion du cycle de vie de l’IA.
L’intelligence artificielle (IA) permet aux ordinateurs de simuler l’apprentissage, la compréhension, la résolution de problèmes et la créativité des humains.
Le machine learning est une branche de l’intelligence artificielle qui se concentre sur l’utilisation d’algorithmes pour permettre à l’IA d’imiter la façon dont les humains apprennent.
Le biais d’IA fait référence à l’apparition de résultats biaisés en raison de préjugés humains, ce qui entraîne des résultats faussés et des conséquences potentiellement néfastes.
La prise de décision fondée sur les données (DDDM) est une approche qui met l’accent sur l’utilisation des données et des analyses plutôt que sur l’intuition pour éclairer les décisions métier.
L’intelligence artificielle (IA) responsable est un ensemble de principes qui guident la conception, le développement, le déploiement et l’utilisation de l’IA.
La gestion des risques liés à l’IA est le processus d’identification, d’atténuation et de traitement systématique des risques potentiels associés aux technologies d’IA.
Tous les liens sont externes au site ibm.com
1. « Algorithmic Bias: A New Legal Frontier », International Association of Defense Counsel, 2019.
2. « How We Analyzed the COMPAS Recidivism Algorithm », ProPublica, 23 mai 2016.
3. « Predictive policing is still racist—whatever data it uses », MIT Technology Review, 5 février 2021.
4. « Why Amazon’s Automated Hiring Tool Discriminated Against Women », ACLU, 12 octobre 2018.
5. « AI is Making Housing Discrimination Easier Than Ever Before », The Kreisman Initiative for Housing Law and Policy, University of Chicago, 12 février 2024.
6. « Ageism, sexism, classism and more: 7 examples of bias in AI-generated images », The Conversation, 9 juillet 2023.
7. « Algorithmic bias detection and mitigation: Best practices and policies to reduce consumer harms », Brookings, 22 mai 2019.
8. « Algorithmic Bias Explained », The Greenlining Institute, février 2021.
9. « Algorithmic Impact Assessments Report: A Practical Framework for Public Agency Accountability », AI Now Institute, 9 avril 2018.