On parle de biais dans les données lorsque les biais présents dans les jeux de données d’entraînement et d’optimisation des modèles d’intelligence artificielle (IA) ont un effet négatif sur le comportement du modèle.
Les modèles d’IA sont des programmes entraînés sur des jeux de données pour reconnaître certains schémas ou prendre certaines décisions. Ils appliquent différents algorithmes aux entrées de données pour assurer les tâches ou les sorties pour lesquelles ils ont été programmés.
Si le modèle d’IA est entraîné sur des données biaisées, comme les biais historiques ou de représentation, les sorties sont susceptibles d’être biaisées ou faussées et représenter injustement ou discriminer certains groupes ou individus. Ces impacts érodent la confiance dans l’IA et dans les entreprises qui l’utilisent. Ils peuvent également entraîner des sanctions juridiques et réglementaires pour les entreprises.
Les biais dans les données sont un aspect important à considérer dans les secteurs à fort enjeu, tels que la santé, les ressources humaines et la finance, qui utilisent de plus en plus l’IA pour éclairer la prise de décision. En identifiant et en comprenant les différents types de biais dans les données et comment ils se produisent, les organisations peuvent les atténuer et les gérer tout au long du cycle de vie de l’IA.
Les données biaisées peuvent engendrer des systèmes d’IA injustes, inexacts et peu fiables, avec de graves conséquences pour les individus, les entreprises et la société. Voici quelques risques liés aux données biaisées :
La présence de données biaisées dans les systèmes d’IA est susceptible de perpétuer les préjugés existants et de favoriser un traitement injuste, fondé sur des critères comme le sexe, l’âge, l’appartenance raciale ou ethnique. Les groupes marginalisés peuvent être sous-représentés ou exclus des données, avec pour conséquence des décisions qui ne répondent pas aux besoins réels de la population.
Par exemple, un algorithme de recrutement principalement entraîné sur les données d’une main-d’œuvre masculine homogène peut favoriser la candidature des hommes au détriment des femmes qualifiées pour occuper le poste en question, perpétuant les inégalités hommes-femmes au travail.
Les modèles d’IA entraînés sur des données biaisées sont susceptibles de produire des sorties incorrectes et d’amener les entreprises à prendre de mauvaises décisions ou à proposer des solutions inefficaces. Par exemple, les entreprises s’appuyant sur des analyses prédictives biaisées peuvent mal interpréter les tendances du marché, rater le lancement de leurs produits ou mal allouer leurs ressources.
Un biais dans les données peut entraîner un examen plus approfondi par les autorités de régulation, des problèmes de conformité juridique et des sanctions financières importantes. Par exemple, en vertu de la loi européenne sur l’IA, ne pas se conformer aux pratiques interdites en matière d’IA peut entraîner des amendes pouvant atteindre 35 000 000 euros ou 7 % du chiffre d’affaires annuel mondial, selon le montant le plus élevé.
Les organisations qui enfreignent les lois locales et régionales risquent également de voir leur réputation et la confiance de leurs clients s’éroder. Prenons l’exemple d’une entreprise de vente au détail reconnue coupable de discrimination pour avoir utilisé un modèle de tarification basé sur l’IA qui facturait des prix plus élevés à certains groupes démographiques. Cette situation peut entraîner une crise de relations publiques pour l’entreprise, portant préjudice à son image de marque et à la fidélité de sa clientèle.
Les données biaisées peuvent éroder la confiance dans les systèmes d’IA. Les cas graves ou répétés de décisions biaisées ou inexactes pilotées par l’IA peuvent pousser les individus et les communautés à douter de l’intégrité de l’entreprise qui déploie l’IA. On risque également de se montrer de plus en plus sceptique quant à la fiabilité et à l’équité de l’IA en général, et donc de plus en plus réticent à adopter cette technologie.
Les systèmes d’IA qui utilisent des résultats biaisés comme données d’entrée pour la prise de décision créent une boucle de rétroaction qui peut également renforcer les biais au fil du temps. Ce cycle, dans lequel l’algorithme apprend et perpétue en permanence les mêmes modèles biaisés, conduit à des résultats de plus en plus biaisés.
Par exemple, une discrimination historique telle que le redlining (le refus de services financiers à certaines personnes en raison de leur appartenance à une ethnie) peut être instillée dans les données d’entraînement d’un modèle d’IA chargé de prendre des décisions en matière de prêts bancaires. En traitant les demandes à l’aide de ces données, les systèmes d’IA peuvent injustement pénaliser les personnes qui présentent les caractéristiques socioéconomiques des personnes autrefois victimes de « redlining ». Les données issues de ces refus de prêt plus récents peuvent alimenter les futures décisions de l’IA et entretenir un cycle où les membres des groupes sous-représentés continuent de disposer d’un accès limité au prêt.
Si les biais dans les données, les biais de l'IA et les biais algorithmiques peuvent tous aboutir à des résultats distordus et avoir des effets négatifs, il convient de noter qu'il existe des distinctions subtiles entre ces différents types de biais.
Les biais de l’IA, également appelés biais de machine learning, est un terme générique désignant les différents types de biais associés aux systèmes d’intelligence artificielle. Il désigne l’apparition de résultats biaisés en raison de préjugés humains qui faussent les données d’entraînement initiales ou l’algorithme d’IA.
Le biais algorithmique est un sous-ensemble du biais de l’IA qui se produit lorsque des erreurs systématiques dans les algorithmes de machine learning produisent des résultats inéquitables ou discriminatoires. Le biais algorithmique n’est pas causé par les algorithmes eux-mêmes, mais par la manière dont les développeurs collectent et codent les données d’entraînement.
Les biais dans les données relèvent également des biais de l’IA et peuvent engendrer des biais algorithmiques. On parle de biais dans les données pour désigner la nature biaisée ou non représentative des données utilisées pour entraîner un modèle d’IA.
Comprendre et corriger les différents types de biais permet de créer des systèmes d’IA précis et dignes de confiance. Voici quelques types courants de biais présents dans les données :
Lorsque les individus traitent des informations et portent des jugements, ils sont inévitablement influencés par leurs expériences et leurs préférences. Par conséquent, ils pourraient introduire ces préjugés dans les systèmes IA au niveau de la sélection des données ou dans la manière dont elles effectuent les pondérations. La prédominance des biais cognitifs peut conduire à des erreurs systématiques, notamment en favorisant l'utilisation d'ensembles de données provenant majoritairement d'Américains, au détriment d'un échantillonnage plus représentatif de la population mondiale.
Un biais d'automatisation se produit lorsque les utilisateurs accordent une confiance excessive aux technologies automatisées, ce qui peut les amener à accepter sans discernement leurs résultats, contribuant ainsi à perpétuer et amplifier les biais présents dans les données. Dans le secteur de la santé, un médecin pourrait, par exemple, se fier de manière excessive aux suggestions de traitement proposées par un outil de diagnostic IA. Si le médecin ne vérifie pas les résultats de l'outil de diagnostic IA au regard de son expérience clinique, il pourrait potentiellement poser un diagnostic erroné au patient, notamment si la décision de l'outil est basée sur des données biaisées.
On parle de biais de confirmation lorsque les données sont incluses de manière sélective pour confirmer des croyances ou des hypothèses préexistantes. Prenons l’exemple de la police prédictive : si les forces de l’ordre concentrent la collecte de données sur les quartiers dont le taux de criminalité est historiquement élevé, il s’agit d’un biais de confirmation. Cela se traduit par un contrôle policier excessif en raison de l’inclusion sélective de données qui soutiennent les hypothèses existantes à l’égard de ces quartiers.
On parle de biais d’exclusion lorsque des données importantes ne sont pas prises en compte dans les jeux de données. Dans la prévision économique, l’exclusion systématique des données concernant les zones à faibles revenus engendre des jeux de données peu représentatifs de la population et entraîne des prévisions en faveur des zones plus aisées.
On parle de biais historique, ou temporel, lorsque les données reflètent des inégalités ou des biais historiques, qui existaient lors de la collecte des données, par opposition au contexte actuel. Prenons comme exemple les systèmes de recrutement pilotés par l’IA et entraînés sur des données d’emploi historiques. Dans ces jeux de données, les personnes de couleur peuvent être sous-représentées parmi les cadres supérieurs, et le modèle est susceptible de perpétuer cette inégalité.
Les biais implicites, issus des expériences personnelles plutôt que des données générales, peuvent contaminer la conception et l'évaluation des modèles de ML. Par exemple, un système d'IA conçu pour évaluer des candidats à un emploi pourrait accorder une préférence aux CV présentant un style d'écriture masculin, illustrant ainsi le biais implicite du développeur, malgré l'absence de considération explicite du genre dans le modèle.
On parle de biais de mesure lorsque l’exactitude ou la qualité des données diffèrent d’un groupe à l’autre, ou lorsque les variables clés de l’étude sont mesurées ou classées de manière inexacte. Par exemple, un modèle d’admission à l’université dont le principal facteur de sélection est la moyenne ne prend pas en compte le fait qu’une moyenne élevée est plus difficile à obtenir dans certains établissements que dans d’autres. Un étudiant avec une moyenne plus faible, mais une charge de travail plus importante dans un établissement, peut s’avérer plus compétent qu’un étudiant ayant obtenu une moyenne plus élevée, mais avec une charge de travail plus modeste ailleurs. En mettant l’accent sur la moyenne, le modèle peut ne pas tenir compte de cette possibilité dans sa prise de décision.
Le biais de déclaration se manifeste lorsque la fréquence des événements ou des résultats dans les données ne représente pas fidèlement leur fréquence réelle. Ce biais survient fréquemment lorsque des humains sont impliqués dans la sélection des données, car les individus sont plus enclins à documenter les preuves qui leur semblent importantes ou mémorables.
Par exemple, un modèle d'analyse des sentiments est entraîné pour prédire la polarité, positive ou négative, des évaluations de produits sur un grand site de commerce électronique. Les avis sur des produits similaires dans l'ensemble de données d'entraînement sont majoritairement extrêmes car les utilisateurs sont moins susceptibles de laisser un avis s'ils n'ont pas eu une réaction forte, ce qui rend les prédictions du modèle moins fiables.
On parle de biais de sélection lorsque le jeu de données d’entraînement n’est pas assez représentatif, grand ou complet pour entraîner suffisamment le système. Par exemple, l’entraînement d’une voiture autonome sur des données de conduite en journée ne prend pas en compte tous les scénarios auquel le véhicule peut être réellement confronté.
Le biais d’échantillonnage est un type de biais de sélection qui se produit lorsque la collecte de données se fait sans randomisation appropriée et que certaines informations sont plus susceptibles d’être incluses que d’autres. Par exemple, si un système d’IA conçu pour prédire le risque cardiovasculaire est entraîné uniquement sur les données de patients de sexe masculin âgés de 40 à 60 ans, il est susceptible de fournir des prévisions inexactes. Ce système affecterait particulièrement les femmes et les personnes des autres groupes d’âge.
L’atténuation des biais dans l’IA commence par la gouvernance de l’IA. La gouvernance de l’IA fait référence aux directives qui contribuent à garantir la sécurité et l’éthique des outils et systèmes d’IA. Les pratiques d’IA responsables, qui s’appuient sur la transparence, la responsabilité et les considérations éthiques, peuvent guider les organisations dans la gestion des complexités de l’atténuation des biais.
Les entreprises doivent mettre en œuvre des stratégies et des pratiques robustes visant à identifier, à réduire et à gérer les biais tout au long de la collecte et de l’analyse des données :
Une représentation diversifiée dans les sources de données contribue à réduire les biais. Le processus de collecte de données doit inclure un large éventail de données démographiques, de contextes et de conditions, tous étant représentés de manière adéquate. Par exemple, si les données collectées pour les outils de reconnaissance faciale sont majoritairement constituées d'images de personnes blanches, le modèle pourrait ne pas reconnaître ou différencier correctement les visages noirs.
Les vérifications de biais permettent aux organisations d’évaluer régulièrement leurs données et leurs algorithmes pour détecter les biais potentiels, en examinant les résultats et les sources de données à la recherche d’indicateurs de traitement inéquitable au sein de différents groupes démographiques. La surveillance continue des performances des différents groupes démographiques permet de détecter et de traiter les divergences dans les résultats, afin de s’assurer que les biais présents sont identifiés et éliminés en temps voulu.
La documentation des méthodes de collecte de données et du processus de décision des algorithmes améliore la transparence, en particulier en ce qui concerne l'identification et la résolution des biais potentiels. Les politiques de données ouvertes peuvent faciliter l'examen et la critique externes, favorisant ainsi l'obligation de rendre compte dans la collecte et l'analyse des données, ce qui est essentiel pour renforcer la confiance dans les systèmes d'IA.
L’utilisation d’outils et de cadres d’équité algorithmique permet de détecter et de réduire les biais dans les modèles de machine learning. AI Fairness 360, une boîte à outils open source développée par IBM, fournit divers indicateurs pour détecter les biais dans les jeux de données et les modèles de machine learning, ainsi que des algorithmes pour atténuer les biais et promouvoir l’équité. La mise en œuvre de méthodes statistiques pour évaluer l’équité des prédictions dans différents groupes démographiques permet d’améliorer davantage l’objectivité.
Encourager la diversité au sein des équipes de science des données et d'analytique introduit diverses perspectives et peut réduire le risque de biais. Les équipes diversifiées sont plus aptes à reconnaître et à traiter les biais potentiels dans les ensembles de données et les algorithmes car elles s'appuient sur un éventail plus large d'expériences et de points de vue. Par exemple, une équipe composée de membres issus de milieux raciaux, sexuels et socio-économiques différents est plus susceptible d'identifier les domaines où les données pourraient mal représenter ou négliger certains groupes de personnes.
Les données synthétiques sont des données générées artificiellement par simulation informatique ou par le biais d’algorithmes pour remplacer les points de données collectés lors d’événements réels. Les data scientists se tournent souvent vers les données synthétiques lorsque les données ne sont pas facilement disponibles. En outre, elles permettent d’assurer une meilleure protection des données. Les données synthétiques contribuent à atténuer les biais puisqu’elles permettent de créer des jeux de données équilibrés, qui incluent les groupes et les scénarios sous-représentés, afin de garantir des résultats plus équitables.
Gouvernez les modèles d’IA générative où que vous soyez et déployez-les dans le cloud ou sur site avec IBM watsonx.governance.
Découvrez comment la gouvernance de l’IA peut contribuer à renforcer la confiance de vos employés dans l’IA, à accélérer l’adoption et l’innovation, et à améliorer la confiance des clients.
Préparez-vous à la loi européenne sur l’IA et adoptez une approche responsable de la gouvernance de l’IA avec IBM Consulting.