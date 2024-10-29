Une IA boîte noire est un système d’IA dont le fonctionnement interne est un mystère pour ses utilisateurs. Ceux-ci peuvent voir les entrées et les sorties du système, mais pas ce qui se passe dans l’outil d’IA pour produire ces sorties.
Prenons l’exemple d’un modèle de boîte noire qui évalue les CV des candidats à un poste. Les utilisateurs peuvent voir les entrées, c’est-à-dire les CV qu’ils introduisent dans le modèle d’IA. Ils peuvent également voir les résultats, c’est-à-dire les évaluations que le modèle renvoie pour ces CV. Mais les utilisateurs ne savent pas exactement comment le modèle parvient à ses conclusions, c’est-à-dire les facteurs qu’il prend en compte, comment il les évalue, etc.
La plupart des modèles de machine learning les plus avancés disponibles aujourd’hui, y compris les grands modèles de langage tels que ChatGPT d’OpenAI et Llama de Meta, sont des IA boîte noire. Ces modèles d’intelligence artificielle sont entraînés sur des ensembles de données massifs via des processus d’apprentissage profond complexes, et même leurs propres créateurs ne comprennent pas entièrement comment ils fonctionnent.
Ces boîtes noires complexes peuvent livrer des résultats impressionnants, mais la fiabilité de leurs sorties est difficile à établir en raison de leur manque de transparence. La validation des sorties d’un modèle n’est pas aisée pour les utilisateurs s’ils ne savent pas ce qui se passe sous le capot. En outre, l’opacité d’un modèle de boîte noire peut masquer des vulnérabilités en matière de cybersécurité, des biais, des violations de la vie privée et d’autres problèmes.
Pour relever ces défis, les chercheurs en IA s’efforcent de développer des outils d’IA explicables qui équilibrent les performances des modèles avancés et la nécessité de transparence des résultats de l’IA.
Les modèles d’IA boîte noire apparaissent pour deux raisons : soit leurs développeurs les transforment volontairement en boîtes noires, soit ils deviennent des boîtes noires en tant que sous-produit de leur entraînement.
Certains développeurs et programmeurs d’IA masquent le fonctionnement interne des outils d’IA avant de les rendre accessibles au public. Cette tactique sert souvent à protéger la propriété intellectuelle. Les créateurs du système savent exactement comment il fonctionne, mais ils gardent le code source et le processus de prise de décision secret. C’est pourquoi de nombreux algorithmes d’IA traditionnels basés sur des règles sont des boîtes noires.
Cependant, bon nombre des technologies d’IA les plus avancées, y compris les outils d’IA générative, sont ce que l’on pourrait appeler des « boîtes noires organiques ». Les créateurs de ces outils ne masquent pas intentionnellement leurs opérations. En fait, les systèmes d’apprentissage profond qui alimentent ces modèles sont si complexes que même leurs créateurs ne comprennent pas exactement ce qui se passe à l’intérieur.
Les algorithmes d’apprentissage profond sont un type d’algorithme de machine learning qui utilise des réseaux neuronaux multicouches. Alors qu’un modèle de machine learning traditionnel peut utiliser un réseau à une ou deux couches, les modèles d’apprentissage profond peuvent en exploiter des centaines, voire des milliers. Chaque couche contient plusieurs neurones, qui sont des paquets de code conçus pour imiter les fonctions du cerveau humain.
Les réseaux neuronaux profonds peuvent consommer et analyser des jeux de données bruts et non structurés avec peu d’intervention humaine. Ils peuvent accepter des quantités massives de données, identifier des modèles, apprendre de ces modèles et utiliser ce qu’ils ont appris pour générer de nouvelles sorties, telles que des images, des vidéos et du texte.
Cette capacité d’apprentissage à grande échelle sans supervision permet aux systèmes d’IA de réaliser des tâches comme le traitement avancé du langage, la création de contenus originaux et d’autres prouesses qui peuvent sembler proches de l’intelligence humaine.
Cependant, ces réseaux de neurones profonds sont intrinsèquement opaques. Les utilisateurs, y compris les développeurs d’IA, peuvent voir ce qui se passe au niveau des couches d’entrée et de sortie, également appelées « couches visibles ». Ils peuvent voir les données qui entrent et les prédictions, les classifications ou tout autre contenu qui en sort. Mais ils ne savent pas ce qui se passe dans toutes les couches du réseau intermédiaires, ou « couches cachées ».
Les développeurs d’IA savent globalement comment les données circulent à travers chaque couche du réseau et ils ont une idée générale de ce que les modèles font avec les données qu’ils ingèrent. Mais ils ne connaissent pas tous les détails. Par exemple, ils ne savent pas vraiment ce que cela signifie lorsqu’une certaine combinaison de neurones s’active, ou la manière exacte dont le modèle trouve et combine des embeddings vectoriels pour répondre à un prompt.
Même les modèles d’IA open source qui partagent leur code sous-jacent sont en fin de compte des boîtes noires, car les utilisateurs ne peuvent toujours pas interpréter ce qui se passe dans chaque couche du modèle une fois actif.
Les modèles d’IA et de ML les plus avancés disponibles aujourd’hui sont extrêmement puissants, mais cette puissance est au prix d’une interprétabilité plus faible.
Les modèles d’IA générative s’appuient sur des réseaux neuronaux complexes pour répondre à des commandes en langage naturel, résoudre de nouveaux problèmes et créer du contenu original, mais il est difficile d’interpréter ce qui se passe à l’intérieur. Les modèles d’IA plus simples et basés sur des règles sont plus faciles à expliquer, mais ils ne sont généralement pas aussi puissants ou flexibles que les modèles d’IA générative.
Les entreprises ne peuvent donc pas résoudre le problème de boîte noire simplement à l’aide d’outils d’IA traditionnels plus explicables. Les modèles d’IA traditionnels peuvent exécuter de nombreuses fonctions, mais il y a certaines choses que seul un modèle d’IA avancé peut faire.
Bien qu’il existe des raisons pratiques d’utiliser les modèles de machine learning de type boîte noire, le manque de transparence peut entraver l’exploitation de ces modèles avancés.
Plus précisément, l’IA boîte noire pose les défis suivants :
Les utilisateurs ne savent pas comment un modèle de boîte noire prend ses décisions, c’est-à-dire les facteurs qu’il évalue et les corrélations qu’il établit. Même si les productions du modèle semblent précises, la validation peut être difficile sans une compréhension claire des processus qui y conduisent.
À l’insu de leurs utilisateurs, les modèles de boîtes noires peuvent arriver aux bonnes conclusions pour de mauvaises raisons. Ce phénomène est parfois appelé « effet Hans le malin », du nom d’un cheval qui était censé savoir compter et effectuer des calculs simples en tapant du sabot. En vérité, Hans capturait des indices subtils dans le langage corporel de son maître pour indiquer quand il était temps d’arrêter de taper du sabot.
L’effet Hans le malin peut avoir de graves conséquences lorsque les modèles sont appliqués à des domaines tels que les soins de santé. Par exemple, les modèles d’IA entraînés pour diagnostiquer la COVID-19 sur la base de radiographies des poumons sont connus pour atteindre des niveaux de précision élevés avec des données d’entraînement, mais sont moins performants dans le monde réel.
Ce déficit de performance survient souvent lorsque les modèles apprennent à identifier la COVID sur la base de facteurs non pertinents. Un modèle expérimental a « diagnostiqué » la COVID en fonction de la présence d’annotations sur les radiographies plutôt que sur les radiographies elles-mêmes. En effet, les radiographies positives pour la COVID étaient plus susceptibles d’être annotées dans les données d’entraînement du modèle, car les médecins mettaient en évidence les caractéristiques pertinentes à l’intention d’autres médecins.1
Si un modèle de boîte noire prend les mauvaises décisions ou produit systématiquement des sorties inexactes ou nuisibles, il peut être difficile d’ajuster le modèle pour corriger ce comportement. Sans savoir exactement ce qui se passe dans le modèle, les utilisateurs ne peuvent pas identifier exactement où il se trompe.
Ce problème pose un défi de taille dans le domaine des véhicules autonomes, où les développeurs entraînent des systèmes d’IA sophistiqués à prendre des décisions de conduite en temps réel. Si un véhicule autonome prend la mauvaise décision, les conséquences peuvent être fatales. Mais comme les modèles derrière ces véhicules sont très complexes, il peut être difficile de comprendre pourquoi ils prennent de mauvaises décisions et comment les corriger.
Pour contourner ce problème, de nombreux développeurs de véhicules autonomes complètent leur IA par des systèmes plus explicables, tels que les radars et les capteurs lidar. Si ces systèmes ne font pas la lumière sur l’IA elle-même, ils fournissent aux développeurs des informations sur les environnements et les situations qui semblent induire les modèles d’IA en erreur.2
Comme les entreprises ne peuvent pas tout voir dans un modèle de boîte noire, elles risquent de passer à côté des vulnérabilités qui s’y cachent. Les modèles d’IA générative sont également sujets aux attaques par injection de prompts et empoisonnement de données, qui peuvent modifier secrètement le comportement d’un modèle sans que les utilisateurs ne le sachent. Si les utilisateurs ne peuvent pas voir les processus d’un modèle, ils ne sauront pas quand ces processus ont été modifiés.
Les modèles de boîtes noires peuvent être sujets aux biais. N’importe quel outil d’IA peut reproduire les préjugés humains si ces biais sont présents dans ses données d’entraînement ou sa conception. Avec les modèles de boîte noire, il peut être particulièrement difficile d’identifier l’existence d’un biais ou ses causes.
Les biais peuvent conduire à des résultats sous-optimaux, directement nuisibles et illégaux. Par exemple, un modèle d’IA entraîné pour filtrer les candidats à un emploi peut apprendre à filtrer les candidatures talentueuses de femmes si les données d’entraînement sont biaisées en faveur des hommes.
Certains systèmes de justice pénale utilisent des modèles d’IA sophistiqués pour évaluer le risque de récidive d’une personne. Ces modèles sont souvent des boîtes noires, du moins pour le public, qui ne sait pas exactement quels facteurs sont pris en compte. Si l’algorithme n’est pas transparent, il peut être difficile de faire confiance à ses prédictions ou de faire appel lorsqu’elles sont erronées.3
Certaines réglementations, telles que le règlement sur l’IA de l’Union européenne et le California Consumer Privacy Act (CCPA), fixent des règles sur la façon dont les entreprises peuvent utiliser des données personnelles dans les outils de prise de décision alimentés par l’IA. Avec les modèles de boîte noire, il peut être difficile pour une entreprise de savoir si l’IA est conforme ou de prouver sa conformité en cas d’audit.
L’IA boîte blanche, également appelée IA explicable (XAI) ou IA en boîte de verre, est l’opposé de l’IA boîte noire. Il s’agit d’un système d’IA dont le fonctionnement interne est transparent. Les utilisateurs comprennent comment l’IA intègre les données, les traite et parvient à une conclusion.
Les modèles d’IA boîte blanche facilitent la confiance et la validation des résultats, ainsi que la possibilité de modifier les modèles d’IA pour corriger les erreurs et régler les performances. Mais il est difficile de transformer chaque IA boîte blanche.
Il est souvent possible de rendre les modèles d’IA traditionnels transparents en partageant leur code source. Mais les modèles de machine learning sophistiqués développent leurs propres paramètres grâce à des algorithmes d’apprentissage profond. Le simple accès aux architectures de ces modèles n’explique pas toujours entièrement ce qu’ils font.
Cela dit, des efforts sont en cours pour rendre les modèles d’IA plus explicables. Par exemple, les chercheurs d’Anthropic appliquent des autoencodeurs, un type de réseaux neuronaux, au LLM Claude 3 Sonnet de l’entreprise pour comprendre quelles combinaisons de neurones correspondent à quels concepts. Jusqu’à présent, les chercheurs ont identifié des combinaisons qui ont des significations, telles que le Golden Gate Bridge et le domaine des neurosciences.4
Le modèle o1 récent d’OpenAI partage des informations sur les étapes qu’il applique pour produire ses sorties, ce qui contribue à comprendre comment il parvient à ses réponses. Cependant, il ne s’agit pas d’un aperçu direct de l’intérieur du modèle, mais d’une explication générée par le modèle de sa propre activité. Une grande partie des opérations du modèle, y compris la chaîne de pensée brute, reste cachée.5
D’autres chercheurs ont développé des techniques permettant d’expliquer comment les modèles arrivent à des conclusions spécifiques. Par exemple, la technique d’IA explicable LIME (Local Interpretable Model-Agnostic Explanations) utilise un modèle de machine learning pour analyser les relations entre les entrées et les sorties d’une boîte noire, dans le but d’identifier les caractéristiques susceptibles d’influencer les productions du modèle.
Ces techniques axées sur les conclusions sont souvent conçues pour fonctionner sur des modèles avec des entrées et des sorties clairement structurées. Par exemple, LIME peut aider à expliquer les prédictions et les classifications, mais il apporte moins d’éclairage sur les systèmes d’IA ouverts dotés de réseaux neuronaux profonds.
Les entreprises peuvent opter pour des modèles transparents dans la mesure du possible, mais certains workflows nécessitent des outils sophistiqués d’IA boîte noire. Cela dit, il existe des moyens de rendre les modèles boîtes noires plus fiables et d’atténuer certains de leurs risques.
Les modèles open source peuvent offrir aux utilisateurs plus de transparence sur leur développement et leurs opérations que les outils d’IA à source fermée qui gardent leurs architectures de modèles privées.
Un modèle d’IA générative open source peut finalement être une boîte noire en raison de son réseau neuronal complexe, mais il peut fournir aux utilisateurs plus d’informations qu’un modèle à source fermée.
La gouvernance de l’IA (processus, normes et garde-fous qui permettent de garantir la sécurité et l’éthique des systèmes et des outils d’IA) permet aux entreprises d’établir des structures de contrôle robustes pour la mise en œuvre de l’IA.
Les outils de gouvernance peuvent offrir plus d’informations sur les opérations des modèles grâce à l’automatisation de la surveillance, des alertes de performance, des scores de santé et des pistes d’audit. La gouvernance de l’IA ne rend peut-être pas une boîte noire transparente, mais elle peut aider à détecter les anomalies et à contrecarrer les utilisations inappropriées.
Les processus et outils de sécurité de l’IA peuvent aider à identifier et à corriger les vulnérabilités des modèles d’IA, des applications et des jeux de données associés que les équipes informatiques et de sécurité pourraient ne pas détecter seules.
Les outils de sécurité de l’IA peuvent également fournir des informations sur l’utilisation des données, des modèles et des applications de chaque déploiement d’IA, ainsi que sur les applications qui accèdent à l’IA.
Un framework d’IA responsable fournit à une entreprise un ensemble de principes et de pratiques visant à assurer la fiabilité de l’IA.
Par exemple, les Piliers de Confiance d’IBM pour l’IA incluent l’explicabilité, l’équité, la robustesse, la transparence et la confidentialité. Lorsque des modèles de boîte noire sont nécessaires, l’adoption d’un framework peut aider une entreprise à utiliser ces modèles de manière plus transparente.
S'inscrire
En savoir plus
Télécharger
En savoir plus
IBM Security fournit des solutions transformatrices alimentées par l’IA qui optimisent le temps des analystes grâce à l’accélération de la détection des menaces et du déploiement des réponses, à la protection de l’identité des internautes et des ensembles de données, le tout en permettant aux équipes de cybersécurité de rester informées et de garder le contrôle.
1 AI for radiographic COVID-19 detection selects shortcuts over signal, Nature, 31 mai 2021.
2 Tesla’s robotaxi push hinges on ’black box’ AI gamble, Reuters, 10 octobre 2024.
3 Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet, Anthropic, 21 mai 2024.
4 Learning to Reason with LLMs, OpenAI, 12 septembre 2024.