L’interprétabilité de l’IA permet de mieux comprendre et d’expliquer les processus de prise de décision qui alimentent les modèles d’intelligence artificielle (IA).
Les modèles d’IA utilisent un réseau complexe d’entrées de données, d’algorithmes, de logique, de science des données et d’autres processus pour fournir des informations. Plus le modèle est complexe, plus il peut être difficile pour les humains de comprendre les étapes qui ont conduit à ses conclusions, même si ces humains sont ceux qui l’ont conçu et construit. Un modèle interprétable est un modèle dont les décisions peuvent être facilement comprises par les utilisateurs.
L’utilisation de l’IA est en pleine expansion. Les systèmes qui utilisent de grands modèles de langage (LLM) deviennent des éléments courants de la vie quotidienne, des appareils domestiques intelligents à la détection des fraudes par carte de crédit en passant par l'utilisation généralisée de ChatGPT et d'autres outils d'IA générative. À mesure que les modèles hautement complexes (y compris les algorithmes d'apprentissage profond et les réseaux neuronaux) se généralisent, l'interprétabilité de l'IA prend de plus en plus d'importance.
En outre, les systèmes d’IA et les algorithmes de machine learning sont de plus en plus répandus dans les secteurs de la santé, de la finance et d’autres activités qui impliquent des décisions critiques ou déterminantes pour l’avenir. Avec de tels enjeux, le public doit pouvoir avoir confiance en l’équité et la fiabilité des résultats. Cette confiance dépend de la compréhension de la manière dont les systèmes d’IA parviennent à leurs prédictions et prennent leurs décisions.
Les modèles d’IA de type boîte blanche présentent des entrées et une logique faciles à voir et à comprendre. Par exemple, les decision trees de base, qui montrent clairement le flux entre chaque étape, ne sont pas difficiles à déchiffrer pour l’utilisateur moyen. Les modèles en boîte blanche utilisent généralement des systèmes décisionnels plus linéaires et faciles à interpréter, mais dont les résultats peuvent être moins précis ou moins riches en informations ou applications pertinentes.
Les modèles IA de type boîte noire sont plus complexes et offrent moins de transparence quant à leur fonctionnement interne. L’utilisateur ne sait généralement pas comment le modèle obtient ses résultats. Ces modèles plus complexes ont tendance à être plus exacts et plus précis. Mais parce qu'ils sont difficiles ou impossibles à comprendre, ils soulèvent des préoccupations quant à leur fiabilité, leur équité, leurs biais et d'autres questions d'éthique. Rendre les modèles boîte noire plus interprétables est une façon de renforcer la confiance dans leur utilisation.
L’interprétabilité de l’IA se concentre sur la compréhension du fonctionnement interne des modèles d’IA, tandis que l’explicabilité de l’IA vise à décrire les raisons qui ont conduit le modèle à produire ses résultats.
L’interprétabilité se réfère à la transparence, qui permet aux utilisateurs de comprendre l’architecture du modèle, les caractéristiques qu’il utilise et la manière dont il les combine pour fournir des prédictions. Les processus décisionnels d’un modèle interprétable sont facilement compréhensibles par l’homme. Une meilleure interprétabilité nécessite une description plus détaillée de ses opérations internes.
L'explicabilité consiste en la vérification, c'est-à-dire en la fourniture de justifications pour les sorties du modèle, souvent après qu'il a fait ses prédictions. L'IA explicable (XAI) est utilisée pour identifier les facteurs qui ont mené aux résultats. Diverses méthodes d'explicabilité peuvent être utilisées pour présenter les modèles de manière à rendre leurs processus complexes et la science des données sous-jacente clairs à un être humain à l'aide du langage naturel.
L’interprétabilité de l’IA permet de déboguer les modèles, de détecter les biais, de garantir la conformité réglementaire et de gagner la confiance des utilisateurs. Elle aide les développeurs et les utilisateurs à déterminer l’impact de leurs modèles sur les personnes et les entreprises, et à les développer de manière responsable.
L’interprétabilité est importante pour plusieurs raisons :
Sans interprétabilité, les utilisateurs agissent à l'aveugle. Cette absence de responsabilité peut éroder la confiance du public dans la technologie.. Une compréhension complète du processus décisionnel d'un modèle par les parties prenantes favorise l'acceptation de ses résultats. Grâce à l'interprétabilité des modèles, la transparence et la clarté sont assurées, ce qui permet aux utilisateurs de se sentir en confiance lorsqu'ils s'appuient sur ces modèles dans des applications réelles, comme les diagnostics médicaux ou les décisions financières.
Les biais dans les données d’entraînement peuvent être amplifiés par les modèles d’IA. Les résultats discriminatoires qui en résultent perpétuent les inégalités sociales, mais exposent également les organisations à des risques juridiques et de réputation. Les systèmes d’IA interprétables peuvent aider à détecter si un modèle prend des décisions biaisées fondées sur des caractéristiques protégées, telles que l’origine ethnique, l’âge ou le sexe. L’interprétabilité permet aux développeurs de modèles d’identifier et d’atténuer les schémas discriminatoires, ce qui contribue à garantir des résultats plus équitables.
Le machine learning interprétable permet aux créateurs d’algorithmes et de modèles de ML d’identifier et de corriger les erreurs. Aucun modèle de machine learning n’est précis à 100 %. Si l’on ne comprend pas le raisonnement de l’IA, le débogage est un processus inefficace et risqué. En comprenant le fonctionnement du modèle de ML, les développeurs et les data scientists peuvent identifier les sources de prédictions incorrectes et optimiser la performance du modèle. Ce processus, à son tour, augmente sa fiabilité globale et facilite son optimisation.
Des réglementations comme l'Equal Credit Opportunity Act (ECOA) aux États-Unis ou le Règlement général sur la protection des données (RGPD) dans l'Union européenne exigent que les décisions prises par les systèmes automatisés soient transparentes et explicables. Par ailleurs, un nombre croissant de réglementations spécifiques à l'IA, notamment la loi sur l'IA de l'UE, établissent des normes pour le développement et l'utilisation de l'IA. Grâce à leur interprétabilité, les modèles IA peuvent fournir des explications claires de leurs décisions, contribuant ainsi à répondre à ces exigences réglementaires. L'interprétabilité peut également contribuer à la résolution des problèmes d'audit, de responsabilité et de confidentialité des données.
Sans interprétabilité, les développeurs et les chercheurs pourraient rencontrer des difficultés pour traduire les informations de l'IA en résultats exploitables ou pour faire évoluer la technologie grâce à des modifications. Grâce à l'interprétabilité, il est plus facile de transférer les connaissances sur les fondements et les décisions d'un modèle entre les parties prenantes et d'utiliser ses connaissances pour éclairer le développement d'autres modèles.
Le chercheur de l'Université de Stanford, Nigam Shah, identifie trois principaux types d'interprétabilité : l'interprétabilité pour ingénieurs, l'interprétabilité causale et l'interprétabilité visant à susciter la confiance.1
Cette catégorie s’intéresse à la manière dont les modèles d’IA sont parvenus à leurs résultats. Elle implique de comprendre le fonctionnement interne du modèle et concerne les développeurs et les chercheurs qui ont besoin de déboguer ou d’améliorer le modèle.
Il s’agit de comprendre pourquoi le modèle a produit sa sortie. Cela consiste à identifier les facteurs qui influencent le plus les prédictions du modèle, ainsi que la manière dont le changement de ces facteurs affecte les résultats.
Il s’agit de fournir des explications pour renforcer la confiance dans les sorties du modèle. Cela consiste à présenter le processus de prise de décision du modèle d’une manière compréhensible et accessible même aux utilisateurs sans compétences techniques.
Plusieurs caractéristiques influencent l’interprétabilité des modèles d’IA :
Les modèles intrinsèquement interprétables, tels que les Decision Trees et les modèles de régression linéaire, présentent une interprétabilité intrinsèque. Leurs structures simples sont faciles à comprendre. Toutefois, l'interprétabilité post-hoc implique l'application de méthodes d'interprétation à des modèles pré-entraînés afin d'expliquer leur comportement. L'interprétation post-hoc est particulièrement utile pour les modèles plus complexes ou de type boîte noire.
L'interprétabilité locale se concentre sur l'explication des prédictions individuelles, permettant ainsi de comprendre pourquoi le modèle a obtenu un résultat particulier. L'interprétabilité globale vise à comprendre le comportement général du modèle sur l'ensemble du jeu de données, en mettant en évidence ses tendances et ses schémas généraux.
Les méthodes d’interprétabilité spécifiques aux modèles s’appuient sur la structure interne de ces derniers pour fournir des explications. Les méthodes agnostiques sont applicables à tout type de modèle.
Diverses méthodes permettent d’établir l’interprétabilité des modèles d’IA.
Certains modèles sont suffisamment simples pour être interprétés intrinsèquement. Ces modèles interprétables reposent sur des structures simples comme les arbres de décision, les systèmes à règles et les régressions linéaires. Les humains peuvent facilement comprendre les schémas de décision et les processus des modèles linéaires.
Les modèles plus complexes nécessitent une interprétation post-hoc, qui consiste à appliquer les méthodes d’interprétation aux modèles pré-entraînés pour expliquer les sorties du modèle. Voici quelques exemples de méthodes d’interprétation post-hoc courantes :
LIME contribue à expliquer les prédictions d'un modèle en se concentrant sur une seule prédiction à la fois. LIME procède en créant un modèle plus simple et interprétable qui imite le comportement du modèle complexe pour cette prédiction spécifique. LIME utilise l'attribution des fonctionnalités afin de déterminer l'influence d'une caractéristique particulière (telle que la forme, la couleur ou un autre point de données) sur la sortie du modèle. Par exemple, il prend une prédiction spécifique et génère ensuite de nombreuses instances similaires en modifiant légèrement ou en ajustant les valeurs des attributs. À partir de là, il crée un modèle plus simple et plus interprétable basé sur ces valeurs de fonctionnalités « perturbées » et les résultats obtenus. En bref, LIME offre une explication simplifiée et locale du comportement du modèle complexe.
SHAP est une approche d'interprétabilité fondée sur la théorie des jeux coopératifs qui considère toutes les combinaisons possibles de fonctionnalités et leur impact sur la prédiction. SHAP attribue une valeur (appelée valeur de Shapley) à chaque fonctionnalité en fonction de sa contribution à la prédiction dans différents scénarios. SHAP peut fonctionner avec n’importe quel système de machine learning. SHAP fournit à la fois des explications locales pour des prédictions individuelles fournies par des algorithmes de machine learning et des explications globales pour le modèle dans son ensemble. Cependant, en raison de sa complexité de calcul, la méthode SHAP peut être plus lente et plus coûteuse.
Les PDP (Partial Dependence Plots) montrent comment une fonctionnalité affecte, en moyenne, les prédictions du modèle sur l'ensemble du jeu de données. Les PDP permettent de visualiser la relation entre une fonctionnalité et la sortie du modèle, toutes les autres fonctionnalités étant maintenues constantes. Cette méthode est utile pour interpréter un petit nombre de caractéristiques ou lorsque les parties prenantes veulent se concentrer sur un sous-ensemble spécifique de caractéristiques.
Les courbes ICE montrent dans quelle mesure un résultat prédit dépend d'une fonctionnalité spécifique. Les courbes ICE sont similaires aux PDP mais montrent la relation entre une fonctionnalité et la sortie du modèle pour chaque instance, plutôt que de faire une moyenne sur l'ensemble du jeu de données. Les courbes ICE peuvent compléter les PDP en offrant une vue plus détaillée du comportement du modèle, par exemple en mettant en évidence la variabilité et en montrant les interactions entre les fonctionnalités au niveau de l'instance. Elles sont utiles lorsque les chercheurs en informatique ou les parties prenantes veulent identifier les données aberrantes ou les modèles inhabituels dans le fonctionnement du modèle.
L’interprétabilité de l’IA est essentielle dans tous les secteurs s’appuyant sur des modèles d’IA pour prendre des décisions qui ont un impact sur les individus ou la société. Voici quelques secteurs où l’interprétabilité de l’IA est particulièrement importante :
Les professionnels de santé utilisent l’intelligence artificielle à des fins de diagnostic, de prescription et de recherche. L’interprétabilité permet aux médecins et aux patients de comprendre les décisions du modèle d’IA, de s’y fier et d’identifier les biais ou les erreurs dans son raisonnement.
Les professionnels de la finance peuvent s’appuyer sur l’IA pour détecter les fraudes, quantifier les risques, attribuer des cotes de solvabilité et formuler des recommandations d’investissement. L’interprétabilité est essentielle à la conformité réglementaire et à l’audit dans le secteur de la finance et de la banque. En outre, la compréhension du processus décisionnel d’un modèle pour des activités comme l’approbation des prêts et la gestion des risques contribue à éviter les biais dans les résultats.
Dans le secteur de la justice pénale, l'IA peut être utilisée pour analyser les scènes de crime, l'ADN, les preuves médico-légales et les tendances criminelles locales ou nationales. Les utilisateurs peuvent également recourir à l'IA pour obtenir des recommandations de condamnation et effectuer d'autres opérations judiciaires routinières. L’interprétabilité est critique pour garantir l’équité, l’exactitude et la responsabilité.
Certains services des ressources humaines utilisent l’IA pour sélectionner les CV et évaluer les candidats. L’intelligibilité permet de prévenir la discrimination lors de la phase initiale du processus d’embauche.
Le secteur de l’assurance utilise l’intelligence artificielle pour évaluer les risques, traiter les demandes d’indemnisation et établir les tarifs. L’interprétabilité peut aider les clients à comprendre leurs primes et les assureurs à justifier leurs décisions.
Alors que le marketing, les ventes et le service client s’appuient de plus en plus sur des chatbots alimentés par l’IA, l’interprétabilité constitue une mesure de protection importante. Comprendre pourquoi un chatbot fait telle ou telle recommandation ou prend telle ou telle décision renforce la confiance dans le système d’IA et permet d’améliorer ou de personnaliser ses offres.
L’interprétabilité a son lot de défis et de limites.
Il faut souvent trouver un compromis entre les performances du modèle et son interprétabilité. Les modèles Simpler ou en boîte blanche sont plus interprétables mais peuvent être moins précis que les modèles boîte noire complexes du type Neural Networks profonds.
L’interprétabilité souffre également d’un manque de standardisation. Différentes méthodes peuvent fournir des explications différentes pour un même modèle, ce qui rend difficile leur comparaison et leur validation en l'absence de cadres formels. De plus, l'interprétabilité est souvent subjective. Ce qui peut être considéré comme facilement compréhensible par un utilisateur peut ne pas l'être suffisamment pour un autre utilisateur.
Selon certains experts, l'interprétabilité n'est pas nécessaire dans tous les cas, voire contre-productive dans certains cas. Si le modèle est privé ou n'a pas d'impact significatif, ou si le problème fait déjà l'objet de nombreuses études acceptées, une plus grande interprétabilité pourrait être superflue ou inutile. Dans certains cas, une plus grande interprétabilité pourrait présenter des risques pour la sécurité, car une plus grande transparence pourrait permettre aux acteurs malveillants d'exploiter un système ou permettre aux utilisateurs de contourner le système de manière à en compromettre l'efficacité.
Découvrez l’impact du règlement européen sur l’IA pour les entreprises, comment vous préparer, limiter les risques et concilier réglementation et innovation.
Apprenez-en plus sur les nouveaux défis de l’IA générative, la nécessité de gouverner les modèles d’IA et de ML et les étapes à suivre pour créer un cadre des exigences fiable, transparent et explicable.
Découvrez comment favoriser des pratiques éthiques et conformes grâce à un portefeuille de produits d’IA dédiés aux modèles d’IA générative.
Avec watsonx.governance, apprenez à mieux comprendre comment assurer l’équité, gérer les dérives, maintenir la qualité et améliorer l’explicabilité.
Nous avons interrogé 2 000 entreprises à propos de leurs initiatives d’IA pour découvrir ce qui fonctionne, ce qui ne fonctionne pas et comment progresser.
Découvrez comment choisir le modèle de fondation d’IA le mieux adapté à votre cas d’utilisation.
Gouvernez les modèles d’IA générative où que vous soyez et déployez-les dans le cloud ou sur site avec IBM watsonx.governance.
Préparez-vous à la loi européenne sur l’IA et adoptez une approche responsable de la gouvernance de l’IA avec IBM Consulting.
Simplifiez la gestion des risques et de la conformité aux réglementations grâce à une plateforme GRC unifiée.
1 Miller, Katharine, Should AI models be explainable ? That depends, Stanford Institute for Human-Centered Artificial Intelligence, mars 2021.