Assainissement de l’IA : Filtrage HAP contre les contenus nuisibles

20 décembre 2024

Auteurs

Alexandra Jonker

Editorial Content Lead

Alice Gomstyn

IBM Content Contributor

Le World Wide Web facilite les connexions, accélère la croissance des entreprises et met des siècles de connaissances à notre portée.

Malgré tous ses avantages, il peut aussi être un cloaque empli de propos haineux et de contenus préjudiciables. Et ce cloaque se déverse dans l’océan de données Internet qui est utilisé pour entraîner de nombreux modèles de fondation actuels, tels que les grands modèles de langage (LLM) et leurs capacités de traitement automatique du langage naturel (NLP).

Ces infiltrations de propos insultants menacent l’intégrité et l’utilisabilité de ces modèles d’IA. Pourquoi ? Parce que si les LLM sont entraînés sur des jeux de données contenant des propos haineux, ils produiront probablement des résultats néfastes. Ce contenu nuisible peut aussi se retrouver dans les modèles d’IA lors du réglage fin, de l’optimisation via la génération augmentée par récupération (RAG) ou lors des interactions d’un LLM avec les utilisateurs.

La filtration et la suppression des contenus offensants sont essentielles pour garantir que les modèles d’IA sont sûrs, inclusifs et non biaisés, offrant une expérience positive aux utilisateurs. L’une de ces solutions est le filtrage systématique des propos haineux, insultants et obscènes (HAP) basé sur un modèle, appelé filtrage HAP.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Qu’est-ce que le filtrage HAP ?

Le filtrage HAP est un système qui utilise un modèle de classification pour détecter et supprimer les propos haineux, insultants et obscènes du texte d’entrée et de sortie d’un LLM.

Qu’est-ce qu’un modèle de classification ?

Pour bien comprendre le filtrage HAP, il est utile de connaître les modèles de classification. Les modèles de classification sont des modèles de machine learning qui divisent les points de données en groupes prédéfinis appelés classes. Ils apprennent les caractéristiques des classes à partir des données d’entrée, puis attribuent des classes possibles aux nouvelles données en fonction de ces caractéristiques apprises. Un filtre e-mail antispam, par exemple, utilise un algorithme de classification. Un modèle de classification de filtrage HAP peut aussi s’appeler plus spécifiquement un classificateur de phrases, ou plus simplement un filtre HAP ou détecteur HAP.

Qu’est-ce qui est considéré comme du contenu HAP ?

Les propos haineux, insultants et obscènes peuvent être définis comme suit :

  • Discours de haine : expressions de haine à l’égard d’une personne ou d’un groupe sur la base de critères tels que la race, la religion, l’origine ethnique, l’orientation sexuelle, le handicap ou le sexe. Les discours de haine montrent l’intention de blesser, d’humilier ou d’insulter les membres d’un groupe, ou de promouvoir la violence ou les troubles sociaux.

  • Propos insultants : langage grossier ou blessant qui vise à intimider, avilir ou rabaisser quelqu’un ou quelque chose.

  • Obscénités : mots toxiques tels que jurons, insultes ou langage sexuellement explicite.

Comment fonctionne le filtrage HAP ?

En pratique, un classificateur de phrases avec filtrage HAP évalue chaque mot du texte en entrée ou en sortie d’un modèle pour déterminer s’il contient du contenu HAP. Il attribue ensuite un score qui représente la probabilité de présence de contenu HAP, par exemple de 0 à 1. Dans ce cas, un score plus proche de 1 indique une probabilité très élevée de contenu HAP. En fonction du seuil que l’utilisateur fixe pour le contenu HAP (comme « un score supérieur à 0,5 = HAP »), le modèle attribue ensuite une étiquette à chaque phrase indiquant si elle présente du contenu HAP ou pas.

Enfin, le contenu HAP peut être signalé et supprimé s’il se situe dans les données de pré-entraînement. Ou, si le contenu HAP est une sortie, il peut être remplacé par un message de garde-fou indiquant que la sortie contient du texte nuisible qui a été supprimé.

AI Academy

Confiance, transparence et gouvernance dans l’IA

La confiance est sans doute le sujet dominant dans le domaine de l’intelligence artificielle. C’est aussi un sujet en tous points passionnant. Nous aborderons des questions telles que les hallucinations, les biais et les risques, et partagerons les étapes à suivre pour adopter l’IA de manière éthique, responsable et équitable.

Cas d’utilisation des filtres HAP

Selon IBM Research, il existe actuellement trois principaux cas d’utilisation des filtres HAP :

  • Filtrage des données d’entraînement des LLM
  • Alignement des modèles à l’aide de l’apprentissage par renforcement
  • Contrôler les sorties de l’IA générative
Filtrage des données d’entraînement des LLM

Les LLM sont généralement entraînés sur un ensemble de sources de données, dont certaines peuvent contenir du contenu haineux ou inapproprié. Le filtrage HAP contribue à empêcher les LLM d’apprendre à partir d’un tel contenu. Cela se produit souvent lors du prétraitement des données, lorsqu’il reste un grand volume de données brutes.

Alignement des modèles à l’aide de l’apprentissage par renforcement

Les modèles HAP sont également utilisés lors de l’alignement. Par exemple, l’alignement par le biais de l’apprentissage par renforcement récompense les résultats en fonction de la manière dont ils s’alignent sur les objectifs visés. Si un filtre HAP est utilisé pour la notation de récompense, ce peut être un score « non HAP », que le modèle est ensuite entraîné à maximiser.

Contrôle des sorties de l’IA générative

Les modèles HAP peuvent vous aider à contrôler les sorties des modèles d’IA générative, sans avoir à réentraîner le modèle d’origine. Ce contrôle nécessite de modifier le processus de génération pour évaluer les prédictions du modèle à l’aide de la méthode de notation originale et de la notation HAP afin de garantir un contenu acceptable et exempt de discours haineux.

Il est important de noter qu’en plus du filtrage HAP, il existe souvent d’autres mesures de nettoyage des données, de qualité des données et d’alignement des données destinées à réduire les cas de données incorrectes, inappropriées ou biaisées qui entrent et sortent du modèle.

Filtres HAP nouvelle génération d’IBM : open source et séquences insultantes

Comme c’est le cas pour de nombreuses technologies adjacentes à l’IA, l’innovation évolue rapidement dans le monde du filtrage HAP. Les chercheurs d’IBM ont identifié deux manières d’améliorer les filtres HAP : utiliser des modèles open source plus petits ou un outil d’identification des séquences insultantes.

Filtres HAP plus petits et open source

Dans l’idéal, le filtrage HAP devrait intervenir à chaque étape du cycle de vie du LLM. Mais cette utilisation nécessiterait une vitesse que la plupart des filtres HAP d’aujourd’hui n’ont pas en raison de leur grande taille.

Cette limite a inspiré IBM dans la mise au point de son dernier filtre HAP plus rapide : Granite-Guardian-HAP-38m. Ce modèle d’encodeur à 38 millions de paramètres est plus petit que son prédécesseur (Granite-Guardian-HAP-125m à 125 millions de paramètres). Ainsi, il peut fonctionner huit fois plus vite sur une unité centrale (CPU) et deux fois plus vite sur un processeur graphique (GPU) (que l’on trouve dans les smartphones et les PC) pour filtrer rapidement les données à chaque étape du cycle de vie du LLM.

Des variantes des deux modèles de filtrage HAP sont disponibles sur watsonx.ai. Toutefois, pour continuer à encourager un écosystème d’IA de confiance, IBM a ouvert le code source des deux filtres HAP sur Hugging Face

Identification des séquences insultantes

Pour augmenter le niveau de précision et de diversité linguistique dans les filtres HAP, les chercheurs d’IBM ont développé un outil de visualisation HAP appelé MUTED, MUltilingual Targeted Demonstration (démonstration ciblée multilingue).

Au-delà de l’annotation au niveau de la phrase, MUTED décompose les phrases en « cibles » et en séquences insultantes (ou argument insultant). Par exemple, dans la phrase « Ces gens sont des pilotes lamentables », la cible est « Ces gens » et la séquence insultante est « pilotes lamentables ». L’idée est que MUTED identifie les séquences insultantes, classe leur intensité à l’aide de cartes thermiques, puis les masque aux utilisateurs si elles sont considérées comme dommageables.1

Notes de bas de page

1 « Muted: Multilingual Targeted Offensive Speech Identification and Visualization », Association for Computational Language, décembre 2023.

Solutions connexes
IBM Granite

Notre troisième génération de modèles de langage d’IA est arrivée. Adaptés à vos besoins et ouverts, ces modèles d’entreprise offrent des performances exceptionnelles par rapport aux points de référence de sécurité et dans un large éventail de tâches d’entreprise, de la cybersécurité à la RAG.

Découvrez Granite
Modèles de fondation

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai
Solutions et services de gouvernance de l’IA

Accédez au plein potentiel de votre IA et découvrez comment la gouvernance de l’IA peut contribuer à renforcer la confiance de vos employés dans cette technologie, à accélérer l’adoption et l’innovation, et à améliorer la fidélité des clients.

Découvrir les solutions de gouvernance de l’IA
Passez à l’étape suivante

IBM Granite est notre famille de modèles d’IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour faire évoluer vos applications d’IA. Adaptés aux besoins métier, open source et prêts à l’emploi, ces modèles offrent des performances exceptionnelles au regard des référentiels de sécurité dans un large éventail de tâches d’entreprise, de la cybersécurité à la RAG.

Découvrez Granite