Le World Wide Web facilite les connexions, accélère la croissance des entreprises et met des siècles de connaissances à notre portée.
Malgré tous ses avantages, il peut aussi être un cloaque empli de propos haineux et de contenus préjudiciables. Et ce cloaque se déverse dans l’océan de données Internet qui est utilisé pour entraîner de nombreux modèles de fondation actuels, tels que les grands modèles de langage (LLM) et leurs capacités de traitement automatique du langage naturel (NLP).
Ces infiltrations de propos insultants menacent l’intégrité et l’utilisabilité de ces modèles d’IA. Pourquoi ? Parce que si les LLM sont entraînés sur des jeux de données contenant des propos haineux, ils produiront probablement des résultats néfastes. Ce contenu nuisible peut aussi se retrouver dans les modèles d’IA lors du réglage fin, de l’optimisation via la génération augmentée par récupération (RAG) ou lors des interactions d’un LLM avec les utilisateurs.
La filtration et la suppression des contenus offensants sont essentielles pour garantir que les modèles d’IA sont sûrs, inclusifs et non biaisés, offrant une expérience positive aux utilisateurs. L’une de ces solutions est le filtrage systématique des propos haineux, insultants et obscènes (HAP) basé sur un modèle, appelé filtrage HAP.
Le filtrage HAP est un système qui utilise un modèle de classification pour détecter et supprimer les propos haineux, insultants et obscènes du texte d’entrée et de sortie d’un LLM.
Pour bien comprendre le filtrage HAP, il est utile de connaître les modèles de classification. Les modèles de classification sont des modèles de machine learning qui divisent les points de données en groupes prédéfinis appelés classes. Ils apprennent les caractéristiques des classes à partir des données d’entrée, puis attribuent des classes possibles aux nouvelles données en fonction de ces caractéristiques apprises. Un filtre e-mail antispam, par exemple, utilise un algorithme de classification. Un modèle de classification de filtrage HAP peut aussi s’appeler plus spécifiquement un classificateur de phrases, ou plus simplement un filtre HAP ou détecteur HAP.
Les propos haineux, insultants et obscènes peuvent être définis comme suit :
En pratique, un classificateur de phrases avec filtrage HAP évalue chaque mot du texte en entrée ou en sortie d’un modèle pour déterminer s’il contient du contenu HAP. Il attribue ensuite un score qui représente la probabilité de présence de contenu HAP, par exemple de 0 à 1. Dans ce cas, un score plus proche de 1 indique une probabilité très élevée de contenu HAP. En fonction du seuil que l’utilisateur fixe pour le contenu HAP (comme « un score supérieur à 0,5 = HAP »), le modèle attribue ensuite une étiquette à chaque phrase indiquant si elle présente du contenu HAP ou pas.
Enfin, le contenu HAP peut être signalé et supprimé s’il se situe dans les données de pré-entraînement. Ou, si le contenu HAP est une sortie, il peut être remplacé par un message de garde-fou indiquant que la sortie contient du texte nuisible qui a été supprimé.
Selon IBM Research, il existe actuellement trois principaux cas d’utilisation des filtres HAP :
Les LLM sont généralement entraînés sur un ensemble de sources de données, dont certaines peuvent contenir du contenu haineux ou inapproprié. Le filtrage HAP contribue à empêcher les LLM d’apprendre à partir d’un tel contenu. Cela se produit souvent lors du prétraitement des données, lorsqu’il reste un grand volume de données brutes.
Les modèles HAP sont également utilisés lors de l’alignement. Par exemple, l’alignement par le biais de l’apprentissage par renforcement récompense les résultats en fonction de la manière dont ils s’alignent sur les objectifs visés. Si un filtre HAP est utilisé pour la notation de récompense, ce peut être un score « non HAP », que le modèle est ensuite entraîné à maximiser.
Les modèles HAP peuvent vous aider à contrôler les sorties des modèles d’IA générative, sans avoir à réentraîner le modèle d’origine. Ce contrôle nécessite de modifier le processus de génération pour évaluer les prédictions du modèle à l’aide de la méthode de notation originale et de la notation HAP afin de garantir un contenu acceptable et exempt de discours haineux.
Il est important de noter qu’en plus du filtrage HAP, il existe souvent d’autres mesures de nettoyage des données, de qualité des données et d’alignement des données destinées à réduire les cas de données incorrectes, inappropriées ou biaisées qui entrent et sortent du modèle.
Comme c’est le cas pour de nombreuses technologies adjacentes à l’IA, l’innovation évolue rapidement dans le monde du filtrage HAP. Les chercheurs d’IBM ont identifié deux manières d’améliorer les filtres HAP : utiliser des modèles open source plus petits ou un outil d’identification des séquences insultantes.
Dans l’idéal, le filtrage HAP devrait intervenir à chaque étape du cycle de vie du LLM. Mais cette utilisation nécessiterait une vitesse que la plupart des filtres HAP d’aujourd’hui n’ont pas en raison de leur grande taille.
Cette limite a inspiré IBM dans la mise au point de son dernier filtre HAP plus rapide : Granite-Guardian-HAP-38m. Ce modèle d’encodeur à 38 millions de paramètres est plus petit que son prédécesseur (Granite-Guardian-HAP-125m à 125 millions de paramètres). Ainsi, il peut fonctionner huit fois plus vite sur une unité centrale (CPU) et deux fois plus vite sur un processeur graphique (GPU) (que l’on trouve dans les smartphones et les PC) pour filtrer rapidement les données à chaque étape du cycle de vie du LLM.
Des variantes des deux modèles de filtrage HAP sont disponibles sur watsonx.ai. Toutefois, pour continuer à encourager un écosystème d’IA de confiance, IBM a ouvert le code source des deux filtres HAP sur Hugging Face.
Pour augmenter le niveau de précision et de diversité linguistique dans les filtres HAP, les chercheurs d’IBM ont développé un outil de visualisation HAP appelé MUTED, MUltilingual Targeted Demonstration (démonstration ciblée multilingue).
Au-delà de l’annotation au niveau de la phrase, MUTED décompose les phrases en « cibles » et en séquences insultantes (ou argument insultant). Par exemple, dans la phrase « Ces gens sont des pilotes lamentables », la cible est « Ces gens » et la séquence insultante est « pilotes lamentables ». L’idée est que MUTED identifie les séquences insultantes, classe leur intensité à l’aide de cartes thermiques, puis les masque aux utilisateurs si elles sont considérées comme dommageables.1
1 « Muted: Multilingual Targeted Offensive Speech Identification and Visualization », Association for Computational Language, décembre 2023.
Notre troisième génération de modèles de langage d’IA est arrivée. Adaptés à vos besoins et ouverts, ces modèles d’entreprise offrent des performances exceptionnelles par rapport aux points de référence de sécurité et dans un large éventail de tâches d’entreprise, de la cybersécurité à la RAG.
Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.
Accédez au plein potentiel de votre IA et découvrez comment la gouvernance de l’IA peut contribuer à renforcer la confiance de vos employés dans cette technologie, à accélérer l’adoption et l’innovation, et à améliorer la fidélité des clients.