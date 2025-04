Le World Wide Web facilite les connexions, accélère la croissance des entreprises et met des siècles de connaissances à notre portée.

Malgré tous ses avantages, il peut aussi être un cloaque empli de propos haineux et de contenus préjudiciables. Et ce cloaque se déverse dans l’océan de données Internet qui est utilisé pour entraîner de nombreux modèles de fondation actuels, tels que les grands modèles de langage (LLM) et leurs capacités de traitement automatique du langage naturel (NLP).

Ces infiltrations de propos insultants menacent l’intégrité et l’utilisabilité de ces modèles d’IA. Pourquoi ? Parce que si les LLM sont entraînés sur des jeux de données contenant des propos haineux, ils produiront probablement des résultats néfastes. Ce contenu nuisible peut aussi se retrouver dans les modèles d’IA lors du réglage fin, de l’optimisation via la génération augmentée par récupération (RAG) ou lors des interactions d’un LLM avec les utilisateurs.

La filtration et la suppression des contenus offensants sont essentielles pour garantir que les modèles d’IA sont sûrs, inclusifs et non biaisés, offrant une expérience positive aux utilisateurs. L’une de ces solutions est le filtrage systématique des propos haineux, insultants et obscènes (HAP) basé sur un modèle, appelé filtrage HAP.