Qu’est-ce que la classification des textes ?

Auteurs

Cole Stryker

Staff Editor, AI Models

IBM Think

Qu’est-ce que la classification de texte ?

La classification de texte est une tâche de machine learning qui consiste à attribuer des étiquettes prédéfinies aux données textuelles afin de les classer automatiquement en groupes. Alors que les entreprises et les plateformes traitent des volumes toujours croissants de texte non structuré, la classification de texte offre un moyen puissant d’organiser, d’interpréter et d’agir sur des données textuelles à l’échelle.

Les entreprises d’aujourd’hui produisent une grande quantité de données textuelles sur les sites web, les applications et d’autres réseaux sous la forme d’avis, de publications sur les réseaux sociaux, de documents juridiques, d’e-mails et plus encore. Ces données contiennent des informations qui pourraient aider l’entreprise à prendre de meilleures décisions. La classification de texte constitue la première étape du processus.

Un ticket d’assistance qualifié d’« urgent » peut être acheminé vers un workflow prioritaire. Un e-mail intitulé « spam » peut être automatiquement archivé. Un avis client portant la mention « positif » peut alimenter un rapport de sentiment client concernant un nouveau produit. Les données classifiées peuvent être agrégées et visualisées afin de découvrir des tendances et des modèles qui resteraient autrement cachés.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Fonctionnement de la classification de texte

La classification de texte est une tâche fondamentale dans le traitement automatique du langage naturel (NLP), utilisée dans un large éventail d’applications. Un classificateur de texte est un modèle de machine learning qui résout différents problèmes de classification, comme la classification de textes par sujet, sentiment ou intention. Voici comment elle fonctionne :

Classification de texte supervisée

Les modèles supervisés sont généralement utilisés pour effectuer la classification de texte. La première étape consiste à collecter un grand jeu de données d’échantillons de texte. Il peut s’agir d’e-mails, de publications sur les réseaux sociaux, d’avis clients ou de documents.

Les annotateurs humains appliquent une étiquette à chaque texte. Par exemple, « spam » ou « non-spam », ou « positif » par rapport à « négatif ». Ce jeu de données d’entraînement étiqueté forme la base de l’entraînement d’un modèle de machine learning. En général, plus les données sont nombreuses, plus les résultats sont précis.

Le prétraitement du texte d’entrée transforme le texte dans un format standardisé et lisible par la machine. Les classificateurs ne peuvent travailler qu’avec du texte qui a été traduit en représentations numériques, souvent en utilisant des embeddings ou des architectures d’encodage plus avancées qui capturent le sens sémantique du langage.

Les hyperparamètres configurent des variables comme le nombre de couches de réseaux de neurones, le nombre de neurones par couche ou l’utilisation d’une activation. Ces hyperparamètres sont choisis avant le début de l’entraînement.

Les données sont ensuite introduites dans un algorithme de classification, qui apprend à associer les modèles observés dans les données aux étiquettes associées.

Les algorithmes de classification des textes sont les suivants :

Le modèle entraîné est testé sur un jeu de données de validation ou de test distinct pour évaluer la performance du modèle à l’aide d’indicateurs tels que l’exactitude, la précision, le rappel et le score F1, et évalué par rapport à des références établies.

Un modèle de classification de texte performant peut être intégré dans les systèmes de production où il classifie le texte entrant en temps réel.

Les modèles Advanced peuvent s’améliorer au fil du temps grâce à l’intégration de nouvelles données et à un réentraînement. Les modèles de langage préentraînés comme BERT ont déjà acquis une compréhension approfondie du langage et peuvent être finement réglés pour des tâches de classification spécifiques avec relativement peu de données. Le réglage fin réduit le temps d’entraînement et améliore performance, en particulier pour les catégories complexes ou nuancées.

Classification de texte non supervisée

Bien que les méthodes supervisées soient beaucoup plus courantes, les modèles peuvent être formés sans données étiquetées à l’aide d’un apprentissage non supervisé. Au lieu de se voir indiquer la catégorie correcte pour chaque texte, le modèle essaie de trouver une structure ou des schémas dans les données par lui-même. Cela contraste avec la classification de texte supervisée, où chaque exemple de formation est étiqueté avec une catégorisation prédéfinie. Les méthodes supervisées sont beaucoup plus courantes.

Par exemple, avec une technique appelée partitionnement, le modèle regroupe les pièces de texte similaires en clusters en fonction des fonctionnalités partagées, qui peuvent ensuite être interprétées comme une catégorie.

AI Academy

Exploiter l’IA pour le service client

Découvrez comment l’IA générative peut ravir les clients avec une expérience plus transparente et augmenter la productivité de l’organisation dans ces trois domaines clés : le libre-service, les agents humains et les opérations du centre de contact.

Cas d’utilisation de la classification de texte

Voici quelques tâches de PNL courantes liées à la classification :

  • Détection des spams
  • Analyse des sentiments
  • Classement des sujets
  • Détection des intentions
  • Détection de la toxicité et des abus

Détection des spams

Les systèmes de détection du spam analysent les messages entrants et les classent comme « spam » ou « non-spam ». Ils utilisent un ensemble de règles, de modèles statistiques et de techniques de machine learning pour détecter les e-mails de phishing, les messages de marketing de masse provenant d’expéditeurs inconnus, les liens suspects, les logiciels malveillants, etc.

Analyse des sentiments

L’analyse des sentiments consiste à analyser de grands volumes de texte pour déterminer leur sentiment. L’analyse des sentiments aide les entreprises à déterminer si les gens associent des sentiments positifs ou négatifs aux points de contact numériques.

Un algorithme de machine learning peut évaluer le sentiment à l’aide des mots qui apparaissent dans le texte ainsi que l’ordre dans lequel ils apparaissent. Les développeurs recourent à des algorithmes d’analyse des sentiments pour enseigner aux logiciels comment identifier les émotions dans le texte de la même manière que le feraient des humains.

Classement des sujets

L’objectif de la classification thématique est d’attribuer des catégories de sujet prédéfinies à un morceau de texte. Ce type de format est couramment utilisé dans la gestion de contenu, l’agrégation, la recherche universitaire et l’analyse des commentaires client pour organiser de grands volumes de texte non structuré.

Détection d’intention

Alors que la classification des sujets vous indique à quoi correspond un message, la détection des intentions vous indique ce que l’utilisateur essaie de faire. La détection des intentions est utile pour automatiser les conversations et les tâches de routage dans le service client ou le commerce électronique. Sans cela, les systèmes auraient du mal à fournir une assistance significative.

Détection de la toxicité et des abus

La détection de la toxicité et des abus est une tâche de classification de texte qui se concentre sur l’identification et le signalement des contenus nuisibles, offensants ou abusifs en ligne. Il peut s’agir de propos haineux, menaçants, harcelant, obscènes ou autrement inappropriés. Les grandes plateformes de médias sociaux utilisent des algorithmes de classification pour aider leur personnel d’assistance à gérer d’énormes bases d’utilisateurs mondiales.

Cadres des exigences, outils et API

De nombreux outils open source sont disponibles pour créer des classificateurs de texte. Les cadres comme TensorFlow et PyTorch offrent des composants pour la création et l’entraînement de modèles. Par exemple, un classificateur basé sur Tensorflow peut utiliser une API Keras avec des modules tels que validation_data, optimizer et loss pour entraîner un modèle à partir de données étiquetées. PyTorch, une bibliothèque de machine learning basée sur Python connue pour sa flexibilité, est également largement utilisée avec des utilitaires tels que DataLoader et nn.Module.

Alors que les classificateurs traditionnels utilisent des étiquettes fixes, l’essor des grands modèles de langage (LLM) a introduit des approches génératives en matière de classification. Les modèles peuvent être promptés à produire à la fois des étiquettes et des explications en langage naturel. Par exemple, on peut prompt un LLM avec une phrase et lui demander de classer le sentiment, de générer une justification ou de suggérer des catégories, le tout sans entraînement supplémentaire.

Avec l’accélération GPU, les temps d’entraînement sont considérablement réduits, en particulier pour les grands jeux de données ou les architectures d’apprentissage profond complexes. Les chercheurs et les développeurs partagent souvent leurs pipelines et modèles d’entraînement sur GitHub.

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct