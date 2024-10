Sac de n-grammes. L’utilisation de n-grammes à la place des mots peut corriger un certain nombre d’inconvénients inhérents aux modèles de sac de mots. Plutôt que de créer un modèle où chaque mot est une caractéristique, on peut utiliser des n-grammes comme caractéristiques vectorielles. Dans ce contexte, n fait référence au nombre de mots traités comme une seule unité sémantique, les bigrammes (c’est-à-dire deux mots) étant peut-être les plus courants dans les modèles de sac de n-grammes. Les bigrammes de mots sont utiles en ce sens qu’ils peuvent tenir compte des mots composés, tels que New York ou Tour Eiffel. Bien entendu, tous les bigrammes ne sont pas porteurs d’informations, par exemple sur le ou de la. Néanmoins, il s’agit d’un moyen de tenir compte des problèmes tels que les mots composés et la corrélation des mots entre eux.7

Techniques de normalisation du texte. Il est parfois nécessaire de normaliser les données textuelles brutes pour améliorer la structure et le fonctionnement des modèles de sac de mots. Lors de la création d’un modèle de sac de mots ou de sac de n-grammes, ce sont les mots comme les articles (par exemple, un, le, etc.) et les prépositions (par exemple, du, de, sur, etc.) qui peuvent compter le plus grand nombre d’occurrences. Ces mots ne fournissent pas beaucoup d’informations sur le contenu ou le type d’un document et sont donc largement inutiles dans les tâches de classification. Les techniques de prétraitement de texte comme la suppression des mots vides (souvent utilisées pour la racinisation) peuvent permettre d’éliminer les mots non pertinents des jeux de données textuelles afin d’améliorer la structure des modèles de sac de mots. Heureusement, nombre de bibliothèques et packages Python, tels que NLTK ou sklearn, contiennent des fonctions permettant d’appliquer des techniques de prétraitement courantes.

Hachage. En fait, le hachage de caractéristiques convertit les mots individuels des données de texte entrées en un ensemble numérique de taille fixe. Cette plage de chiffres fixe est ensuite utilisée pour construire l’espace vectoriel du modèle de sac de mots. Limiter la plage de chiffres, et donc les dimensions du modèle, à une taille fixe, permet d’éviter les phénomènes de parcimonie et de haute dimensionnalité. L’un des principaux inconvénients du hachage, c’est ce que l’on appelle les collisions. Une collision de hachage se produit lorsque deux jetons indépendants sont mappés sur le même entier. Un autre inconvénient du hachage, c’est qu’il ne prend pas en compte les mots polysémiques.8