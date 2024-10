Pour découvrir les différences entre les opérations de l'algorithme de racinisation, nous pouvons traiter cette ligne de l'œuvre Songe d'une nuit d'été de Shakespeare : « Love looks not with the eyes but with the mind, and therefore is winged Cupid painted blind. » (L'amour ne voit pas avec les yeux, mais avec l'âme ; et voilà pourquoi l'ailé Cupidon est peint aveugle.) Avant la racinisation, les utilisateurs doivent tokeniser les données textuelles brutes. Le générateur de jetons intégré de la boîte à outils de langage naturel Python (NLTK) génère le texte cité comme suit :

Tokenisé : ['Love', 'looks', 'not', 'with', 'the', 'eyes', 'but', 'with', 'the', 'mind', ',', 'and', 'therefore', 'is', 'winged', 'Cupid', 'painted', 'blind', '.']

En exécutant le résultat tokenisé sur plusieurs racinisations, nous pouvons observer en quoi les algorithmes de racinisation diffèrent.