Python et la boîte à outils du langage naturel (NLTK)

Le langage de programmation Python fournit un large éventail d’outils et de bibliothèques pour exécuter des tâches spécifiques de traitement automatique du langage naturel. Beaucoup d’entre eux se trouvent dans la boîte à outils NLTK (Natural Language Toolkit), une collection open source de bibliothèques, de programmes et de ressources de formation pour la création de programmes de NLP.

La NLTK comprend des bibliothèques pour la plupart des tâches de NLP mentionnées ci-dessus, ainsi que des bibliothèques pour des sous-tâches telles que l’analyse syntaxique, la segmentation des mots, la radicalisation et la lemmatisation (méthodes de réduction des mots à leur racine) et la segmentation en unités (pour décomposer des expressions, phrases, paragraphes et passages en unités qui aident l’ordinateur à mieux comprendre le texte). Elle comprend également des bibliothèques permettant d’implémenter des fonctionnalités telles que le raisonnement sémantique, c’est-à-dire la capacité de tirer des conclusions logiques à partir de faits extraits d’un texte.

NLP statistique, machine learning et apprentissage profond

Les premières applications de NLP étaient des systèmes codés à la main et basés sur des règles qui étaient capables d’effectuer certaines tâches de NLP, mais qui ne pouvaient pas facilement évoluer pour s’adapter à la liste interminable d’exceptions ou aux volumes croissants de données textuelles et vocales.

C’est là qu’intervient le NLP statistique, qui combine des algorithmes informatiques avec des modèles de machine learning et d’apprentissage profond pour extraire, classer et étiqueter automatiquement les éléments des données textuelles et vocales, puis attribuer une probabilité statistique à chaque signification possible de ces éléments. Aujourd’hui, les modèles d’apprentissage profond et les techniques d’apprentissage basés sur les réseaux neuronaux convolutifs (CNN) et les réseaux neuronaux récurrents (RNN) permettent aux systèmes de NLP d’apprendre au fur et à mesure qu’ils travaillent et d’extraire un sens toujours plus précis d’énormes volumes de données textuelles et vocales brutes, non structurées et non étiquetées.

Pour en savoir plus sur les nuances entre ces technologies et leurs approches d’apprentissage, consultez l’article « IA, machine learning, apprentissage profond et réseaux de neurones : quelles différences ? »