Le traitement automatique du langage naturel (NLP) combine la linguistique informatique (modélisation du langage humain basée sur des règles) avec des modèles statistiques et des modèles de machine learning pour permettre aux ordinateurs et aux appareils numériques de reconnaître, de comprendre et de générer du texte et de la parole.
Branche de l’intelligence artificielle (IA), le NLP est au cœur d’applications et de dispositifs qui permettent
souvent en temps réel. La plupart des gens ont déjà eu l’occasion d’interagir avec le NLP par le biais de systèmes GPS à commande vocale, d’assistants digitaux, de logiciels de reconnaissance vocale, de chatbots de service client et d’autres fonctionnalités pratiques pour les consommateurs. Mais le NLP joue également un rôle croissant dans les solutions d’entreprise destinées à rationaliser et automatiser les opérations métier, augmenter la productivité des employés et simplifier les processus métier critiques.
Utilisez ce cadre de sélection de modèles pour choisir le modèle le plus approprié tout en équilibrant vos exigences de performance avec les coûts, les risques et les besoins de déploiement.
Obtenir le livre blanc sur la gouvernance de l’IA
Le langage humain regorge d’ambiguïtés qui rendent extrêmement difficile la création de logiciels capables de déterminer avec précision le sens de données textuelles ou vocales. Les homonymes, les homophones, le sarcasme, les expressions idiomatiques, les métaphores, les exceptions de grammaire et d’usage, les variations dans la structure des phrases ne sont que quelques-unes des irrégularités du langage humain qui nécessitent de nombreuses années d’apprentissage pour l’homme, mais que les applications basées sur le langage naturel doivent apprendre à reconnaître et à comprendre avec précision dès le départ, si l’on veut qu’elles soient utiles.
Le NLP décompose les données textuelles et vocales humaines en plusieurs tâches de manière à aider l’ordinateur à donner un sens à ce qu’il ingère. Ces tâches comprennent :
Consultez l’article de blog « NLP, NLU et NLG : les différences entre trois concepts de traitement automatique du langage naturel » pour en savoir plus sur les liens entre ces concepts.
Découvrez notre nouveau studio destiné aux entreprises qui réunit le machine learning traditionnel et les nouvelles capacités d’IA générative alimentées par des modèles de fondation.
Le langage de programmation Python fournit un large éventail d’outils et de bibliothèques pour exécuter des tâches spécifiques de traitement automatique du langage naturel. Beaucoup d’entre eux se trouvent dans la boîte à outils NLTK (Natural Language Toolkit), une collection open source de bibliothèques, de programmes et de ressources de formation pour la création de programmes de NLP.
La NLTK comprend des bibliothèques pour la plupart des tâches de NLP mentionnées ci-dessus, ainsi que des bibliothèques pour des sous-tâches telles que l’analyse syntaxique, la segmentation des mots, la radicalisation et la lemmatisation (méthodes de réduction des mots à leur racine) et la segmentation en unités (pour décomposer des expressions, phrases, paragraphes et passages en unités qui aident l’ordinateur à mieux comprendre le texte). Elle comprend également des bibliothèques permettant d’implémenter des fonctionnalités telles que le raisonnement sémantique, c’est-à-dire la capacité de tirer des conclusions logiques à partir de faits extraits d’un texte.
Les premières applications de NLP étaient des systèmes codés à la main et basés sur des règles qui étaient capables d’effectuer certaines tâches de NLP, mais qui ne pouvaient pas facilement évoluer pour s’adapter à la liste interminable d’exceptions ou aux volumes croissants de données textuelles et vocales.
C’est là qu’intervient le NLP statistique, qui combine des algorithmes informatiques avec des modèles de machine learning et d’apprentissage profond pour extraire, classer et étiqueter automatiquement les éléments des données textuelles et vocales, puis attribuer une probabilité statistique à chaque signification possible de ces éléments. Aujourd’hui, les modèles d’apprentissage profond et les techniques d’apprentissage basés sur les réseaux neuronaux convolutifs (CNN) et les réseaux neuronaux récurrents (RNN) permettent aux systèmes de NLP d’apprendre au fur et à mesure qu’ils travaillent et d’extraire un sens toujours plus précis d’énormes volumes de données textuelles et vocales brutes, non structurées et non étiquetées.
Pour en savoir plus sur les nuances entre ces technologies et leurs approches d’apprentissage, consultez l’article « IA, machine learning, apprentissage profond et réseaux de neurones : quelles différences ? »
Le traitement automatique du langage naturel est le moteur de l’intelligence artificielle dans de nombreuses applications modernes du monde réel. En voici quelques exemples :
Accélérez la valeur métier de l’intelligence artificielle grâce à un portefeuille puissant et flexible de bibliothèques, de services et d’applications.
Intégrez une puissante IA en langage naturel dans les applications métier grâce à une bibliothèque conteneurisée conçue pour offrir une plus grande flexibilité aux partenaires IBM.
Découvrez les concepts fondamentaux de l’IA et de l’IA générative, notamment le prompt engineering, les grands modèles de langage et les meilleurs projets open source.
Découvrez les différents cas d’utilisation du NLP dans ce document explicatif sur le NLP.
Visitez le site Web IBM Developer pour accéder à des blogs, des articles, des bulletins d’information et plus encore. Devenez partenaire IBM et incorporez l’IA intégrable IBM Watson dans vos solutions commerciales dès aujourd’hui. IBM Watson NLP Library for Embed dans vos solutions.
Rob Thomas, directeur général des données et de l’IA chez IBM, accueille des experts en traitement automatique du langage naturel et des clients pour leur montrer comment les technologies du traitement automatique du langage naturel optimisent les activités d’entreprises de tous secteurs.
Les considérations éthiques relatives à l’IA n’ont jamais été aussi cruciales qu’aujourd’hui.
IBM a lancé une nouvelle boîte à outils open source, PrimeQA, pour faire progresser les systèmes de questions-réponses multilingues afin de permettre à quiconque de trouver plus facilement et rapidement des informations sur le Web.