Qu’est-ce que le traitement automatique du langage naturel ? IBM

Qu’est-ce que le NLP ?

Le traitement automatique du langage naturel (NLP) combine la linguistique informatique (modélisation du langage humain basée sur des règles) avec des modèles statistiques et des modèles de machine learning pour permettre aux ordinateurs et aux appareils numériques de reconnaître, de comprendre et de générer du texte et de la parole.

Branche de l’intelligence artificielle (IA), le NLP est au cœur d’applications et de dispositifs qui permettent

de traduire du texte d’une langue à une autre
de répondre à des commandes saisies par écrit ou vocalement
de reconnaître ou d’authentifier des utilisateurs en fonction de la voix
de résumer de gros volumes de texte
d’évaluer l’intention ou le sentiment d’un texte ou d’un discours
de générer du texte, des graphiques ou d’autres contenus à la demande

souvent en temps réel. La plupart des gens ont déjà eu l’occasion d’interagir avec le NLP par le biais de systèmes GPS à commande vocale, d’assistants digitaux, de logiciels de reconnaissance vocale, de chatbots de service client et d’autres fonctionnalités pratiques pour les consommateurs. Mais le NLP joue également un rôle croissant dans les solutions d’entreprise destinées à rationaliser et automatiser les opérations métier, augmenter la productivité des employés et simplifier les processus métier critiques.

Choisir le bon modèle de fondation

Utilisez ce cadre de sélection de modèles pour choisir le modèle le plus approprié tout en équilibrant vos exigences de performance avec les coûts, les risques et les besoins de déploiement.

Contenu connexe

Obtenir le livre blanc sur la gouvernance de l’IA

Commencer votre transition vers l’IA

Découvrir comment dimensionner l’IA

Explorer l’AI Academy

Tâches de NLP

Le langage humain regorge d’ambiguïtés qui rendent extrêmement difficile la création de logiciels capables de déterminer avec précision le sens de données textuelles ou vocales. Les homonymes, les homophones, le sarcasme, les expressions idiomatiques, les métaphores, les exceptions de grammaire et d’usage, les variations dans la structure des phrases ne sont que quelques-unes des irrégularités du langage humain qui nécessitent de nombreuses années d’apprentissage pour l’homme, mais que les applications basées sur le langage naturel doivent apprendre à reconnaître et à comprendre avec précision dès le départ, si l’on veut qu’elles soient utiles.

Le NLP décompose les données textuelles et vocales humaines en plusieurs tâches de manière à aider l’ordinateur à donner un sens à ce qu’il ingère. Ces tâches comprennent :

La reconnaissance vocale, également appelée Speech to Text, consiste à convertir de manière fiable des données vocales en données textuelles. La reconnaissance vocale est nécessaire dans les applications qui suivent des commandes vocales ou répondent à des questions formulées oralement. Ce qui rend la reconnaissance vocale particulièrement difficile, c’est la façon dont les gens parlent : rapidement, en mélangeant des mots, avec une accentuation et une intonation variables, avec des accents différents et en utilisant souvent une grammaire incorrecte.
Le marquage des parties du discours, également appelé marquage grammatical, est le processus qui consiste à déterminer la partie du discours d’un mot ou d’un ensemble de mots particulier en fonction de son utilisation et de son contexte. La partie du discours identifie « devoir » comme un verbe dans « Il va devoir partir en train » et comme un nom dans « Je dois faire mon devoir de maths ? »
La désambiguïsation du sens des mots consiste à déterminer la signification d’un mot possédant des significations multiples par un processus d’ analyse sémantique qui détermine la signification qui a le plus de sens dans le contexte donné. Par exemple, la désambiguïsation du sens des mots aide à distinguer le sens du verbe « faire » dans « faire ses preuves » (réussir) par rapport à « faire un gâteau » (cuisiner).
La reconnaissance des entités nommées (NEM) identifie les mots ou les expressions en tant qu’entités utiles. NEM identifie « Kentucky » comme un lieu et « Fred » comme le nom d’un homme.
La résolution de coréférence consiste à identifier si et quand deux mots font référence à la même entité. L’exemple le plus courant consiste à déterminer la personne ou l’objet auquel un certain pronom fait référence (par exemple, « elle » = « Marie »), mais il peut également s’agir d’identifier une métaphore ou une expression idiomatique dans le texte (par exemple, quand un « ours » se réfère à une personne bourrue et non à un animal).
L’analyse des sentiments recherche des qualités subjectives telles que des attitudes, émotions, sarcasme, confusion, suspicion, etc. dans le texte.
La génération de langage naturel est parfois décrite comme l’opposé de la reconnaissance vocale ou de la reconnaissance vocale. Elle consiste à rendre des informations structurées en langage humain.

Consultez l’article de blog « NLP, NLU et NLG : les différences entre trois concepts de traitement automatique du langage naturel » pour en savoir plus sur les liens entre ces concepts.

Désormais disponible : watsonx.ai

Découvrez notre nouveau studio destiné aux entreprises qui réunit le machine learning traditionnel et les nouvelles capacités d’IA générative alimentées par des modèles de fondation.

Outils de NLP et approches

Python et la boîte à outils du langage naturel (NLTK)

Le langage de programmation Python fournit un large éventail d’outils et de bibliothèques pour exécuter des tâches spécifiques de traitement automatique du langage naturel. Beaucoup d’entre eux se trouvent dans la boîte à outils NLTK (Natural Language Toolkit), une collection open source de bibliothèques, de programmes et de ressources de formation pour la création de programmes de NLP.

La NLTK comprend des bibliothèques pour la plupart des tâches de NLP mentionnées ci-dessus, ainsi que des bibliothèques pour des sous-tâches telles que l’analyse syntaxique, la segmentation des mots, la radicalisation et la lemmatisation (méthodes de réduction des mots à leur racine) et la segmentation en unités (pour décomposer des expressions, phrases, paragraphes et passages en unités qui aident l’ordinateur à mieux comprendre le texte). Elle comprend également des bibliothèques permettant d’implémenter des fonctionnalités telles que le raisonnement sémantique, c’est-à-dire la capacité de tirer des conclusions logiques à partir de faits extraits d’un texte.

NLP statistique, machine learning et apprentissage profond

Les premières applications de NLP étaient des systèmes codés à la main et basés sur des règles qui étaient capables d’effectuer certaines tâches de NLP, mais qui ne pouvaient pas facilement évoluer pour s’adapter à la liste interminable d’exceptions ou aux volumes croissants de données textuelles et vocales.

C’est là qu’intervient le NLP statistique, qui combine des algorithmes informatiques avec des modèles de machine learning et d’apprentissage profond pour extraire, classer et étiqueter automatiquement les éléments des données textuelles et vocales, puis attribuer une probabilité statistique à chaque signification possible de ces éléments. Aujourd’hui, les modèles d’apprentissage profond et les techniques d’apprentissage basés sur les réseaux neuronaux convolutifs (CNN) et les réseaux neuronaux récurrents (RNN) permettent aux systèmes de NLP d’apprendre au fur et à mesure qu’ils travaillent et d’extraire un sens toujours plus précis d’énormes volumes de données textuelles et vocales brutes, non structurées et non étiquetées.

Pour en savoir plus sur les nuances entre ces technologies et leurs approches d’apprentissage, consultez l’article « IA, machine learning, apprentissage profond et réseaux de neurones : quelles différences ? »

cas d’utilisation du nlp

Le traitement automatique du langage naturel est le moteur de l’intelligence artificielle dans de nombreuses applications modernes du monde réel. En voici quelques exemples :

Détection des spams : vous ne pensez peut-être pas que la détection des spams est une solution de NLP, mais les meilleures technologies de détection des spams s’appuient sur les capacités de classification de texte du NLP pour analyser les e-mails à la recherche d’un langage qui indique souvent un spam ou un hameçonnage. Il peut s’agir de l’utilisation excessive de termes financiers, d’une mauvaise grammaire caractéristique, d’un langage menaçant, d’une urgence inappropriée, de noms d’entreprise mal orthographiés, etc. La détection des spams est l’un des rares problèmes de NLP que les experts considèrent comme « en grande partie résolus » (bien que vous puissiez contester que cela ne correspond pas à l’expérience que vous en avez).
Traduction automatique : Google Translate est un exemple de technologie NLP largement disponible. Une traduction automatique vraiment utile ne se limite pas à remplacer des mots d’une langue par des mots d’une autre. Une traduction efficace doit saisir avec précision le sens et le ton de la langue source et le rendre dans un texte ayant le même sens et l’impact souhaité dans la langue cible. La précision des outils de traduction automatique s’améliore de jour en jour. Un excellent moyen de tester un outil de traduction automatique est de traduire un texte dans une langue, puis de revenir à l’original. Un exemple classique souvent cité : il n’y a pas si longtemps, traduire « The spirit is willing but the flesh is weak » (« L’esprit est ardent mais la chair est faible ») de l’anglais au russe et inversement donnait « The vodka is good but the meat is rotten », c.-à-d. « La vodka est bonne mais la viande est pourrie. » Aujourd’hui, le résultat est « The spirit desires, but the flesh is weak », c.-à-d. « L’esprit désire, mais la chair est faible », ce qui n’est pas encore parfait, mais inspire beaucoup plus de confiance dans la traduction de l’anglais au russe.
Agents virtuels et chatbots : les agents virtuels tels que Siri d’Apple et Alexa d’Amazon utilisent la reconnaissance vocale pour repérer des schémas récurrents dans les commandes vocales et la génération de langage naturel afin de répondre par des actions appropriées ou des commentaires utiles. Les chatbots opèrent de la même manière en réponse aux textes saisis. Les meilleurs d’entre eux apprennent également à reconnaître des indices contextuels associés aux demandes humaines et à les utiliser pour fournir des réponses ou des options encore meilleures au fil du temps. La prochaine amélioration de ces applications est la réponse aux questions, c’est-à-dire la capacité de répondre à nos questions, anticipées ou non, par des réponses pertinentes et utiles avec leurs propres mots.
Analyse des sentiments sur les réseaux sociaux : le NLP est devenu un outil commercial essentiel pour mettre en lumière des informations cachées dans les données des réseaux sociaux. L’analyse des sentiments permet d’analyser le langage utilisé dans les messages publiés sur les médias sociaux, les réponses, les commentaires, etc. afin de déceler des attitudes et des émotions en réponse à des produits, des promotions et des événements. Ces informations peuvent ensuite être utilisées par les entreprises dans la conception de produits, de campagnes publicitaires, etc.
Résumé de texte : le résumé de texte utilise des techniques de NLP pour digérer d’énormes volumes de texte numérique et créer des résumés et des synopsis pour des index, des bases de données de recherche ou des lecteurs pressés qui n’ont pas le temps de lire le texte dans son intégralité. Les meilleures applications de résumé de texte utilisent le raisonnement sémantique et la génération de langage naturel (NLG) pour ajouter un contexte et des conclusions utiles aux résumés.

Solutions connexes

Solutions Watson pour le traitement automatique du langage naturel

Accélérez la valeur métier de l’intelligence artificielle grâce à un portefeuille puissant et flexible de bibliothèques, de services et d’applications.

Découvrir le traitement automatique du langage naturel

Watson Natural Language Processing Library for Embed

Intégrez une puissante IA en langage naturel dans les applications métier grâce à une bibliothèque conteneurisée conçue pour offrir une plus grande flexibilité aux partenaires IBM.

Découvrir Watson Natural Language Processing Library for Embed

Ressources

Apprentissage pratique gratuit pour les technologies d’IA générative

Découvrez les concepts fondamentaux de l’IA et de l’IA générative, notamment le prompt engineering, les grands modèles de langage et les meilleurs projets open source.

Traitement automatique du langage naturel avec Watson

Découvrez les différents cas d’utilisation du NLP dans ce document explicatif sur le NLP.

Améliorez vos applications avec l’IA intégrable d’IBM

Visitez le site Web IBM Developer pour accéder à des blogs, des articles, des bulletins d’information et plus encore. Devenez partenaire IBM et incorporez l’IA intégrable IBM Watson dans vos solutions commerciales dès aujourd’hui. IBM Watson NLP Library for Embed dans vos solutions.

Watson comprend le langage de votre entreprise

Rob Thomas, directeur général des données et de l’IA chez IBM, accueille des experts en traitement automatique du langage naturel et des clients pour leur montrer comment les technologies du traitement automatique du langage naturel optimisent les activités d’entreprises de tous secteurs.

Faire progresser l’éthique de l’IA au-delà de la simple conformité

Les considérations éthiques relatives à l’IA n’ont jamais été aussi cruciales qu’aujourd’hui.

Plus de connaissances à la portée des non-anglophones

IBM a lancé une nouvelle boîte à outils open source, PrimeQA, pour faire progresser les systèmes de questions-réponses multilingues afin de permettre à quiconque de trouver plus facilement et rapidement des informations sur le Web.

Passez à l’étape suivante

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio professionnel de nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai

Réserver une démo en direct