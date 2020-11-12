Bien que le traitement automatique du langage naturel (NLP), la compréhension du langage naturel (NLU) et la génération de langage naturel (NLG) soient tous liés, ils sont distincts. À un niveau élevé, le NLU et le NLG ne sont que des composants du NLP. Étant donné leurs intersections, ils sont souvent confondus dans les conversations, mais dans cet article, nous définirons chaque terme individuellement et résumerons leurs différences afin de clarifier toute ambiguïté.
Le traitement automatique du langage naturel, une évolution de la linguistique informatique, utilise des méthodes issues de diverses disciplines, telles que l’informatique, l’intelligence artificielle, la linguistique et la science des données, pour permettre aux ordinateurs de comprendre le langage humain sous forme écrite et verbale. Alors que la linguistique informatique se concentre davantage sur les aspects linguistiques, le traitement du langage naturel met l'accent sur l'utilisation de techniques de machine learning et d'apprentissage profond pour accomplir des tâches telles que la traduction ou la réponse à des questions. Le traitement du langage naturel consiste à convertir des données non structurées en un format de données structuré. Pour ce faire, il identifie les entités nommées (un processus appelé reconnaissance d'entités nommées) et les modèles de mots, à l'aide de méthodes telles que la tokenisation, le stemming et la lemmatisation, qui examinent les formes racines des mots. Par exemple, le suffixe -ed en anglais d'un mot, comme « called », indique le passé, mais il a la même base infinitive (to call) que le verbe au présent « calling ».
Bien qu’un certain nombre d’algorithmes NLP existent, différentes approches ont tendance à être utilisées pour différents types de tâches linguistiques. Par exemple, les chaînes de Markov cachées sont généralement utilisées pour le marquage des parties du discours. Les réseaux de neurones récurrents permettent de générer la séquence de texte appropriée. Les N-grammes, un modèle linguistique simple (LM), attribuent des probabilités à des phrases ou des expressions afin de prédire la précision d'une réponse. Ces techniques fonctionnent ensemble pour soutenir des technologies populaires telles que les chatbots ou les produits de reconnaissance vocale comme Alexa d'Amazon ou Siri d'Apple. Cependant, leur application est plus large que cela et touche d'autres secteurs tels que l'éducation et la santé.
Le Natural Language Understanding est un sous-ensemble du traitement du langage naturel, qui utilise l'analyse syntaxique et sémantique du texte et de la parole pour déterminer le sens d'une phrase. La syntaxe fait référence à la structure grammaticale d’une phrase, tandis que la sémantique fait référence à son sens. Le NLU établit également une ontologie pertinente : une structure de données qui spécifie les relations entre les mots et les expressions. Bien que les humains le fassent naturellement dans les conversations, la combinaison de ces analyses est nécessaire pour qu'une machine comprenne le sens voulu des différents textes.
Notre capacité à distinguer les homonymes et les homophones illustre bien les nuances du langage. Prenons par exemple les deux phrases suivantes :
Dans la première phrase, le mot « courant » (current en anglais) est un nom. Le verbe qui le précède, nager, fournit un contexte supplémentaire au lecteur, nous permettant de conclure qu'il s'agit du flux de l'eau dans l'océan. La deuxième phrase utilise le mot « actuelle » (current en anglais), mais comme adjectif. Le nom qu'il décrit, version, désigne les multiples itérations d'un rapport, ce qui nous permet de déterminer que nous faisons référence à l'état le plus récent d'un fichier.
Ces approches sont également couramment utilisées dans l'exploration de données pour comprendre les attitudes des consommateurs. En particulier, l'analyse des sentiments permet aux marques de suivre de plus près les commentaires de leurs clients, ce qui leur permet de regrouper les commentaires positifs et négatifs sur les médias sociaux et de suivre les scores nets de recommandation. En examinant les commentaires négatifs, les entreprises sont en mesure d'identifier et de traiter plus rapidement les problèmes potentiels liés à leurs produits ou services.
La génération de langage naturel est un autre sous-ensemble du traitement du langage naturel. Alors que la compréhension du langage naturel se concentre sur la compréhension écrite par les ordinateurs, la génération de langage naturel permet aux ordinateurs d'écrire. Le NLG est le processus qui consiste à produire une réponse textuelle en langage humain à partir de certaines données saisies. Ce texte peut également être converti en un format vocal via des services de Text to Speech.
Le NLG offre également des fonctionnalités de synthèse de texte qui génèrent des résumés à partir de documents en entrée tout en préservant l’intégrité des informations. Le résumé extractif est l'innovation en matière d'intelligence artificielle qui alimente l'analyse des points clés utilisée dans That's Debatable.
Au départ, les systèmes NLG utilisaient des modèles pour générer du texte. À partir de certaines données ou requêtes, un système NLG remplissait les espaces vides, à l'instar du jeu Mad Libs. Cependant, au fil du temps, les systèmes de génération de langage naturel ont évolué grâce à l'application de chaînes de Markov cachées, de réseaux de neurones récurrents et de transformateurs, permettant une génération de texte plus dynamique en temps réel.
Tout comme pour le NLU, les applications NLG doivent tenir compte des règles linguistiques basées sur la morphologie, les lexiques, la syntaxe et la sémantique afin de choisir la formulation appropriée des réponses. Elles abordent cette question en trois étapes :
Le traitement automatique du langage naturel et ses sous-ensembles ont de nombreuses applications pratiques dans le monde moderne, comme les diagnostics médicaux ou le service client en ligne.
