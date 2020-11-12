Aunque el procesamiento del lenguaje natural (PLN), la comprensión del lenguaje natural y la generación del lenguaje natural son temas relacionados, son temas distintos. A un alto nivel, CLN y GLN son solo componentes de PLN. Dada su intersección, suelen confundirse en una conversación, pero en esta publicación definiremos cada término individualmente y resumiremos sus diferencias para aclarar cualquier ambigüedad.
El procesamiento del lenguaje natural, que evolucionó a partir de la lingüística computacional, utiliza métodos de diversas disciplinas, como la informática, la inteligencia artificial, la lingüística y la ciencia de datos, para permitir que los ordenadores comprendan el lenguaje humano tanto en forma escrita como verbal. Mientras que la lingüística computacional se centra más en aspectos del lenguaje, el procesamiento del lenguaje natural hace hincapié en el uso de técnicas de machine learning y deep learning para completar tareas, como la traducción de idiomas o la respuesta a preguntas. El procesamiento del lenguaje natural funciona tomando datos no estructurados y convirtiéndolos en un formato de datos estructurados. Lo hace mediante la identificación de entidades (un proceso llamado named entity recognition) y la identificación de patrones de palabras, utilizando métodos como la tokenización, la derivación y la lematización, que examinan las formas raíz de las palabras. Por ejemplo, el sufijo -ed en una palabra en inglés, como "called", indica tiempo pasado, pero tiene la misma base infinitiva ("to call") que el verbo en tiempo presente "calling".
Aunque existen varios algoritmos de PLN, tienden a utilizarse diferentes enfoques para diferentes tipos de tareas lingüísticas. Por ejemplo, las cadenas de Markov ocultas tienden a utilizarse para el etiquetado de partes del discurso. Las redes neuronales recurrentes ayudan a generar la secuencia adecuada de texto. Los N-gramas, un modelo de lenguaje simple (LM), asignan probabilidades a oraciones o frases para predecir la precisión de una respuesta. Estas técnicas funcionan juntas para respaldar tecnologías populares como chatbots o productos de reconocimiento de voz como Alexa de Amazon o Siri de Apple. Sin embargo, su aplicación ha sido más amplia y ha afectado a otros sectores como la Formación y la sanidad.
La comprensión del lenguaje natural es un subconjunto del procesamiento del lenguaje natural, que utiliza el análisis sintáctico y semántico del texto y el habla para determinar el significado de una oración. La sintaxis se refiere a la estructura gramatical de una oración, mientras que la semántica alude a su significado previsto. La CLN también establece una ontología relevante: una estructura de datos que especifica las relaciones entre palabras y frases. Aunque los humanos hacen esto de forma natural en una conversación, la combinación de estos análisis es necesaria para que una máquina comprenda el significado previsto de diferentes textos.
Nuestra capacidad para distinguir entre homónimos y homófonos ilustra bien los matices del lenguaje. Por ejemplo, tomemos las siguientes dos oraciones:
En la primera oración, la palabra actual es un sustantivo. El verbo que lo precede, nadar, proporciona un contexto adicional al lector, lo que nos permite concluir que nos referimos al flujo de agua en el océano. La segunda frase utiliza la palabra actual, pero como adjetivo. El sustantivo que describe, versión, denota múltiples iteraciones de un informe, lo que nos permite determinar que nos referimos al estado más actualizado de un archivo.
Estos enfoques también se utilizan comúnmente en la minería de datos para comprender las actitudes de los consumidores. En particular, el análisis de sentimiento permite a las marcas controlar más de cerca su feedback, lo que les permite clúster los comentarios positivos y negativos en las redes sociales y realizar un seguimiento de las puntuaciones netas de los promotores. Al revisar las reseñas con sentimiento negativo, las empresas pueden identificar y abordar posibles áreas problemáticas dentro de sus productos o servicios con mayor rapidez.
La generación del lenguaje natural es otro subconjunto del procesamiento del lenguaje natural. Mientras que la comprensión del lenguaje natural se centra en la comprensión lectora del ordenador, la generación del lenguaje natural permite a los ordenadores escribir. La GLN es el proceso de producir una respuesta de texto en lenguaje humano basada en alguna entrada de datos. Este texto también se puede convertir a un formato de voz a través de servicios de texto a voz.
La GLN también abarca capacidades de resumen de texto que generan resúmenes a partir de documentos de entrada manteniendo la integridad de la información. El resumen extractivo es la innovación de IA que impulsa el análisis de puntos clave utilizado en That's Debatable.
Inicialmente, los sistemas GLN utilizaban plantillas para generar texto. Basándose en algunos datos o consultas, un sistema GLN llenaría el espacio en blanco, como un juego de Mad Libs. Pero con el tiempo, los sistemas de generación de lenguaje natural han evolucionado con la aplicación de cadenas de Markov ocultas, redes neuronales recurrentes y transformadores, lo que permite una generación de texto más dinámica en tiempo real.
Al igual que con CLN, las aplicaciones GLN deben tener en cuenta las reglas del lenguaje basadas en la morfología, el léxico, la sintaxis y la semántica para tomar decisiones sobre cómo formular las respuestas de manera adecuada. Abordan esto en tres etapas:
El procesamiento del lenguaje natural y sus subconjuntos tienen numerosas aplicaciones prácticas en el mundo actual, como los diagnósticos sanitarios o el servicio de atención al cliente en línea.
