Si bien el procesamiento de lenguaje natural (PLN), la comprensión de lenguaje natural y la generación de lenguaje natural son temas relacionados, son temas distintos. A un alto nivel, NLU y NLG son solo componentes de NLP. Dada la forma en que se cruzan, comúnmente se confunden dentro de la conversación, pero en esta publicación definiremos cada término individualmente y resumiremos sus diferencias para aclarar cualquier ambigüedad.
El procesamiento de lenguaje natural, que evolucionó a partir de la lingüística computacional, utiliza métodos de diversas disciplinas, como la informática, la inteligencia artificial, la lingüística y la ciencia de datos, para permitir que las computadoras comprendan el lenguaje humano tanto en forma escrita como verbal. Si bien la lingüística computacional se centra más en aspectos del lenguaje, el procesamiento de lenguaje natural enfatiza el uso de técnicas de machine learning y aprendizaje profundo para completar tareas, como la traducción de idiomas o la respuesta a preguntas. El procesamiento de lenguaje natural funciona tomando datos no estructurados y convirtiéndolos en un formato de datos estructurados. Lo hace a través de la identificación de entidades nombradas (un proceso llamado named entity recognition) y la identificación de patrones de palabras, utilizando métodos como tokenización, derivación y lematización, que examinan las formas raíz de las palabras. Por ejemplo, el sufijo -ed en una palabra, como llamado, indica tiempo pasado, pero tiene la misma base infinitiva (llamar) que el verbo en tiempo presente que llama.
Si bien existen varios algoritmos de PLN, tienden a utilizarse diferentes enfoques para diferentes tipos de tareas lingüísticas. Por ejemplo, las cadenas de Markov ocultas tienden a utilizarse para el etiquetado de partes del discurso. Las redes neuronales recurrentes ayudan a generar la secuencia adecuada de texto. Los N-gramas, un modelo de lenguaje simple (LM), asignan probabilidades a oraciones o frases para predecir la precisión de una respuesta. Estas técnicas funcionan juntas para admitir tecnología popular, como chatbots o productos de reconocimiento de voz como Alexa de Amazon o Siri de Apple. Sin embargo, su aplicación ha sido más amplia y ha afectado a otras industrias, como la educación y la atención médica.
Natural language understanding es un subconjunto del procesamiento de lenguaje natural, que utiliza el análisis sintáctico y semántico del texto y el habla para determinar el significado de una oración. La sintaxis se refiere a la estructura gramatical de una oración, mientras que la semántica alude a su significado previsto. NLU también establece una ontología relevante: una estructura de datos que especifica las relaciones entre palabras y frases. Si bien los humanos hacen esto naturalmente en una conversación, se requiere la combinación de estos análisis para que una máquina comprenda el significado previsto de diferentes textos.
Nuestra capacidad para distinguir entre homónimos y homófonos ilustra bien los matices del lenguaje. Por ejemplo, tomemos las siguientes dos oraciones:
En la primera oración, la palabra actual es un sustantivo. El verbo que lo precede, nadar, proporciona contexto adicional al lector, lo que nos permite concluir que nos referimos al flujo de agua en el océano. La segunda oración usa la palabra actual, pero como adjetivo. El sustantivo que describe, versión, denota múltiples iteraciones de un informe, lo que nos permite determinar que nos referimos al estado más actualizado de un archivo.
Estos enfoques también se utilizan comúnmente en la minería de datos para comprender las actitudes de los consumidores. En particular, el análisis de sentimientos permite a las marcas monitorear más de cerca el feedback de sus clientes, lo que les permite poner en clústers los comentarios positivos y negativos en las redes sociales y rastrear los puntajes netos de los promotores. Al revisar los comentarios con sentimiento negativo, las empresas pueden identificar y abordar posibles áreas problemáticas dentro de sus productos o servicios con mayor rapidez.
La generación de lenguaje natural es otro subconjunto del procesamiento de lenguaje natural. Mientras que la comprensión del lenguaje natural se centra en la comprensión de lectura por computadora, la generación del lenguaje natural permite que las computadoras escriban. NLG es el proceso de producir una respuesta de texto en lenguaje humano basada en alguna entrada de datos. Este texto también se puede convertir a un formato de voz a través de servicios de Text to Speech.
NLG también abarca capacidades de resumen de texto que generan resúmenes a partir de documentos de entrada mientras se mantiene la integridad de la información. El resumen extractivo es la innovación de IA que impulsa el análisis de puntos clave utilizado en That's Debatable.
Inicialmente, los sistemas NLG utilizaban plantillas para generar texto. Según algunos datos o consultas, un sistema NLG llenaría el espacio en blanco, como un juego de Mad Libs. Pero con el tiempo, los sistemas de generación de lenguaje natural han evolucionado con la aplicación de cadenas de Markov ocultas, redes neuronales recurrentes y transformadores, lo que permite una generación de texto más dinámica en tiempo real.
Al igual que con NLU, las aplicaciones de NLG deben considerar reglas de lenguaje basadas en morfología, léxicos, sintaxis y semántica para tomar decisiones sobre cómo formular las respuestas de manera adecuada. Abordan esto en tres etapas:
El procesamiento de lenguaje natural y sus subconjuntos tienen numerosas aplicaciones prácticas en el mundo actual, como diagnósticos de atención médica o atención al cliente en línea.
