¿Qué es el procesamiento del lenguaje natural (PLN)?
El procesamiento del lenguaje natural se esfuerza por crear máquinas que entiendan y respondan a datos de texto o voz, y respondan con texto o voz propios, de la misma manera que lo hacen los humanos
Fondo negro con puntos azules
¿Qué es el procesamiento del lenguaje natural?

El procesamiento del lenguaje natural (PLN) se refiere a la rama de la informática, y más específicamente a la rama de la inteligencia artificial o IA, que se ocupa de dar a las computadoras la capacidad de comprender textos y palabras habladas de la misma manera que los seres humanos.

El PLN combina la lingüística computacional (modelado del lenguaje humano basado en reglas) con modelos estadísticos, de machine learning y de deep learning. Juntas, estas tecnologías permiten que las computadoras procesen el lenguaje humano en forma de texto o datos de voz y "comprendan" su significado completo, con la intención y el sentimiento de la persona que habla o escribe.

El PLN impulsa programas informáticos que traducen texto de un idioma a otro, responden a comandos hablados y resumen grandes volúmenes de texto rápidamente, incluso en tiempo real. Es muy probable que haya interactuado con el PLN en forma de sistemas GPS operados por voz, asistentes digitales, software de dictado de voz a texto, chatbots de atención al cliente y otras ventajas para el consumidor. Pero el PLN también desempeña un papel cada vez más importante en las soluciones empresariales que ayudan a agilizar las operaciones empresariales, aumentar la productividad de los empleados y simplificar los procesos de negocio de misión crítica.

Tareas del PLN

El lenguaje humano está lleno de ambigüedades que hacen que sea increíblemente difícil escribir software que determine con precisión el significado deseado de los datos de texto o voz. Homónimos, homófonos, sarcasmo, modismos, metáforas, excepciones gramaticales y de uso, variaciones en la estructura de la oración: estas son solo algunas de las irregularidades del lenguaje humano que los seres humanos tardan años en aprender, pero que los programadores deben enseñar a las aplicaciones basadas en el lenguaje natural a reconocer y comprender con exactitud desde el principio para garantizar su eficacia.

Varias tareas del PLN desglosan los datos de texto y voz humanos de maneras que ayudan a la computadora a dar sentido a lo que ingiere. Entre estas tareas se incluyen las siguientes:

  • El reconocimiento de voz, también llamado voz a texto, es la tarea de convertir de manera confiable datos de voz en datos de texto. El reconocimiento de voz es necesario para cualquier aplicación que siga comandos de voz o responda preguntas habladas. Lo que hace que el reconocimiento de voz sea especialmente complejo es la forma en que las personas hablan: rápidamente, arrastrando las palabras, con diferentes énfasis y entonación, con diferentes acentos y, a menudo, con una gramática incorrecta.
  • El etiquetado de parte de la oración, también llamado etiquetado gramatical, es el proceso de determinar la función gramatical de una palabra o fragmento de texto en particular en función de su uso y contexto. La parte de la oración identifica "marca" como verbo en "Lo que marca la diferencia" y como sustantivo en "¿De qué marca es su automóvil?".
  • La desambiguación del sentido de las palabras es la selección del significado de una palabra con múltiples significados a través de un proceso de análisis semántico que determina la palabra que tiene más sentido en el contexto dado. Por ejemplo, la desambiguación del sentido de las palabras ayuda a distinguir el significado del verbo "hacer" en "hacer lo necesario" (lograr algo) versus "hacer una apuesta" (realizar).
  • El reconocimiento de entidades nombradas, o NEM, identifica palabras o frases como entidades útiles. NEM identifica "Kentucky" como una ubicación o "Fred" como el nombre de un hombre.
  • La resolución de correferencias es la tarea de identificar si dos palabras se refieren a la misma entidad y cuándo lo hacen. El ejemplo más común es determinar la persona u objeto al que se refiere un determinado pronombre (por ejemplo, "ella" = "María"), pero también puede implicar identificar una metáfora o un modismo en el texto (por ejemplo, un caso en el que "oso" no es un animal, sino una persona grande y velluda).
  • El análisis de sentimiento intenta extraer del texto cualidades subjetivas (actitudes, emociones, sarcasmo, confusión, sospecha).
  • La generación de lenguaje natural a veces se describe como lo opuesto al reconocimiento de voz o conversión de voz a texto; es la tarea de transformar información estructurada en lenguaje humano.

Vea la publicación del blog "PLN vs. CLN vs. GLN: las diferencias entre tres conceptos de procesamiento del lenguaje natural" para entender mejor cómo se relacionan estos conceptos.

Herramientas y enfoques de PLN

Python y el kit de herramientas de lenguaje natural (NLTK)

El lenguaje de programación Python proporciona una amplia variedad de herramientas y bibliotecas para abordar tareas específicas del PLN. Muchas de estas se encuentran en Natural Language Toolkit, o NLTK, una colección de código abierto de bibliotecas, programas y recursos educativos para crear programas de PLN.

El NLTK incluye bibliotecas para muchas de las tareas de PLN enumeradas anteriormente, además de bibliotecas para subtareas, como análisis sintáctico de oraciones, segmentación de palabras, derivación y lematización (métodos para recortar palabras a sus raíces) y tokenización (para dividir frases, oraciones, párrafos y pasajes en fichas que ayudan a la computadora a comprender mejor el texto). También incluye bibliotecas para implementar capacidades como el razonamiento semántico, la capacidad de llegar a conclusiones lógicas basadas en hechos extraídos del texto.

PLN estadístico, machine learning y deep learning

Las primeras aplicaciones de PLN eran sistemas codificados manualmente y basados en reglas que podían realizar ciertas tareas de PLN, pero no podían escalar fácilmente para adaptarse a un flujo aparentemente interminable de excepciones o los crecientes volúmenes de datos de texto y voz.

Así surgió el PLN estadístico, que combina algoritmos informáticos con modelos de machine learning y deep learning para extraer, clasificar y etiquetar automáticamente elementos de texto y datos de voz y luego asignar una probabilidad estadística a cada posible significado de esos elementos. Hoy en día, los modelos de deep learning y las técnicas de aprendizaje basadas en redes neuronales convolucionales (CNN) y redes neuronales recurrentes (RNN) permiten que los sistemas de PLN "aprendan" mientras trabajan y extraen un significado cada vez más preciso de grandes volúmenes de datos de texto y voz sin formato, sin estructura y sin etiquetas. 

Para descubrir más acerca de las características de estas tecnologías y sus enfoques de aprendizaje, vea "IA vs. machine learning vs. deep learning vs. redes neuronales: ¿cuál es la diferencia?".

.

Casos de uso de PLN

El procesamiento del lenguaje natural es la fuerza que impulsa la inteligencia artificial en muchas aplicaciones modernas del mundo real. Estos son algunos ejemplos:

  • Detección de spam: puede que no piense en la detección de spam como una solución de PLN, pero las mejores tecnologías de detección de spam utilizan las capacidades de clasificación de texto de PLN para escanear correos electrónicos en busca de lenguaje que a menudo indica spam o phishing. Estos indicadores pueden incluir el uso excesivo de términos financieros, gramática incorrecta típica, lenguaje amenazante, urgencia inapropiada, nombres de empresas mal escritos, entre otros. La detección de spam es uno de los pocos problemas de PLN que los expertos consideran "en su mayoría resueltos" (aunque podría argumentar que esto no coincide con su experiencia con el correo electrónico).
  • Traducción automática: Google Translate es un ejemplo de la tecnología de PLN ampliamente disponible en funcionamiento. La traducción automática realmente útil implica más que reemplazar palabras de un idioma por palabras de otro. La traducción eficaz debe capturar con precisión el significado y el tono del idioma fuente y traducirlo en un texto con el mismo significado y el impacto deseado en el idioma meta. Las herramientas de traducción automática están progresando en términos de precisión. Una excelente manera de probar cualquier herramienta de traducción automática es traducir el texto a un idioma y luego nuevamente al idioma original. Un ejemplo clásico frecuentemente citado: no hace mucho, si se traducía "El espíritu está dispuesto, pero la carne es débil" del inglés al ruso y viceversa, se obtenía "El vodka está bueno, pero la carne está podrida". Hoy, el resultado es "El espíritu quiere, pero la carne es débil", que no es perfecto, pero inspira mucha más confianza en la traducción del inglés al ruso.
  • Agentes virtuales y chatbots: los agentes virtuales como Siri de Apple y Alexa de Amazon utilizan el reconocimiento de voz para reconocer patrones en los comandos de voz y la generación de lenguaje natural para responder con acciones apropiadas o comentarios útiles. Los chatbots realizan el mismo procedimiento en respuesta a los apuntes de texto mecanografiado. Los mejores también aprenden a reconocer pistas contextuales sobre las solicitudes humanas y las utilizan para proporcionar respuestas u opciones aún mejores a lo largo del tiempo. La próxima mejora para estas aplicaciones es la respuesta a preguntas, la capacidad de responder a nuestras preguntas, esperadas o no, con respuestas relevantes y útiles en sus propias palabras.
  • Análisis de sentimientos en las redes sociales: el PLN se ha convertido en una herramienta comercial esencial para descubrir insights ocultos de datos en los canales de las redes sociales. El análisis de sentimientos puede analizar el lenguaje utilizado en publicaciones de redes sociales, respuestas, reseñas y más para extraer actitudes y emociones en respuesta a productos, promociones y eventos; información que las empresas pueden usar en diseños de productos, campañas publicitarias, entre otros.
  • Resumen de texto: el resumen de texto utiliza técnicas de PLN para digerir grandes volúmenes de texto digital y crear resúmenes y sinopsis para índices, bases de datos de investigación o para lectores ocupados que no tienen tiempo para leer el texto completo. Las mejores aplicaciones de resumen de texto utilizan el razonamiento semántico y la generación de lenguaje natural (GLN) para agregar contexto y conclusiones útiles a los resúmenes.
Soluciones relacionadas
Watson Natural Language Processing

Encuentre respuestas e insights fundamentales de sus datos empresariales mediante la tecnología de búsqueda empresarial impulsada por IA.

Explore IBM Watson Natural Language Processing
Watson Natural Language Understanding

Utilice el servicio de procesamiento del lenguaje natural (PLN) para la analítica de texto avanzada.

Explore IBM Watson Natural Language Understanding
Watson Assistant

Resuelva los problemas de los clientes en el primer intento, en cualquier canal.

Explore IBM Watson Assistant
Dé el siguiente paso

IBM ha innovado en el espacio de la inteligencia artificial al ser pionero en herramientas y servicios impulsados por PLN que permiten a las organizaciones automatizar sus complejos procesos de negocios mientras obtienen insights empresariales esenciales. Analice texto en formatos de datos no estructurados, incluidos HTML, páginas web, redes sociales y más. Mejore su comprensión del lenguaje humano aprovechando este kit de herramientas de lenguaje natural para identificar conceptos, palabras clave, categorías, semántica y emociones, y para realizar clasificación de texto, extracción de entidades, reconocimiento de entidades con nombre (NER), análisis de sentimientos y resúmenes.

Explore Watson Natural Language Understanding hoy mismo