Procesamiento del lenguaje natural (NLP)
Inteligencia artificial
Blue glowing circle pixels on edge of LED screen. Computer generated abstract background rendered with DOF
Procesamiento del lenguaje natural (NLP)

El procesamiento del lenguaje natural se esfuerza por construir máquinas que comprendan y respondan a datos de texto o voz, y respondan con texto o voz propios, de la misma manera que lo hacen los seres humanos.

Productos destacados

IBM Watson Assistant

IBM Watson Discovery


¿Qué es el procesamiento del lenguaje natural?

El procesamiento del lenguaje natural (NLP) se refiere a la rama de la informática y, más específicamente, a la rama de la inteligencia artificial o IA, a la que le interesa dotar a las computadoras de la capacidad de comprender texto y palabras habladas de la misma manera que los seres humanos.

El NLP combina la lingüística computacional (modelado del lenguaje humano basado en reglas) con modelos estadísticos, de aprendizaje automático y de aprendizaje profundo. Juntas, estas tecnologías permiten que las computadoras procesen el lenguaje humano en forma de texto o datos de voz y "comprendan" su significado completo, con la intención y el sentimiento de la persona que habla o escribe.

El NLP impulsa programas informáticos que traducen texto de un idioma a otro, responden a comandos hablados y resumen grandes volúmenes de texto rápidamente, incluso en tiempo real. Es muy probable que haya interactuado con el NLP en forma de sistemas GPS operados por voz, asistentes digitales, software de dictado de voz a texto, chatbots de servicio al cliente y otras comodidades para el consumidor. Pero el NLP también desempeña un papel cada vez más importante en las soluciones empresariales que ayudan a agilizar las operaciones comerciales, aumentar la productividad de los empleados y simplificar los procesos comerciales de misión crítica.


Tareas del NLP

El lenguaje humano está lleno de ambigüedades que hacen que sea increíblemente difícil escribir software que determine con precisión el significado deseado del texto o los datos de voz. Homónimos, homófonos, sarcasmo, modismos, metáforas, excepciones gramaticales y de uso, variaciones en la estructura de la oración: estas son solo algunas de las irregularidades del lenguaje humano que los seres humanos tardan años en aprender, pero que los programadores deben enseñar a las aplicaciones basadas en el lenguaje natural a reconocer y comprender con exactitud desde el principio, si esas aplicaciones van a ser útiles.

Varias tareas del NLP desglosan el texto humano y los datos de voz de manera que ayudan a la computadora a dar sentido a lo que ingiere. Entre estas tareas se incluyen las siguientes:

  • Reconocimiento de voz, también llamado voz a texto, es la tarea de convertir de manera confiable datos de voz en datos de texto. El reconocimiento de voz es necesario para cualquier aplicación que siga comandos de voz o responda preguntas habladas. Lo que hace que el reconocimiento de voz sea especialmente complejo es la forma en que las personas hablan: rápidamente, arrastrando las palabras, con diferentes énfasis y entonación, con diferentes acentos y, a menudo, con una gramática incorrecta.
  • Etiquetado de parte del discurso, también llamado etiquetado gramatical, es el proceso de determinar la parte gramatical de una palabra o fragmento de texto en particular en función de su uso y contexto. Parte del discurso identifica "hacer" como verbo en "Puedo hacer un avión de papel" y como sustantivo en "¿De qué marca es su automóvil?"
  • (en inglés, make (hacer / marca) es un verbo y también un sustantivo).
  • Desambiguación del sentido de las palabras es la selección del significado de una palabra con múltiples significados  a través de un proceso de análisis semántico que determina la palabra que tiene más sentido en el contexto dado. Por ejemplo, la desambiguación del sentido de las palabras ayuda a distinguir el significado del verbo  "hacer" en "hacer lo necesario" (lograr algo) versus "hacer una apuesta" (colocar).
  • Reconocimiento de la entidad nombrada,  o NEM, identifica palabras o frases como entidades útiles. NEM identifica "Kentucky" como una ubicación o "Fred" como el nombre de un hombre.
  • Resolución de coreferencia es la tarea de identificar si dos palabras se refieren a la misma entidad y cuándo lo hacen. El ejemplo más común es determinar la persona u objeto al que se refiere un determinado pronombre (por ejemplo, "ella" = "María"),  pero también puede implicar identificar una metáfora o un modismo en el texto  (por ejemplo, un caso en el que "oso" no es un animal sino una persona grande y velluda).
  • Análisis de sentimientos  intenta extraer del texto cualidades subjetivas (actitudes, emociones, sarcasmo, confusión, sospecha).
  • Generación de lenguaje natural  a veces se describe como lo opuesto al reconocimiento de voz o conversión de voz a texto; es la tarea de transformar información estructurada en lenguaje humano.

Ver la publicación del blog "NLP vs. NLU vs. NLG: las diferencias entre tres conceptos de procesamiento del lenguaje natural" para entender mejor cómo se relacionan estos conceptos.


Herramientas y enfoques de NLP

Python y el kit de herramientas de lenguaje natural (NLTK)

El lenguaje de programación Python proporciona una amplia gama de herramientas y bibliotecas para abordar tareas específicas del NLP. Muchas de estas se encuentran en Natural Language Toolkit, o NLTK, una colección de código abierto de bibliotecas, programas y recursos educativos para crear programas de NLP.

El NLTK incluye bibliotecas para muchas de las tareas de NLP enumeradas anteriormente, además de bibliotecas para subtareas, como análisis sintáctico de oraciones, segmentación de palabras, derivación y lematización (métodos para recortar palabras a sus raíces) y tokenización (para dividir frases, oraciones, párrafos y pasajes en fichas que ayudan a la computadora a comprender mejor el texto). También incluye bibliotecas para implementar capacidades como el razonamiento semántico, la capacidad de llegar a conclusiones lógicas basadas en hechos extraídos del texto.

NLP estadístico, aprendizaje automático y aprendizaje profundo

Las primeras aplicaciones de NLP eran sistemas codificados manualmente y basados en reglas que podían realizar ciertas tareas de NLP, pero no podían escalar fácilmente para adaptarse a un flujo aparentemente interminable de excepciones o los crecientes volúmenes de datos de texto y voz.

Introduzca la NLP estadística, que combina algoritmos informáticos con modelos de aprendizaje automático y aprendizaje profundo para extraer, clasificar y etiquetar automáticamente elementos de texto y datos de voz y luego asignar una probabilidad estadística a cada posible significado de esos elementos. Hoy en día, los modelos de aprendizaje profundo y las técnicas de aprendizaje basadas en redes neuronales convolucionales (CNN) y redes neuronales recurrentes (RNN) permiten que los sistemas de NLP "aprendan" mientras trabajan y extraen un significado cada vez más preciso de grandes volúmenes de datos de texto y voz sin formato, sin estructura y sin etiquetas. 

Para profundizar en los matices entre estas tecnologías y sus enfoques de aprendizaje, consulte "IA vs. aprendizaje automático vs. aprendizaje profundo vs. redes neuronales: ¿cuál es la diferencia?"


Casos de uso de NLP

El procesamiento del lenguaje natural es la fuerza que impulsa la inteligencia artificial en muchas aplicaciones modernas del mundo real. Estos son algunos ejemplos:

  • Detección de spam:  Puede que no piense en la detección de spam como una solución de NLP, pero las mejores tecnologías de detección de spam utilizan las capacidades de clasificación de texto de NLP para escanear correos electrónicos en busca de lenguaje que a menudo indica spam o phishing. Estos indicadores pueden incluir el uso excesivo de términos financieros, mala gramática característica, lenguaje amenazante, urgencia inapropiada, nombres de empresas mal escritos, entre otros. La detección de spam es uno de los pocos problemas de NLP que los expertos consideran "en su mayoría resueltos" (aunque puede argumentar que esto no coincide con su experiencia con el correo electrónico).
  • Traducción automática:  Google Translate es un ejemplo de la tecnología de NLP ampliamente disponible en funcionamiento. La traducción automática realmente útil implica más que reemplazar palabras de un idioma por palabras de otro.  La traducción eficaz debe capturar con precisión el significado y el tono del idioma de entrada y traducirlo a texto con el mismo significado y el impacto deseado en el idioma de salida. Las herramientas de traducción automática están progresando en términos de precisión. Una excelente manera de probar cualquier herramienta de traducción automática es traducir el texto a un idioma y luego nuevamente al idioma al original. Un ejemplo clásico frecuentemente citado: no hace mucho, si se traducía "El espíritu está dispuesto, pero la carne es débil" del inglés al ruso y viceversa, se obtenía "El vodka está bueno pero la carne está podrida". Hoy, el resultado es "El espíritu quiere, pero la carne es débil", que no es perfecto, pero inspira mucha más confianza en la traducción del inglés al ruso.
  • Agentes virtuales y chatbots: Agentes virtuales como Siri de Apple y Alexa de Amazon utilizan el reconocimiento de voz para reconocer patrones en los comandos de voz y la generación de lenguaje natural para responder con acciones apropiadas o comentarios útiles. Los chatbots hacen la misma en respuesta a los apuntes de texto mecanografiado. Los mejores también aprenden a reconocer pistas contextuales sobre las solicitudes humanas y las utilizan para proporcionar respuestas u opciones aún mejores a lo largo del tiempo. La próxima mejora para estas aplicaciones es la respuesta a preguntas, la capacidad de responder a nuestras preguntas, esperadas o no, con respuestas relevantes y útiles en sus propias palabras.
  • Análisis de sentimientos en las redes sociales: El NLP se ha convertido en una herramienta comercial esencial para descubrir información sobre datos ocultos en los canales de las redes sociales. El análisis de sentimientos puede analizar el lenguaje utilizado en publicaciones de redes sociales, respuestas, reseñas y más para extraer actitudes y emociones en respuesta a productos, promociones y eventos; información que las empresas pueden usar en diseños de productos, campañas publicitarias, entre otros.
  • Resumen de texto: El resumen de texto utiliza técnicas de NLP para digerir grandes volúmenes de texto digital y crear resúmenes y sinopsis para índices, bases de datos de investigación o para lectores ocupados que no tienen tiempo para leer el texto completo. Las mejores aplicaciones de resumen de texto utilizan el razonamiento semántico y la generación de lenguaje natural (NLG) para agregar contexto y conclusiones útiles a los resúmenes.

Procesamiento del lenguaje natural e IBM Watson
  • IBM ha innovado en el espacio de la inteligencia artificial al ser pionera en herramientas y servicios impulsados por el NLP que permiten a las organizaciones automatizar sus complejos procesos comerciales mientras obtienen conocimientos comerciales esenciales. Estas herramientas incluyen:
    • Watson Discovery: obtenga respuestas de alta calidad e información valiosa de sus documentos empresariales complejos (tablas, PDF, big data, entre otros) con la búsqueda de IA. Permita que sus empleados tomen decisiones más informadas y ahorren tiempo con el motor de búsqueda en tiempo real y las capacidades de minería de texto que realizan extracción de texto y analizan relaciones y patrones ocultos en datos no estructurados. Watson Discovery aprovecha los modelos personalizados de NLP y los métodos de aprendizaje automático para proporcionar a los usuarios una inteligencia artificial que comprenda el lenguaje exclusivo de su industria y negocio. Explore Watson Discovery
    • Comprensión del lenguaje natural de Watson (NLU): analice texto en formatos de datos no estructurados, incluidos HTML, páginas web, redes sociales, entre otros. Mejore su comprensión del lenguaje humano aprovechando este kit de herramientas de lenguaje natural para identificar conceptos, palabras clave, categorías, semántica y emociones, y para realizar clasificación de texto, extracción de entidades, reconocimiento de entidades con nombre (NER), análisis de sentimientos y resúmenes. Explore Watson Natural Language Understanding
    • Watson Assistant: mejore la experiencia del cliente a la vez que reduce costos. Watson Assistant es un chatbot con IA con un constructor visual fácil de usar que le permitirá implementar agentes virtuales en cualquier canal, en cuestión de minutos.  Explore Watson Assistant
    • Diseñado específicamente para los dominios de la salud y las ciencias biológicas, IBM Watson Annotator for Clinical Data extrae conceptos clínicos clave del texto en lenguaje natural, como enfermedades, medicamentos, alergias y procedimientos. Los conocimientos y valores contextuales profundos para los atributos clínicos clave desarrollan datos más significativos. Las posibles fuentes de datos incluyen apuntes clínicos, resúmenes de alta, protocolos de ensayos clínicos y datos científicos.

  • Para obtener más información sobre cómo empezar con una de las tecnologías de procesamiento del lenguaje natural de IBM Watson, visite la página IBM Watson Natural Language Processing. 

Regístrese para obtener un IBMid y cree su cuenta de IBM Cloud.


Soluciones relacionadas

Watson Natural Language Processing

Encuentre respuestas y conocimientos fundamentales a partir de los datos de su empresa mediante la tecnología de búsqueda empresarial impulsada por IA.


Watson Natural Language Understanding

Utilice el servicio de procesamiento de lenguaje natural (NLP) para la analítica de texto avanzada.


Watson Assistant

Resuelva los problemas de los clientes en el primer intento, en cualquier canal.