¿Qué es el procesamiento del lenguaje natural (NLP)?
El objetivo del procesamiento del lenguaje natural es crear máquinas que entiendan y respondan a datos de texto o voz, y respondan con texto o voz propios, de la misma manera que lo hacen los humanos
Descubra la IA conversacional de IBM
Fondo negro con puntos azules
¿Qué es el procesamiento del lenguaje natural?

El procesamiento del lenguaje natural (NLP) hace referencia a la rama de la informática (y más específicamente, a la rama de la  inteligencia artificial o IA encargada de dar a los ordenadores la capacidad de comprender textos y palabras habladas de la misma manera que los seres humanos.

NLP combina la lingüística computacional (modelado basado en reglas del lenguaje humano) con modelos estadísticos, de machine learning y deep learning. Juntas, estas tecnologías permiten a los ordenadores procesar el lenguaje humano en forma de datos de texto o voz y "comprender" su significado completo, junto con la intención y el sentimiento del orador o escritor.

NLP impulsa programas que traducen de un idioma a otro, responden a órdenes habladas y resumen grandes volúmenes de texto rápidamente, incluso en tiempo real. Es muy probable que haya interactuado con NLP en forma de sistemas GPS operados por voz, asistentes digitales, software de dictado de voz a texto, chatbots de servicio al cliente y otros servicios para el consumidor. Sin embargo, NLP también juega un papel cada vez mayor en las soluciones empresariales que permiten optimizar las operaciones de negocio, aumentar productividad de los empleados y simplificar los procesos de negocio de misión crítica.

Tareas de NLP

El lenguaje humano está lleno de ambigüedades que hacen increíblemente difícil escribir software que determine con precisión el significado deseado de los datos de texto o voz. Los homónimos, los homófonos, el sarcasmo, las expresiones idiomáticas, las metáforas, las excepciones de gramática y uso o las variaciones en la estructura de la oración son solo algunas de las irregularidades del lenguaje humano que los humanos tardan años en aprender, pero que los programadores deben enseñar a reconocer y entender con precisión desde el principio a las aplicaciones basadas en el lenguaje natural si quieren ser útiles.

Varias tareas de NLP desglosan los datos de voz y texto humanos de manera que el sistema pueda dar sentido a lo que está ingiriendo. Algunas de estas tareas son:

  • El reconocimiento de voz, también denominado software de voz a texto, es la tarea de convertir de manera fiable los datos de voz en datos de texto. El reconocimiento de voz es necesario para cualquier aplicación que siga órdenes de voz o que responda a preguntas habladas. Lo que hace que el reconocimiento de voz sea especialmente difícil es la forma en la que hablan las personas: rápidamente, arrastrando las palabras, con énfasis y entonación variables, en diferentes acentos y, a menudo, usando una gramática incorrecta.
  • El etiquetado de parte del discurso, también denominado etiquetado gramatical, es el proceso de determinar la parte del discurso de una palabra o fragmento de texto específico con base en su uso y contexto. La parte del discurso identifica "lógica" como sustantivo en "La lógica de la frase" y como adjetivo en "La frase es lógica".
  • La desambiguación del sentido de la palabra es la selección del significado de una palabra con varios significados  a través de un proceso de análisis semántico que determina la palabra que tiene más sentido en cada contexto. Por ejemplo, la desambiguación del sentido de la palabra permite distinguir el significado del sustantivo  "vaca" en "la vaca del coche" (objeto) y en "vaca que ríe" (animal).
  • El reconocimiento de entidad denominada,  o NEM, identifica palabras o frases como entidades útiles. NEM identifica "Valencia" como una ubicación o "Alfredo" como el nombre de un hombre.
  • La resolución de correferencia es la tarea de identificar si y cuando dos palabras se refieren a la misma entidad. El ejemplo más común es determinar la persona u objeto al que se refiere un determinado pronombre (p. ej., "ella" = "María"), pero también puede implicar identificar una metáfora o una expresión idiomática en el texto (p. ej., una frase en la que "oso" no es un animal sino un persona gruesa y peluda).
  • El análisis de opinión  intenta de extraer cualidades subjetivas (actitudes, emociones, sarcasmo, confusión, sospecha) del texto.
  • La generación del lenguaje natural  a veces se describe como lo contrario al reconocimiento de voz o el software de voz a texto; es la tarea de convertir información estructurada en lenguaje humano.

Consulte la publicación de blog "NLP, NLU o NLG: diferencias entre tres conceptos del procesamiento del lenguaje natural" para profundizar en cómo se relacionan estos conceptos.

Herramientas y enfoques de NLP

Python y el kit de herramientas de lenguaje natural (NLTK)

El lenguaje de programación Python proporciona una amplia gama de herramientas y bibliotecas para abordar tareas específicas de NLP. Muchas de estas se encuentran en el kit de herramientas de lenguaje natural, o NLTK, una colección de código abierto de bibliotecas, programas y recursos de formación para crear programas de NLP.

NLTK incluye bibliotecas para muchas de las tareas de NLP citadas anteriormente, además de bibliotecas para subtareas como, por ejemplo, análisis de oraciones, segmentación de palabras, radicación y lematización (métodos de recorte de palabras hasta su raíz), y simbolización (para dividir frases, oraciones, párrafos y pasajes en símbolos que ayuden al sistema a comprender mejor el texto). También incluye bibliotecas para implementar prestaciones como el razonamiento semántico, la capacidad de alcanzar conclusiones lógicas basadas en hechos extraídos del texto.

NLP estadístico, machine learning y deep learning

Las primeras aplicaciones de NLP eran sistemas basados en reglas y codificados a mano que podían realizar determinadas tareas de NLP, pero no podían escalarse fácilmente para incluir una secuencia aparentemente interminable de excepciones o los crecientes volúmenes de datos de texto y voz.

Después llega el NLP estadístico, que combina algoritmos del sistema con modelos de machine learning y deep learning para extraer, clasificar y etiquetar automáticamente elementos de datos de texto y voz, y luego asignar una probabilidad estadística a cada posible significado de estos elementos. Hoy en día, los modelos de deep learning y las técnicas de aprendizaje basadas en redes neuronales convolucionales (CNN) y redes neuronales recurrentes (RNN) permiten a los sistemas NLP "aprender" a medida que trabajan y extraer un significado cada vez más preciso de enormes volúmenes de conjuntos de datos voz y texto sin procesar, sin estructurar y sin etiquetas. 

Para profundizar en los matices entre estas tecnologías y sus enfoques de aprendizaje, consulte "IA, machine learning, deep learning y redes neuronales: ¿en qué se diferencian?"

Casos de uso de NLP

El procesamiento del lenguaje natural es el motor detrás de la inteligencia de la máquina en muchas aplicaciones modernas del mundo real. Estos son algunos ejemplos:

  • Detección de correo no deseado: es posible que no haya pensado en la detección de correo no deseado como una solución de NLP, pero las mejores tecnologías de detección de correo no deseado utilizan las prestaciones de clasificación de texto de NLP para explorar los correos electrónicos en busca de lenguaje que a menudo indica casos de correo no deseado o phishing. Estos indicadores pueden incluir el uso excesivo de términos financieros, una gramática incorrecta característica, un lenguaje amenazante, una urgencia inapropiada, nombres de compañías mal escritos, etc. La detección de correo no deseado es uno de los pocos problemas de NLP que los expertos consideran "prácticamente resueltos" (aunque seguramente podría rebatir que esto no coincide con su experiencia con el correo electrónico).
  • Traducción automática: Google Translate es un ejemplo de tecnología NLP ampliamente disponible en el trabajo. Una traducción automática verdaderamente útil implica algo más que reemplazar palabras en un idioma por palabras en otro.  Una traducción eficaz debe capturar con precisión el significado y el tono del lenguaje de origen y traducirlos a un texto con el mismo significado e impacto en el lenguaje de destino. Las herramientas de traducción automática están haciendo grandes progresos en términos de exactitud. Una gran manera de probar una herramienta de traducción automática es traducir texto a un idioma y luego volver a traducirlo al idioma original. Un ejemplo clásico frecuentemente citado, de no hace tanto tiempo, es la traducción de "El espíritu está dispuesto, pero la carne es débil" del inglés al ruso y de nuevo al inglés, que daba como resultado "El vodka esta bueno, pero la carne está podrida". Hoy día, el resultado es "El espíritu desea, pero la carne es débil", que no es perfecto, pero inspira mucha más confianza en la traducción del inglés al ruso.
  • Agentes virtuales y chatbots: los agentes virtuales, como Siri de Apple y Alexa de Amazon, utilizan el reconocimiento de voz para reconocer patrones en las órdenes de voz y la generación del lenguaje natural para responder con acciones apropiadas o comentarios útiles. Los chatbots realizan la misma magia como respuesta a las entradas de texto escritas. Los mejores también aprenden a reconocer pistas contextuales sobre las solicitudes humanas y las utilizan para proporcionar mejores respuestas u opciones con el tiempo. La siguiente mejora para estas aplicaciones es la respuesta a preguntas, la capacidad de responder a nuestras preguntas, anticipadas o no, con respuestas relevantes y útiles en sus propias palabras.
  • El análisis de opinión en las redes sociales: NLP se ha convertido en una herramienta empresarial esencial para descubrir información útil en los datos ocultos en los canales de redes sociales. El análisis de opinión puede analizar el lenguaje utilizado en publicaciones en redes sociales, las respuestas, las reseñas, etc. para extraer actitudes y emociones como respuesta a productos, promociones y eventos. Esta es una información que las empresas pueden utilizar en diseños de productos, campañas publicidad, etc.
  • Resumen de texto: el resumen de texto utiliza técnicas de NLP para digerir grandes volúmenes de texto digital y crear resúmenes y sinopsis para índices, bases de datos de investigación o lectores ocupados que no tienen tiempo para leer el texto completo. Las mejores aplicaciones de resumen de texto utilizan el razonamiento semántico y la generación de lenguaje natural (NLG) para añadir contexto útil y conclusiones en los resúmenes.
Soluciones relacionadas
Procesamiento del lenguaje natural de Watson

Encuentre respuestas e información útil en sus datos empresariales utilizando una tecnología de búsqueda empresarial basada en IA.

Explore el procesamiento del lenguaje natural de IBM Watson
Watson Natural Language Understanding

El servicio de procesamiento del lenguaje natural (NLP) para el análisis de texto avanzado.

Explore IBM Watson Natural Language Understanding
Watson Assistant

Resuelva los problemas del cliente a la primera, en cualquier canal.

Explore IBM Watson Assistant
Dé el siguiente paso

IBM ha innovado en el campo de la inteligencia artificial y es pionera en ofrecer herramientas y servicios basados en NLP que permiten a las organizaciones automatizar sus complejos procesos de negocio a la vez que obtienen información empresarial esencial. Analice texto en formatos de datos sin estructurar, por ejemplo, HTML, páginas web, redes sociales, etc. Aumente su comprensión del lenguaje humano aprovechando este kit de herramientas de lenguaje natural para identificar conceptos, palabras clave, categorías, elementos semánticos y emociones, así como para realizar la clasificación de texto, la extracción de entidades, el reconocimiento de entidades con nombre (NER), el análisis de opinión y el resumen.

Explore hoy Watson Natural Language Understanding