El procesamiento del lenguaje natural se esfuerza por construir máquinas que comprendan y respondan a datos de texto o voz, y respondan con texto o voz propios, de la misma manera que lo hacen los seres humanos.
IBM Watson Assistant
IBM Watson Discovery
El procesamiento del lenguaje natural (NLP) se refiere a la rama de la informática y, más específicamente, a la rama de la inteligencia artificial o IA, a la que le interesa dotar a las computadoras de la capacidad de comprender texto y palabras habladas de la misma manera que los seres humanos.
El NLP combina la lingüística computacional (modelado del lenguaje humano basado en reglas) con modelos estadísticos, de aprendizaje automático y de aprendizaje profundo. Juntas, estas tecnologías permiten que las computadoras procesen el lenguaje humano en forma de texto o datos de voz y "comprendan" su significado completo, con la intención y el sentimiento de la persona que habla o escribe.
El NLP impulsa programas informáticos que traducen texto de un idioma a otro, responden a comandos hablados y resumen grandes volúmenes de texto rápidamente, incluso en tiempo real. Es muy probable que haya interactuado con el NLP en forma de sistemas GPS operados por voz, asistentes digitales, software de dictado de voz a texto, chatbots de servicio al cliente y otras comodidades para el consumidor. Pero el NLP también desempeña un papel cada vez más importante en las soluciones empresariales que ayudan a agilizar las operaciones comerciales, aumentar la productividad de los empleados y simplificar los procesos comerciales de misión crítica.
El lenguaje humano está lleno de ambigüedades que hacen que sea increíblemente difícil escribir software que determine con precisión el significado deseado del texto o los datos de voz. Homónimos, homófonos, sarcasmo, modismos, metáforas, excepciones gramaticales y de uso, variaciones en la estructura de la oración: estas son solo algunas de las irregularidades del lenguaje humano que los seres humanos tardan años en aprender, pero que los programadores deben enseñar a las aplicaciones basadas en el lenguaje natural a reconocer y comprender con exactitud desde el principio, si esas aplicaciones van a ser útiles.
Varias tareas del NLP desglosan el texto humano y los datos de voz de manera que ayudan a la computadora a dar sentido a lo que ingiere. Entre estas tareas se incluyen las siguientes:
Ver la publicación del blog "NLP vs. NLU vs. NLG: las diferencias entre tres conceptos de procesamiento del lenguaje natural" para entender mejor cómo se relacionan estos conceptos.
El lenguaje de programación Python proporciona una amplia gama de herramientas y bibliotecas para abordar tareas específicas del NLP. Muchas de estas se encuentran en Natural Language Toolkit, o NLTK, una colección de código abierto de bibliotecas, programas y recursos educativos para crear programas de NLP.
El NLTK incluye bibliotecas para muchas de las tareas de NLP enumeradas anteriormente, además de bibliotecas para subtareas, como análisis sintáctico de oraciones, segmentación de palabras, derivación y lematización (métodos para recortar palabras a sus raíces) y tokenización (para dividir frases, oraciones, párrafos y pasajes en fichas que ayudan a la computadora a comprender mejor el texto). También incluye bibliotecas para implementar capacidades como el razonamiento semántico, la capacidad de llegar a conclusiones lógicas basadas en hechos extraídos del texto.
Las primeras aplicaciones de NLP eran sistemas codificados manualmente y basados en reglas que podían realizar ciertas tareas de NLP, pero no podían escalar fácilmente para adaptarse a un flujo aparentemente interminable de excepciones o los crecientes volúmenes de datos de texto y voz.
Introduzca la NLP estadística, que combina algoritmos informáticos con modelos de aprendizaje automático y aprendizaje profundo para extraer, clasificar y etiquetar automáticamente elementos de texto y datos de voz y luego asignar una probabilidad estadística a cada posible significado de esos elementos. Hoy en día, los modelos de aprendizaje profundo y las técnicas de aprendizaje basadas en redes neuronales convolucionales (CNN) y redes neuronales recurrentes (RNN) permiten que los sistemas de NLP "aprendan" mientras trabajan y extraen un significado cada vez más preciso de grandes volúmenes de datos de texto y voz sin formato, sin estructura y sin etiquetas.
Para profundizar en los matices entre estas tecnologías y sus enfoques de aprendizaje, consulte "IA vs. aprendizaje automático vs. aprendizaje profundo vs. redes neuronales: ¿cuál es la diferencia?"
El procesamiento del lenguaje natural es la fuerza que impulsa la inteligencia artificial en muchas aplicaciones modernas del mundo real. Estos son algunos ejemplos:
Diseñado específicamente para los dominios de la salud y las ciencias biológicas, IBM Watson Annotator for Clinical Data extrae conceptos clínicos clave del texto en lenguaje natural, como enfermedades, medicamentos, alergias y procedimientos. Los conocimientos y valores contextuales profundos para los atributos clínicos clave desarrollan datos más significativos. Las posibles fuentes de datos incluyen apuntes clínicos, resúmenes de alta, protocolos de ensayos clínicos y datos científicos.
Regístrese para obtener un IBMid y cree su cuenta de IBM Cloud.
Encuentre respuestas y conocimientos fundamentales a partir de los datos de su empresa mediante la tecnología de búsqueda empresarial impulsada por IA.
Utilice el servicio de procesamiento de lenguaje natural (NLP) para la analítica de texto avanzada.
Resuelva los problemas de los clientes en el primer intento, en cualquier canal.