Soporte lingüístico para la segmentación basada en diccionario
Si el idioma de un documento se detecta correctamente y existen diccionarios específicos del idioma, se aplica el proceso lingüístico adecuado.
- Segmentación de palabras
- La segmentación de palabras se utiliza para idiomas que no utilizan espacios en blanco (ni delimitadores) entre las palabras, tales como el japonés y el chino.
- Lematización
- La lematización es una forma de proceso lingüístico que determina el lema de cada
forma de palabra que aparece en el texto. El lema de una palabra
comprende su forma base más las formas derivadas que comparten la misma categoría
léxica. Por ejemplo, el lema de go comprende go, goes, went,
gone y going. Los lemas de nombres abarcan las formas singular y plural (tales como calf y
calves). Los lemas de adjetivos abarcan las formas comparativas y superlativas (tales como
good, better y best). Los lemas de pronombres abarcan casos diferentes del mismo pronombre (tales como
I, me, my y mine).
La lematización necesita un diccionario para la indexación y la búsqueda.
Watson Explorer Content Analytics indexa los lemas y las palabras derivadas y lematiza todas las palabras derivadas contenidas en una consulta. La lematización mejora la calidad de la búsqueda al encontrar documentos que contienen variantes de una palabra derivada incluida en la consulta. Por ejemplo, se encuentran documentos que contienen la palabra mice cuando una consulta incluye la palabra mouse.
- Desglose de contracciones
- La calidad de la búsqueda mejora mediante la identificación de contracciones y
su desglose en componentes. Por ejemplo:
wouldn't se desglosa en would + not
Horse's se desglosa en Horse + 's - Identificación de clíticos
- Los clíticos son una forma especial de contracciones, y la calidad de la
búsqueda se mejora determinando los componentes del clítico. Un clítico es un elemento que se comporta como un afijo y una palabra. Pero
los clíticos son difíciles de identificar porque son también parte de la formación
de palabras.
A diferencia de otros fenómenos morfológicos (estructura de las
palabras), los clíticos aparecen en una estructura sintáctica y su asociación a las
palabras no forma parte de las reglas de formación de palabras. Por ejemplo:
reparti-lo-emos tiene los componentes repartir + lo +
emos
l'avenue tiene los componentes le + avenue
dell'arte tiene los componentes dello + arte. - Reconocimiento de caracteres no alfabéticos
- Los procesos lingüísticos reconocen los caracteres no alfabéticos. Dependiendo
de la lógica interna dependiente del idioma, algunos caracteres no alfabéticos
aparecen en los resultados de búsqueda como unidades léxicas separadas de tipos
diferentes, y algunos están agrupados.
Por ejemplo, los apóstrofos se tratan como componentes de palabras en el caso de clíticos, y se tratan como puntos en el caso de abreviaturas desconocidas. Los URL, las direcciones de correo electrónico y las fechas se desglosan en varios tokens.
- Reconocimiento de abreviaturas
- Los procesos lingüísticos reconocen las abreviaturas contenidas en el
diccionario como unidades léxicas individuales. Si la abreviatura no está en el
diccionario, la abreviatura se reconoce como unidad léxica, pero la
abreviatura no tendrá ninguna información de diccionario asociada.
El reconocimiento correcto de las abreviaturas es esencial para el reconocimiento de las oraciones. Por ejemplo, el punto al final de una abreviatura no es necesariamente el final de una oración.
- Reconocimiento de marcadores de final de oración
- Los procesos lingüísticos identifican correctamente los marcadores de final de oración para la segmentación de oraciones.