Indexación de caracteres especiales

Durante la tokenización y el procesamiento lingüístico, Db2® Text Search identifica e indexa los caracteres especiales como signos de puntuación.

Los caracteres especiales son delimitadores de símbolos. Por ejemplo, "jack_jones" se divide léxicamente en tres símbolos independientes: "jack", "_", and "jones". Los mensajes de correo electrónico, las direcciones URL y las vías de acceso de archivo se dividen en símbolos. Por ejemplo:
  • Jack_jones@ibm.com tiene las unidades léxicas jack _ jones @ ibm . com
  • http://www.ibm.com tiene las unidades léxicas http :// www . ibm. com

Los caracteres especiales no ocupan una posición de símbolo en el archivo. Por ejemplo, "jack_jones" se indexa con el carácter de subrayado en la misma posición de símbolo que "jack". Los caracteres especiales tampoco ocupan ninguna posición de símbolo si se incluyen espacios. Por ejemplo, "jack_jones" se indexa igual que "jack _ jones".

La posición del símbolo se utiliza para la búsqueda de frases exactas y para la búsqueda de proximidad. Por ejemplo, si un documento contiene la expresión jack_jones, al buscar la frase exacta ""jack jones"" se encuentra este documento.

Cuando una secuencia de caracteres especiales se indexa por separado, dichos caracteres no se buscan en ningún orden especial. Por ejemplo, al buscar "#$" también se encuentran los documentos que contienen "$#".