Indexación de caracteres especiales
Durante la tokenización y el procesamiento lingüístico, Db2® Text Search identifica e indexa los caracteres especiales como signos de puntuación.
- Jack_jones@ibm.com tiene las unidades léxicas jack _ jones @ ibm . com
- http://www.ibm.com tiene las unidades léxicas http :// www . ibm. com
Los caracteres especiales no ocupan una posición de símbolo en el archivo. Por ejemplo, "jack_jones" se indexa con el carácter de subrayado en la misma posición de símbolo que "jack". Los caracteres especiales tampoco ocupan ninguna posición de símbolo si se incluyen espacios. Por ejemplo, "jack_jones" se indexa igual que "jack _ jones".
La posición del símbolo se utiliza para la búsqueda de frases exactas y para la búsqueda de proximidad. Por ejemplo, si un documento contiene la expresión jack_jones, al buscar la frase exacta ""jack jones"" se encuentra este documento.
Cuando una secuencia de caracteres especiales se indexa por separado, dichos caracteres no se buscan en ningún orden especial. Por ejemplo, al buscar "#$" también se encuentran los documentos que contienen "$#".