对特殊字符建立索引
在标记化和语言处理过程中, Db2®将特殊字符识别为标点符号并建立索引。
特殊字符是标记定界符。 例如,“jack_jones”被标记为三个独立的标记:“jack”、“_”和“jones”。 电子邮件、URL 和文件路径被分解为标记。 例如:
- Jack_jones@ibm.com 被标记为jack _ jones @ ibm。 com
- http://www.ibm.com 被标记为http://www。 IBM公司。 com
特殊字符不占用文件中的标记位置。 例如,“jack_jones”在与“jack”相同的标记位置用下划线编入索引。 当包含空格时,特殊字符也不占用标记位置。 例如,“jack_jones”的索引方式与“jack_jones”的索引方式相同。
标记位置用于精确短语搜索和邻近搜索。 例如,如果文档包含表达式 jack_jones,则搜索确切的短语“"jack jones"”会找到此文档。
当一系列特殊字符被单独建立索引时,它们的搜索顺序并不是特定的。 例如,搜索“#$”也会找到包含“$#”的文档。