重复文档检测
重复文档检测是用于避免搜索结果包含具有相同或几乎相同内容的多个文档的技巧。
如果搜索结果中列示相同(或几乎相同)文档的多个副本,那么搜索质量可能会下降。启用集合安全性时,无法执行重复文档分析。
在全局分析期间,索引进程通过扫描每个文档的文档内容来检测重复文档。如果两个文档具有相同文档内容,那么将它们视为重复文档。
如果指定字段或元数据字段构成文档内容,那么系统会将这些字段的内容添加到搜索结果中该文档的动态摘要,这可能会影响是否在搜索结果中显示该文档。如果在应用程序中启用几乎重复检测(setProperty 方法中的 NearDuplicateDetection 属性设置为 Yes),那么用户查看搜索结果时不会显示具有相似标题和摘要的文档。
在一组重复文档中,一个文档是主文档,其他文档是重复文档。该组重复文档中的所有文档具有相同的规范内容表示。在建立索引期间,会对主文档的内容(标记)建立索引。对于重复文档,只会对元数据标记建立索引。从索引中删除主文档时,索引中删除主文档时,下一个重复文档变为主文档。用户搜索集合时,只返回主文档。
- 设置重复文档检测
- 创建集合时,可指定是否对集合启用重复文档检测。还可通过更改集合的常规选项来启用或禁用重复文档检测。
如果对集合启用此功能,那么可配置时间表以控制检测进程何时运行。因为重复文档检测仅在索引构建暂停时运行,所以您可能想要为其配置时间表以确保它仅在搜寻器未主动向索引添加内容时运行。
- 在内容分析挖掘器中查看重复文档
- 在内容分析挖掘器中,用户可指定用于查看有关重复文档的信息的首选项。例如,用户可见到匹配当前搜索条件的文档有多少是重复文档(以百分比表示)。他们还可选择某个文档并显示与所选文档相似的文档列表。用户还可设置滑尺首选项以控制与所选文档的相似度达到什么比例的文档才会包括在相似文档的列表中。