页面标识方法
Datacap
支持多种页面标识(也称为分类)方法。
页面标识包括以下方法。
指纹匹配
基于结构的标识
文本匹配
基于类别的分类
基于规则的文档
手动页面标识
另外,如果应用程序仅支持单页面类型,那么您可以向所有入局页面分配静态页面类型。
指纹匹配
指纹匹配
是一种通过使用指纹来识别页面类型的方法。具体来说就是页面的指纹与数据库(其中每个数据库指纹都有关联的页面类型)中的指纹进行比较。作为指纹匹配的结果,将为页面分配与数据库指纹最匹配的页面类型。
基于结构的页面标识
基于结构的标识使用批处理中页面的位置来确定其类型。
文本匹配
要使用文本匹配完成页面标识,必须先完成完整页面识别。然后才能在识别结果中搜索每个页面类型特有的字符串。
IBM Content Classification:基于类别和规则的分类
Datacap
CC 操作通过以下相互关联的方式将
IBM® Content Classification
技术用于页面类型标识:基于类别的分类和基于规则的分类。
手动页面标识
虽然有多种页面标识技术可以自动识别页面,但您也可以配置自己的应用程序来为操作员显示需要手动标识的无法识别页面。
父主题:
页面识别