Datacap 应用程序开发
本教程介绍了可帮助您开发 Datacap 应用程序的概念和任务。在整个教程中,您将开发一个用于处理差旅文档的应用程序。
- 业务需求和应用程序体系结构
开发任何 Datacap 应用程序的第一步都是定义业务需求。 - Datacap Studio
Datacap Studio 是提供开发和测试应用程序所需工具的 Datacap 应用程序开发环境。 - 文档层次结构
文档层次结构定义您正在处理的文档的结构以及 Datacap 对该结构中的各个元素的处理方式。文档层次结构也称为设置 DCO。 - Datacap 工作流程
在数据捕获过程中,文档会经历一个工作流程,此工作流程由多个任务组成,包括页面标识、字符识别、字段确认、验证和导出。 某些任务需要操作员干预,而其他任务则自动运行。 - 文档输入
Datacap 主要用于处理 TIFF 图像文件。因此,任何 Datacap 工作流程中的首个活动都是将文档转换为 TIFF 格式,并将文档插入输入存储库。 - 页面识别
页面识别是任何 Datacap应用程序中的前期步骤之一。最初为所有入局页面分配了缺省页面类型“其他”。 Datacap 必须首先确定每个页面的正确类型,然后才能将这些页面汇集到文档中并从页面中抽取数据。 - 规则执行
规则执行涉及如何将规则与文档层次结构中的特定对象相关联,以及 Datacap 如何处理一批文档。 - 文档组合件
Datacap 将使用指纹匹配或其他标识方法之一标识入局页面并分配正确的页面类型。下一步将根据在文档层次结构中定义的规则,将个别页面的批处理组合到文档中。 - 数据识别
数据识别是查找要捕获的字段,然后将其转换为基于字符的数据的阶段。 - 数据验证
数据验证可确定已捕获的数据是否符合业务需求中定义的数据完整性规则。 - 数据验证
在验证期间,Datacap 向操作员显示页面以进行手动检查和可能的纠正。 - 数据导出
Datacap 可将数据导出到文本文件、XML 文件、数据库、文档管理系统或定制业务流程。缺省输出格式为文本文件,但是您可以使用一些操作将数据导出到数据库和 XML 文件。 - 应用程序调试
应用程序调试需要您查看两个运行时日志文件,即 Rulerunner Service (RRS) 日志和任务日志。RRS 日志提供有关每个操作的详细信息,并且对应用程序开发者最有帮助。任务日志将记录内部调用,并且主要供 IBM 软件支持人员使用。 - 处理行项网格
实施的技术依赖于页面上可预测位置中的数据。在收到发票时,您不知道发票可能包含多少项。可能仅有一项,也可能有一百项,可能会跨多个页面。Datacap 包含用于处理行项网格的操作。在页面上定义可能包含行项的区域并定义一个行项的结构。然后,Datacap 可扫描此区域并查找所有单独的行项。 - 智能参数
智能参数是在运行时求值的操作自变量。 - 文本匹配
通过使用文本匹配来识别页面和查找数据可增加应用程序的灵活性。 - 模式匹配
您可以使用 Datacap 模式匹配来识别页面并调整错位或失真的图像。 - 工作流程自动化、路由和自动指纹生成
您可以将 Rulerunner 配置为监视作业队列,并在批处理处于暂挂状态时自动运行后台任务(例如,PageID、概要分析程序和导出)。 - Datacap Web Client 和远程扫描
现在,您可以使用 Datacap Web Client 管理员更新应用程序,并使用 Web 组件与 Rulerunner 组合通过整个工作流程运行批处理。 - 在作业监视器 (Datacap Web Client) 中按组过滤批处理
在 Datacap Web Client 中,您可以基于 ADSI、LDAP 或 LLLDAP 组认证,在作业监视器中按组过滤批处理。 - 指纹管理
指纹同时用于页面标识和指定识别区域。以下主题回顾了基本指纹功能,提供有关指纹数据库的更多详细信息,并检查使用指纹 XML (FPXML)文件存储区域位置信息的备用方法。稍后,您可以更新 TravelDocs 应用程序以使用 FPXML。 - 为 XML 布局块解析配置内容分类
要使 IBM® Content Classification 正确解析 RunDecisionPlanForBlocks 操作发送给它的文本块,可能需要一些 XML 配置文件更改。 - 应用程序翻译
您可以翻译 Datacap 应用程序中的文本,这些文本显示在 Datacap 客户机中:Datacap Desktop、FastDoc(仅限作业监视器)和 Datacap Navigator。可翻译以下文本:工作流程名称、作业名、任务名称、快捷方式、描述、字段名称、文档类型、页面类型和验证错误消息。
相关任务: