有关具有 Document Processing Extension 的 OCR 的最佳实践

具有 文档处理扩展 的光学字符识别 (OCR) 的最佳实践可帮助您了解 OCR 结果和性能中涉及的因素。

OCR 中启发式算法的准确性受到文档的不同方面的影响。 以下几点帮助您了解影响 OCR 结果、性能的因素以及改进这些结果的文档格式。

质量

首先,文档必须具有清晰的机器打印的文本。 机器文本是使用文字处理器、打字机或打印机创建的。 以下几点详细说明了减少 OCR 成功的一些因素,并且您应尽可能避免。

倾斜和失真
OCR 可以自动处理旋转和少量的倾斜,但随着倾斜和失真的增加,识别能力会下降。
噪点
斑点、条纹、水印、戳记和其他不属于文本的标记会干扰 OCR。 噪声包括带有手写注释、画圈文本和其他注释的图像,有时在扫描之前文档中会包含这些内容。 当噪声触及文本时,它会干扰字符识别。 即使在不存在的情况下,也可以干扰线路识别和块识别。
后台
在文本抽取过程中,OCR 必须确定什么是文本以及什么是背景。 文档处理扩展 引擎支持彩色和灰度图像,但过多的颜色或某些颜色组合可能会干扰其识别前景色和背景色的能力。 Document Processing Extension支持逆向文本,但可能更难识别。

大小

文件的大小有两个相关因素:
页面大小
对于 PDF 文件,该大小表示为页面的可打印大小(可在页面属性中找到)。 在图像中,大小表示为图像中的像素数和图像的 DPI(每英寸点数)。 图像的色深也会影响内存使用量,因为彩色图像在处理期间需要比黑白图像更多的 RAM。
存储设备上的文件的物理大小
虽然页面大小和文件大小相关,但它们并不总是直接成比例的。 由于图像文件压缩的差异,较大的文件大小不会直接决定在识别期间使用多少 RAM 与另一个具有不同压缩类型的文件。

PDF 文档本身可以根据其中的数据类型而有很大的差异。 PDF 文档可能是文本和字体的简单描述,也可能是这些文本和字体以及嵌入在文件中的不同图像和图像格式的组合。

由于这些复杂性,这些属性中的每一个都有助于提供关于所需资源量的指南,但很难用简单的公式表达。

文档处理扩展 支持摄入多页文件,事务层支持摄入最多 250 MB 的文件。 但是,单个页面图像所支持的大小较小,取决于先前解释的因素。 要提高性能,请使用生成较小文件的文件类型和格式。

格式

某些文件格式和压缩文件(如 JPG 或有损压缩文件)使文件大小变小,但由于字符边缘不清晰而变得模糊。 有损压缩废弃信息以减小文件的大小。 最终,有损压缩格式使识别引擎更难维持高精度。 尽可能使用无损压缩格式。

PDF 文档可以包含有损或无损图像。 即使 PDF 包含无损图像,如果用于生成这些图像的源图像的质量较差、分辨率较低,或来自有损压缩文件,那么仍然可能使识别过程较难保持高质量的输出。

图像处理的最佳图像格式之一是 TIFF 格式。 这是一种标准格式,在文档处理中广泛使用。 与其他格式(例如 PNG 或 JPEG)相比,TIFF 文件具有两个显著优势。
  • 首先,TIFF 图像支持多种类型的压缩,包括有损和无损。 通常,G4 (fax) 压缩非常适用于黑白图像,并且是无损的。 LZW 压缩适用于灰度和颜色,也是一种无损压缩。 LZW 还可以用于黑白图像,但文件大小可以大于使用传真压缩。 JPEG 压缩可以生成更小的文件,但它是一种有损压缩,降低了图像质量。 JEPG 旨在用于存储照片,而不是保持文档的完整性。
  • 通过 JPEG 或 PNG 格式推荐 TIFF 的第二个原因是由于 DPI 属性。 TIFF 图像保持图像的源 DPI。 如果在 300 DPI 上扫描了图像,那么此信息将随图像一起保留。 DPI 提供了准确重新创建文档原始大小的方法。 JPEG 和 PNG 文件不存储 DPI。 处理这些映像时,处理这些映像的应用程序使用缺省 DPI 72 或 96 ,这不允许它准确地重新创建原始映像大小。

字体

OCR 引擎能够识别具有多种不同字体的文本。 但是,标准字体(如 Arial 和 New Times Roman)提供的识别结果比具有更多异常字符形状的字体提供更好的识别结果。 OCR 还可以处理不同的字体大小,虽然非常小的尺寸可能无法形成足够的像素以清晰地识别字符。 您需要进行测试以确定这些限制适用于您的文档的位置。

DPI 设置

对于 X 轴和 Y 轴,识别的最佳 DPI 通常为 200 或 300 DPI。 400 或 500 DPI 的较高 DPI 可以更好地识别小字体或包含复杂字符的语言。 但是,较高的 DPI 还会增加文件大小和处理时间。 低于 200 的 DPI 的识别结果低于字符清晰度的损失。 X 轴和 Y 轴的 DPI 应该相同。 传真图像的 DPI 较低,并且 X 和 Y 坐标的 DPI 值不相同。 因此,传真识别低于其他类型的文件。
注: 要处理该文件,您需要以下字体大小和 DPI:
  • 如果字体大小大于 12 的 200 DPI ,那么通常可以获得高度的置信度。
  • 如果字体大小低于 12 或语言具有复杂字符,请至少使用 300 DPI。
  • 300 DPI 通常是一个很好的值,可以为您提供典型文档字体大小的质量识别和性能平衡。

更难量化 PDF 文档的最小 DPI。 如果 PDF 文档是直接从电子来源(例如 Word 文档)生成的,那么生成的文档通常由文本和字体信息组成。 这种类型的文档可以非常清楚,提供高质量的结果。 这些文档还可以包含嵌入式图像。

PDF 中使用的源图像必须具有高质量。 这包括在电子文档中嵌入的任何图像,如上所述。 也可以直接从扫描的图像创建 PDF 文档,比如直接使用扫描仪设备,或者通过第二种方法:通过将扫描仪扫描的图像转换为 PDF。 对于此类图像,请遵循与独立图像(例如 TIFF 文件)相同的建议。 在将图像嵌入 PDF 文档之后,确定其质量会变得更加困难。 一个简单的测试是放大 PDF 页面,并查看文本的行是否保持清晰。 如果文本在合理的放大量之后保持清晰的边缘,那么它很可能是一个很好的质量图像。 但是,要有效使用此分析方法,可以使用一些经验。

如果使用来自数码相机或手机的图像,请确认这些设备能否提供照片质量的图像,并且像素大小是否可以根据摄像头及其特定大小设置而变化。 使用摄像头捕获文档时,无法确定它的原始物理大小。 在可能的情况下,使用由扫描仪或其他源(通常比相机更好)生成的文档。

字符替换

某些字符很难区分 OCR 引擎。 例如,O(大写字母)、o(小写字母)和 0(数字)。 Document Processing Extension 引擎会执行语义规范化,因此如果查找 "cost" ,那么它会找到与 ‘C0st’的匹配项。 在本体中定义键时,还可以通过选择主要为字母主要为数字,提高键值的文本准确性。

性能

在规划系统时,其中一个关键指标是吞吐量。 换言之,处理文档所花的平均时间是多久,以及每小时和每天可处理多少文档数? 您需要测试以确定最终的性能。 但是,这里是首要因素,其中一些已经提到。
硬件速度
在确定性能时,必须考虑这一点。 如果正在开发系统上进行测试,并且该系统与您运行的生产系统不匹配,那么性能结果可能有所不同。
系统规模
文档处理扩展 引擎可以并行处理文档。 确切的数字取决于系统的规模。 因此,如果一个文档采用 X 秒,它不一定意味着 10 个文档需要 10 乘以 X 秒。 需要测试许多文档以确定总吞吐量。
文件大小
OCR 逐个像素地分析图像。 因此,大型图像具有更多的像素,并需要更长时间进行处理。
文档的复杂性
具有长文本块或大量文本块的图像的处理时间要比只有少量文本的图像要长。

颜色文档

带有彩色文本的文档如果颜色较暗,会比较浅的颜色或非固体纹理的字母处理得更好。 浅色或灰度文本和线可能无法准确识别,也可能根本无法识别。

正在测试

评估识别引擎并设置应用程序时,请使用应用程序必须处理的实际页面。 只测试部分样本文本文档来查看引擎执行情况的做法并不可取。 与最终处理的某些“制造”测试文档相比,性能可能有所不同。 即使它们相似,但测试文档中也可能出现“实际”文档中不存在的问题,反之亦然。

摘要

本页面中提供的信息应使您更好地了解您的文档的识别结果和性能。 理想情况下,它还可以建议您修改文件摄取方法,以生成提供最佳结果的文档的方法。