光学字符识别 (OCR) 是一种使用自动数据提取将文本图像快速转换为机器可读格式的技术。
OCR 有时称为文本识别。OCR 程序从扫描的文档、相机图像和纯图像 PDF 中提取和重新利用数据。OCR 软件将图像上的字母单列出来,将其组合成单词,再将单词组合成句子,从而实现对原始内容的访问和编辑。它还消除了多余的手动数据输入所浪费的精力。
OCR 系统使用硬件和软件的组合将物理打印文档转换为机器可读文本。硬件(例如光学扫描仪或专用电路板)可以复制或读取文本,然后软件通常进行高级处理。
OCR 软件可以利用人工智能 (AI) 实现更先进的智能字符识别 (ICR) 方法,识别语言或手写内容。组织经常通过 OCR 流程将打印的法律或历史文档转换为 PDF 文档,以便用户可以进行文档编辑、排版和搜索,就像使用文字处理器创建文档一样。
了解如何在准备数据集和使用 AI 模型时选择正确的方法,以及如何使用模型选择框架来平衡性能成本、风险和部署需求。
1974 年,Ray Kurzweil 创立了 Kurzweil Computer Products, Inc.,其全字体 OCR 产品可以识别几乎任何字体打印的文本。他认为这项技术的最佳应用是为视力障碍者提供机器学习 (ML) 设备,因此他创建了一种阅读机,可以以文本转语音格式大声朗读文本。1980 年,Kurzweil 将自己的公司卖给了 Xerox,后者有意进一步实现纸质文本转计算机文本的商业化。
OCR 技术在 20 世纪 90 年代初期随着历史报纸的数字化而开始流行。从那时起,这项技术经历了几次改进。如今,产品可以提供近乎完美的 OCR 准确性。先进的方法可以实现复杂的文档处理工作流的自动化。
在 OCR 技术出现之前,以数字方式进行文档排版的唯一选择是手动重新输入文本。多余的输入不仅耗时,而且还不可避免地存在不准确和打字错误。如今,OCR 服务已广泛向公众提供。例如,Google Cloud Vision OCR 可用于扫描和存储智能手机上的文档。
OCR 软件使用扫描仪将物理形式的文档重新处理为可编辑的数字文本。OCR 软件可以作为独立程序、OCR 应用程序编程接口或基于 Web 的服务运行。
图像采集:复制所有文档页面,然后复制 OCR 引擎,将数字文档转换为双色或黑白版本。分析扫描后的图像或位图的明暗部分。然后,程序将深色部分识别为需要识别的字符,而明亮的区域被识别为背景。
预处理:清理数字图像以去除外来像素。这种预处理可以包括纠正扫描期间图像对齐不当的情况、删除作为打印图像一部分的图形规则和方框以及确定是否包含脚本文本。
文本识别:对深色部分进行处理以查找字母、数字或符号。这一阶段通常需要一次定位一个字符、单词或文本块。然后使用两种算法之一来识别字符,即模式识别或特征识别。
布局识别:更完整的 OCR 程序还会分析文档图像的结构。它将页面划分为多个元素,如文本块、表格或图像。行被分成单词,然后再分成字符。找出字符后,程序会将其与一组模式图像进行比较。处理完所有可能的匹配后,程序会返回识别出的文本。
后期处理:将收集到的信息存储为可编辑的数字文件或 PDF 文件。一些系统同时保留输入图像和 OCR 后的版本,以便于进行比较和实现更完整的文档管理。
有 4 种类型的 OCR 程序,并且正变得越来越精妙复杂:
简单 OCR:分析是逐个字符的模式匹配,将扫描的字符与存储的字形进行比较。由于潜在的字体和语言组合非常多,可分析的文档类型有限。
光学标记识别 (OMR):用于识别复选框和其他标记,例如调查中的气泡或表单上的签名,以及徽标、符号和水印。所有这些都可以通过与存储的图像匹配来识别,就像简单的 OCR 一样。
智能字符识别 (ICR):如前所述,ICR 引入了 AI 的力量。利用 ML 或 深度学习,OCR 程序可以像人类一样,过持续的练习和培训学会阅读。神经网络反复检查文本,寻找独特的属性:曲线、交叉点、直线和环形的位置。
智能单词识别:这是先前 ICR 识别技术的自然演进,但现在 AI 经过训练可识别单张图像中的单词,最终能够加快识别速度。
OCR 最著名的用例是将打印的纸质文档转换为机器可读的文本文档。扫描的纸质文档经过 OCR 处理后,可以使用文字处理器(如 Microsoft Word 或 Google Docs)编辑文档的文本。多个用例可以加速许多行业的工作负载,包括教育、金融、医疗保健、物流和运输、处理和检索贷款文档、患者记录、保险表格、标签、发票和收据。
OCR 通常作为一项隐藏技术,为我们日常生活中的许多知名系统和服务提供支持。OCR 技术重要但鲜为人知的用例包括数据输入自动化、协助盲人和视障人士以及为搜索引擎索引文档,例如护照、牌照、发票、银行对账单、支票处理和转录、名片和自动车牌识别。
OCR 通过将纸质和扫描图像文档转换为机器可读、可搜索的 PDF 文件,来优化大数据建模。处理和检索有价值的信息,首先需要在尚不存在文本层的文档中应用 OCR。
通过 OCR 文本识别,扫描的文档可以集成到大数据系统中,然后能够从银行对账单、合同和其他重要打印文件中读取客户数据。组织无需让员工检查无数图像文档并手动输入到自动化大数据处理工作流程中,而是可以在数据挖掘的输入阶段使用 OCR 自动执行该流程。OCR 软件可以提取图片中看到的文本、保存文本文件,并支持多种格式,包括 jpg、jpeg、png、bmp、tiff 和 pdf。