开始之前
编辑提示:本教程中出现的所有私人数据均属虚构,仅作为示例而创建。
企业往往面临着数据不够标准的问题。数据可能是在不同系统中采用不一致的方式输入的,导致相同的记录表现为不同的形式。举例来说,以下两条记录描述了相同地址的同一个人,但记录中的姓名和地址看起来大不相同:
| Bob Christiansan | 614 Columbus Ave #3, Boston, Massachusetts 02116 |
| R.J. Christensen | 614 Columbus Suite #3, Suffolk County 02116 |
导致 “出乎意料的数据” 的另一种常见错误就是可能将数据放在了不恰当的位置。在下面的示例中,有多个字段包含错误的信息类型。name 字段包含地址信息,tax ID 字段包含电话号码,而 telephone 字段包含城市名称信息。这种数据放置不当的错误往往会导致应用程序出错。
| 姓名 | 税号 | 电话号码 |
|---|---|---|
| Becker & Co. C/O Bill | 025-37-1998 | 415-392-2770 |
| B Smith DBA Lime Cons. | 228-02-1695 | 6173380220 |
| 1st Natl Provident | 34-2671854 | 3309321 |
| HP 15 State St. | 508-466-1550 | Orlando |
第三种常见的数据标准化问题涉及到缺乏一致的标识符。下面的示例提供了三条包含产品说明的记录。它们看似不同,实则相同。造成这种现象的原因就在于缺乏一致的标识符。
| 91-84-301 RS232 Cable 5' M-F CandS |
| CS-89641 5 ft. Cable Male-F, RS232 #87951 |
| C&SUCH6 Male/Female 25 PIN 5 Foot Cable |
InfoSphere QualityStage(下文简称为 QualityStage)是 InfoSphere Information Server 的产品组件之一,它能解决上述问题,提供维护主数据实体准确视图的一种方法。QualityStage 具有以下功能:
- 调查:帮助您理解数据反常的特征和范围
- 标准化:分析个别字段,根据业务标准使其统一
- 匹配:识别数据源内和数据源之间的重复记录
- 存留:帮助消除重复记录,创建同类最佳的数据记录
标准化可以分析任意形式的字段,然后使用标准的格式将其分隔为单独的组件字段,或者将数据指派给恰当的元数据字段。
数据往往是采用多种不同的形式进行捕捉的,原因如下:
- 数据录入错误
- 表示相同数据值的不同惯例
- 系统之间的语义差异
- 相同数据元素的多个来源
- 缺乏数据质量标准
然而,目前系统需要整洁的数据来制作报告和制定决策。标准化可帮助提高自由形式的列中所存储的数据的可访问性,确保每个数据元素都具有相关的内容和格式。它能将数据值统一为标准形式,并准备数据元素以便实现更高效的匹配。它还有助于识别和删除无效的数据值。标准化可为了实现进一步的处理而准备数据,因此极为重要。
标准化基于一种称为规则集 的特殊指令工作。部分规则集如下:
- 国家标识符,例如 COUNTRY
- 域的预处理程序,例如 USPREP
- 特定于域,例如 USNAME
- 验证,例如 VDATE
打包的规则集大多是特定于国家的。举例来说,美国和日本各有不同的姓名标准化规则集。就 InfoSphere Information Server V8.5 而言,这些规则集是使用 QualityStage 打包的。高级用户可以根据自己的业务需求创建规则集。
规则集有三种必要组件:
- 分类表:包含关键词、标准值和用户定义的类
- 字典文件:定义输出列的布局
- 模式操作文件:包含填充输出列和分析参数的逻辑
图 1. 标准化流程概览
图 1 展示了标准化流程的概况:
- 使用模式操作文件 (SEPLIST/STRIPLIST) 参数分析输入数据
- 从分类表中指派用户定义的类,并为其余标识应用默认类
- 使用字典文件形成输出字段
- 使用模式操作文件将数据填充到输出字段中
本教程的剩余部分包括使用不同类型的规则集创建标准化作业的具体步骤及示例。