跳转到主要内容

单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件.

当您初次登录到 developerWorks 时,将会为您创建一份概要信息。您在 developerWorks 概要信息中选择公开的信息将公开显示给其他人,但您可以随时修改这些信息的显示状态。您的姓名(除非选择隐藏)和昵称将和您在 developerWorks 发布的内容一同显示。

所有提交的信息确保安全。

  • 关闭 [x]

当您初次登录到 developerWorks 时,将会为您创建一份概要信息,您需要指定一个昵称。您的昵称将和您在 developerWorks 发布的内容显示在一起。

昵称长度在 3 至 31 个字符之间。 您的昵称在 developerWorks 社区中必须是唯一的,并且出于隐私保护的原因,不能是您的电子邮件地址。

单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件.

所有提交的信息确保安全。

  • 关闭 [x]

使用 InfoSphere QualityStage 标准化您的数据

Dhanunjaya Lokireddy, 高级 QA 工程师, IBM
Dhanunjaya Lokireddy 是隶属于印度海德拉巴 IBM India Software Lab 的 InfoSphere QualityStage 团队的一名高级 QA 工程师。他在 IBM 已工作了六年,曾在 Information Server 产品领域的多个 QA 团队任职。

简介:  数据标准化是确保数据符合质量规则的一种流程。本教程将介绍一些数据标准化的概念,展示如何利用 IBM® InfoSphere® QualityStage™ 获得标准化的数据。初次接触 QualityStage 标准化的读者将获得对此流程的基本认识。读者应对 InfoSphere DataStage® 作业开发有基本的了解。本教程涵盖了使用国家标识符、域的预处理程序 (pre-processor)、特定于域的规则集以及规则集的验证类型的标准化。

发布日期:  2011 年 11 月 21 日
级别: 中级

访问情况 : 2092 次浏览
评论: 

开始之前

编辑提示:本教程中出现的所有私人数据均属虚构,仅作为示例而创建。

InfoSphere QualityStage 概述

企业往往面临着数据不够标准的问题。数据可能是在不同系统中采用不一致的方式输入的,导致相同的记录表现为不同的形式。举例来说,以下两条记录描述了相同地址的同一个人,但记录中的姓名和地址看起来大不相同:

Bob Christiansan614 Columbus Ave #3, Boston, Massachusetts 02116
R.J. Christensen614 Columbus Suite #3, Suffolk County 02116

导致 “出乎意料的数据” 的另一种常见错误就是可能将数据放在了不恰当的位置。在下面的示例中,有多个字段包含错误的信息类型。name 字段包含地址信息,tax ID 字段包含电话号码,而 telephone 字段包含城市名称信息。这种数据放置不当的错误往往会导致应用程序出错。

姓名税号电话号码
Becker & Co. C/O Bill025-37-1998415-392-2770
B Smith DBA Lime Cons.228-02-16956173380220
1st Natl Provident34-26718543309321
HP 15 State St.508-466-1550Orlando

第三种常见的数据标准化问题涉及到缺乏一致的标识符。下面的示例提供了三条包含产品说明的记录。它们看似不同,实则相同。造成这种现象的原因就在于缺乏一致的标识符。

91-84-301 RS232 Cable 5' M-F CandS
CS-89641 5 ft. Cable Male-F, RS232 #87951
C&SUCH6 Male/Female 25 PIN 5 Foot Cable

InfoSphere QualityStage(下文简称为 QualityStage)是 InfoSphere Information Server 的产品组件之一,它能解决上述问题,提供维护主数据实体准确视图的一种方法。QualityStage 具有以下功能:

  • 调查:帮助您理解数据反常的特征和范围
  • 标准化:分析个别字段,根据业务标准使其统一
  • 匹配:识别数据源内和数据源之间的重复记录
  • 存留:帮助消除重复记录,创建同类最佳的数据记录

理解标准化流程

标准化可以分析任意形式的字段,然后使用标准的格式将其分隔为单独的组件字段,或者将数据指派给恰当的元数据字段。

数据往往是采用多种不同的形式进行捕捉的,原因如下:

  • 数据录入错误
  • 表示相同数据值的不同惯例
  • 系统之间的语义差异
  • 相同数据元素的多个来源
  • 缺乏数据质量标准

然而,目前系统需要整洁的数据来制作报告和制定决策。标准化可帮助提高自由形式的列中所存储的数据的可访问性,确保每个数据元素都具有相关的内容和格式。它能将数据值统一为标准形式,并准备数据元素以便实现更高效的匹配。它还有助于识别和删除无效的数据值。标准化可为了实现进一步的处理而准备数据,因此极为重要。

标准化基于一种称为规则集 的特殊指令工作。部分规则集如下:

  • 国家标识符,例如 COUNTRY
  • 域的预处理程序,例如 USPREP
  • 特定于域,例如 USNAME
  • 验证,例如 VDATE

打包的规则集大多是特定于国家的。举例来说,美国和日本各有不同的姓名标准化规则集。就 InfoSphere Information Server V8.5 而言,这些规则集是使用 QualityStage 打包的。高级用户可以根据自己的业务需求创建规则集。

规则集有三种必要组件:

  • 分类表:包含关键词、标准值和用户定义的类
  • 字典文件:定义输出列的布局
  • 模式操作文件:包含填充输出列和分析参数的逻辑

图 1. 标准化流程概览
展示标准化流程的流程图的图片

图 1 展示了标准化流程的概况:

  1. 使用模式操作文件 (SEPLIST/STRIPLIST) 参数分析输入数据
  2. 从分类表中指派用户定义的类,并为其余标识应用默认类
  3. 使用字典文件形成输出字段
  4. 使用模式操作文件将数据填充到输出字段中

本教程的剩余部分包括使用不同类型的规则集创建标准化作业的具体步骤及示例。

1 页,共 9 | 后一页

评论



static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=10
Zone=Information Management
ArticleID=775845
TutorialTitle=使用 InfoSphere QualityStage 标准化您的数据
publish-date=11212011
author1-email=dhanunjaya@in.ibm.com
author1-email-cc=

标签

Help
使用 搜索 文本框在 My developerWorks 中查找包含该标签的所有内容。

使用 滑动条 调节标签的数量。

热门标签 显示了特定专区最受欢迎的标签(例如 Java technology,Linux,WebSphere)。

我的标签 显示了特定专区您标记的标签(例如 Java technology,Linux,WebSphere)。

使用搜索文本框在 My developerWorks 中查找包含该标签的所有内容。热门标签 显示了特定专区最受欢迎的标签(例如 Java technology,Linux,WebSphere)。我的标签 显示了特定专区您标记的标签(例如 Java technology,Linux,WebSphere)。