匹配数据DataStage

QualityStage® 中的匹配是一个概率记录链接系统,用于自动执行识别可能表示同一实体的记录的过程。 匹配过程可提高数据的完整性。

通过匹配,您可以识别数据中的重复项,根据任何一组条件对记录进行分组,并在多个文件中构建记录之间的关系,而不考虑数据表示中的差异以及缺少或不准确的信息。

DataStage中匹配目标

以下是一些典型的匹配目标:

  • 识别个人、公司、供应商、产品或事件等实体的重复记录
  • 对具有相同或相似值的记录进行分组,如编户
  • 利用外部来源的新属性丰富现有数据
  • 在数据仓库中定位实体
  • 核对库存或交易

巢穴步骤:

确定目标后,您就可以确定匹配的要求。 您可以选择要比较哪些列以及如何比较这些列。

然后,您可以使用匹配设计器创建和测试定制的匹配规格。 DataStage®作业中的双源匹配和单源匹配阶段使用这些匹配规范。

DataStage 中的匹配:关键概念

概率记录关联使用值的统计属性来计算记录对应于同一实体的可能性。 对数据的信息内容、完整性、可靠性、上下文频率和代表性进行考量,从而得出可信度的累积评估结果。

了解概念信息对确定匹配规格很有必要。 您需要知道如何评估结果、估计概率、设置阈值以及执行相关任务。 需要对记录关联理论有一定的了解。

DataStage中的记录链接和匹配过程

在实际操作中,您会对记录对进行比较,并将它们归类为其中一组:匹配记录对和非匹配记录对。

由于这些原因,需要使用统计方法进行记录关联:
  • 列中包含错误或缺失值。
  • 数据可能不可靠。
  • 您希望在合理的统计保证下找到匹配项。
DataStage中的记录关联方案

考虑两个数据来源。 每个数据源由若干条记录组成,这些记录包含若干列。 通常情况下,每条记录对应一个实体,列是识别实体的属性,如姓名、地址、年龄和性别。 记录链接或匹配过程的目的是识别和链接每个来源中与同一实体相对应的记录。 记录并不包含完全可靠的唯一标识符,因此匹配操作并不复杂。 此外,各个栏目都可能出现误差。

两个数据源的共同列有助于进行匹配。 然而,并非所有栏目都包含相同数量的信息,错误率也各不相同。 例如,"性别 "等列只有两种值状态,因此无法提供足够的信息来唯一识别匹配。 相反,"FamilyName)一栏提供的信息要多得多,但它可能经常被错误地报告或转录(键入)。

您可以使用权重来衡量每一列对准确分类概率的贡献。 记录链接有以下几种状态;记录对的分类如下:

匹配: 综合权重高于阈值(临界值)。

不匹配: 综合权重低于第二个阈值。

未决情况: 综合权重介于第一阈值和第二阈值之间。

考虑DataStage的信息内容水平

一条记录中的一列或多列必须在另一条记录中有对应的列才能进行比较。 例如,为了匹配姓氏和年龄,两条记录都必须有包含姓氏和年龄信息的列。 尽管对于双源匹配,可比列的元数据并不需要完全相同。

要使记录关联项目可行,人类就有可能检查记录对,并以合理的确定性宣布哪些记录对是匹配的,哪些是不匹配的。 例如,如果两个资料来源中唯一相同的一栏是性别,那么就不能因为性别相同就认为这对资料来源代表的是同一个人。

信息含量衡量一个栏目相对于另一个栏目的重要性(鉴别值)。 例如,性别代码提供的信息比税号少。

信息含量还能衡量一列中一个值相对于另一个值的重要性。 在美国,John 在GivenName一栏中提供的信息比 Dwezel 少。 在美国,John 这个名字比 Dwezel 这个名字更常见。 重要程度取决于数值的可靠性和区分匹配与非匹配的能力。 而任何记录对比都需要足够的信息才能得出可靠的结论。 例如,两条完全相同的客户记录只包含姓氏 Smith,但在其他所有姓名和地址列中都没有值,因此没有足够的信息来确定这两条记录代表同一个人。