数据质量分析结果
成功分析数据资产后,在数据资产级别和列级别都会显示结果。 分析结果包括有关数据资产内容和结构的信息,以及有关数据总体质量的度量。
数据质量分析结果在资产的 " 数据质量 " 页面上的项目或目录中提供。 您还可以通过单击资产或列的质量分数,从元数据扩充项中访问这些内容。
- 所需许可权
- 要查看分析结果,您必须是工作空间中的合作者。
要更改分数的计算方式,您必须具有项目中的管理员或编辑角色。
要创建新的数据质量检查(数据质量规则或元数据丰富中的检查),您必须具有项目中的管理员或编辑者角色。 对于数据质量规则,您还必须拥有管理数据质量资产权限。
若要从规则运行历史记录或 “数据质量 ”页面查看导致数据质量问题的数据(即输出表),您必须拥有 “深入查看问题详情 ”的用户权限。 但是,任何可以访问连接的人都可以访问项目中为输出表创建的数据资产。 为限制对该数据资产的访问,应使用个人凭据设置与存储输出表的数据源的连接。
数据质量信息在项目或目录中可用,如下所示:
在项目中,当通过以下任一方式对数据资产运行首次数据质量检查后,或者当添加了已连接的 IBM Master Data Management 实体数据资产时:
- 数据质量分析作为元数据扩充的一部分在资产上运行。
- 数据质量规则在资产上运行。
在目录中:
- 具有数据质量信息的数据资产将发布到目录。
将重新计算质量得分,并按如下所示刷新数据:
在项目中,每当对资产进行数据质量检查,或者更新 IBM Master Data Management 中的实体数据资产时:
- 数据质量分析在元数据扩充的上下文中运行。
- 在资产上运行数据质量规则。
- IBM Master Data Management 的匹配算法已进行调整,或潜在的匹配问题已得到解决。
在目录中:
- 从项目发布资产。
您可以立即查看上次更新质量得分的时间。
资产的数据质量信息
访问资产的数据质量信息时,您将看到资产上运行的总体数据质量得分和数据质量检查结果。 此外,您还可以访问资产列的分析结果。
如果数据质量 SLA 是作为元数据增强的一部分或针对某条数据质量规则进行评估的,那么受数据质量 SLA 约束的资产也将包含有关 SLA 合规性的信息。
资产级别的总体评分
通过质量得分的图形表示法,您可以一目了然地查看资产的总体质量以及与应用于资产的维度相关的质量级别。 对于这些分数,趋势信息显示维度的总体质量或质量分数随时间变化的情况。 您可以选择是显示 30 天, 90 天还是 180 天的趋势。 如果之前没有任何检查添加到此维度,那么维度不会显示趋势信息。
总体资产评分是资产列提供的评分的加权平均值。 每个维得分是各个检查提供的相应维得分的加权平均值。
将针对这些更改重新计算总体评分和维评分以及趋势信息:
- 对资产运行数据质量检查。
- 更改了检查或列的 添加到总体分数 设置。
- 将删除应用于资产的数据质量规则。
- 资产概要文件将在资产的 " 概要文件 " 页面上删除。
- 该资产已在 IBM Master Data Management 更新。
遵守数据质量服务水平协议
对于受一项或多项数据质量服务级别协议(SLA)约束的资产,系统会列出所适用的 SLA 及其结果,以及最近一次评估的日期和时间。 对于违反的服务级别协议(SLA),系统会显示违规次数(具体是针对表、列还是两者兼有,取决于规则条件),并显示该规则是否已配置了相应操作。 如果数据质量整改工作流与被违反的数据质量 SLA 相关联,您还可以查看已启动的任何整改任务的状态。
您可以深入查看每个数据质量 SLA 的结果。 要查看导致 SLA 质量标准中某维度评分产生的违规情况及检查项的详细信息,请单击该 SLA 的名称。 违规部分提供的信息包括:发现违规的元素、定义的质量标准、元素的实际质量得分以及以百分点(pp)为单位的偏差。 如果您拥有相应的权限,还可以查看规则详情或编辑 SLA。
对于不受任何数据质量服务水平协议约束的资产,本节为空。
发布资产时,有关数据质量 SLA 合规性的信息也会在目标目录中显示。 有关数据质量问题补救任务的信息仅在项目中提供。
资产级别的数据质量检查结果
在这里,您可以查看对资产运行的检查以及结果。 列表按日期排序,最新的检查位于顶部。
- 检查和逻辑
数据质量规则的名称和包含规则逻辑的数据质量定义的名称,或在元数据充实中运行的数据质量检查的名称。
在这些情况下,具有外部管理绑定的数据质量规则有助于提高资产的数据质量分数:
- 在规则子流程阶段,至少有一个资产列被选作质量分数报告。
- 在规则子流程阶段,至少有一个资产列被添加为相应规则的相关项,并具有验证数据质量的关系,且未配置用于质量分数报告的列。
对于在单个规则子流程阶段配置或与单个规则中验证关系类型的数据质量链接的所有资产和列,都会报告相同的分数和问题。
基于 SQL 的数据质量规则会对资产的数据质量评分做出贡献,前提是该资产的列作为相关项添加到具有验证数据质量关系的相应规则中。 在一条规则中,与此关系类型相关联的所有列都会报告相同的分数和问题。
您可以点击数据质量检查的名称查看详细信息。 对于在元数据增强过程中执行的检查,请查看有关检查结果的信息:存在问题的列,以及这些列中被识别为质量问题的值的数量和百分比。 在项目中,如果针对这些问题设置了输出表,具有相应权限的用户即可查看导致质量问题的实际数据行。 您可以将此信息下载为 CSV 文件,以便对结果进行处理。 元数据增强过程中用于数据质量分析的输出表信息在目录中不可用。
对于数据质量规则,您可以查看常规规则配置并有权访问规则的输出表 (如果已配置)。 如果您想更新规则配置且具备相应权限,可以直接点击 “查看数据质量规则 ”,进入源项目中的规则资产。
对于已关联的 IBM Master Data Management 实体数据资产,此处会显示 “潜在匹配项 ”以便进行匹配。 未提供此类型检查的进一步信息。
- origin
检查的来源,可以是数据质量规则、 匹配、 剖析、 业务术语 ,也可以是用户定义的检查。 显示了 IBM Master Data Management 的匹配结果。 对于在元数据丰富化背景下运行的数据质量检查,会显示 " 剖析 "、" 业务术语 "或 " 定义 "。 请参见数据质量检查类型。
- Dimension
与此检查绑定的数据质量维度。 在概要分析期间运行的预定义数据质量检查或作为元数据扩充的一部分运行的预定义数据质量检查已分配缺省维度。 对于数据质量规则,可根据需要分配维度。
对于已关联的 IBM Master Data Management 实体数据资产,将显示 “实体置信度 ”维度。
如果未设置维度,那么该字段将显示 无。
- 存在问题的数据的焦点和百分比
根据检查类型,焦点可以是一个或多个列或整个表。 对于预定义的数据质量检查,焦点始终是整个表。 有问题的数据百分比 显示有多少数据不符合检查中定义的质量标准。
- 已检查数据并发现问题
已检查的记录数和发现的质量问题数。 这些问题可以在同一记录中,也可以在不同记录中。
- 采样
最后一次检查的取样信息。 这些信息取决于检查的类型、来源和配置。
- 评分
检查针对资产返回的质量分数。
- 计入总分
此设置确定在计算总体分数时是否考虑此特定质量分数。 只能在项目中更改此设置。 您必须是项目管理员或编辑者才能执行此操作。 在目录中,此设置处于锁定状态。
- 上次检查时间
上次运行检查的日期和时间。
您可以通过单击 列来切换到列概述。
如果启用了 IBM watsonx.data intelligence 的数据质量组件,在项目中还可以选择创建新的数据质量定义或数据质量规则。 您必须是项目管理员或编辑者,并且具有 管理数据质量资产 许可权。
列概述
查看各个列的数据质量信息:
- 列名称。
- 列的总体数据质量得分。
- 适用于资产的任何维度的列质量得分。 如果应用于该列的任何检查都未添加到维度,那么将显示短划线 (-)。
- 对列运行的检查数。
- 在计算总体资产得分和维度得分时是否考虑列的数据质量得分。 作为项目管理员或编辑者,您可以更改该设置。
- 上次检查列的时间。
然后,您可以向下钻取到每个列的数据质量详细信息。
您可以通过单击 检查返回到数据质量检查列表。
列的数据质量信息
访问列的数据质量信息时,您会看到一个部分,其中显示总体数据质量得分,并且您有权访问对该列运行的数据质量检查的结果。 匹配不会添加到列级别数据。
除了质量信息外,您还可以查看将哪些数据类和业务术语分配给该列。
列级别的总体评分
通过质量评分的图形表示,您可以一览列的整体质量以及应用于列的维度的质量级别。 对于这些分数,趋势信息显示维度的总体质量或质量分数随时间变化的情况。 您可以选择是显示 30 天, 90 天还是 180 天的趋势。
列或维度的总体评分是应用于该列的数据质量检查所提供的评分的加权平均值。
在项目中,每次对资产运行影响列的数据质量检查时,都会重新计算总体评分和维评分以及趋势信息。 当您更改影响列的检查的 添加到总体评分 设置时,或者删除数据质量规则或资产概要文件时,也会重新计算评分。
在目录中,从项目发布资产时,将更新总体评分和维度评分以及趋势信息。
列级别的数据质量检查结果
在这里,您可以看到哪些检查应用于该列以及结果是什么。 列表按日期排序,最新的检查位于顶部。
- 检查和逻辑
数据质量规则的名称和包含规则逻辑的数据质量定义的名称,或在元数据充实中运行的数据质量检查的名称。
在这些情况下,具有外部管理绑定的数据质量规则有助于提高列的数据质量分数:
- 在规则子流程阶段,该列被选作质量得分报告。
- 该列作为相关项添加到相应的规则中,用于验证关系的数据质量 ,并且在规则子流程阶段未配置质量评分报告的列。
通过为规则中使用的每个数据质量定义选择不同的列,可以在规则子流程阶段配置细粒度的分数报告。 如果在规则子流程阶段未提供报告配置,并且已将资产和列与 “验证关系类型的数据质量” 规则关联,则会针对这些资产和列报告相同的分数和问题。 如果没有为质量得分报告配置任何列,则根本不会报告得分。
基于 SQL 的数据质量规则会对某一列的数据质量评分做出贡献,前提是该列被添加为具有验证数据质量关系的相应规则的相关项。 在一条规则中,与此关系类型相关联的所有列都会报告相同的分数和问题。
您可以单击数据质量规则的名称,查看该规则的一般配置以及其输出表(如果已配置)。 如果您想更新规则配置且具备相应权限,可以直接点击 “查看数据质量规则 ”,进入源项目中的规则资产。
- origin
检查的来源,可以是数据质量规则、 剖析、 业务术语 ,也可以是用户定义的检查。 对于在元数据丰富化背景下运行的数据质量检查,会显示 " 剖析 "、" 业务术语 "或 " 定义 "。 请参见数据质量检查类型。
- Dimension
与此检查绑定的数据质量维度。 在概要分析期间运行的预定义数据质量检查或作为元数据扩充的一部分运行的预定义数据质量检查已分配缺省维度。 对于数据质量规则,您可以根据需要分配维度。 如果未设置维度,那么该字段将显示 其他。
- 有问题的数据所占的百分比
此值显示有多少数据不符合检查中定义的质量标准。
- 已检查数据并发现问题
已检查的记录数和发现的质量问题数。 这些问题可以在同一记录中,也可以在不同记录中。
- 采样
最后一次检查的取样信息。 这些信息取决于检查的类型、来源和配置。
- 评分
检查针对列返回的质量分数。
- 计入总分
此设置确定在计算总体分数时是否考虑此特定质量分数。 只能在项目中更改此设置。 您必须是项目管理员或编辑者才能执行此操作。 在目录中,此设置处于锁定状态。
- 上次检查时间
上次运行检查的日期和时间。
用于数据质量的 IBM Knowledge Catalog API
您可以使用一组 REST API 来生成和检索数据质量信息。
- 数据质量资产 方法
数据质量资产是要接受数据质量检查的数据资产。 示例 API:获取数据质量资产 - 数据质量检查
数据质量检查可以是 (例如) 数据质量规则或在元数据扩充过程中运行的检查。 示例 API:获取数据质量检查 - 数据质量维度
产品随附了一组标准数据质量维度,但您可以创建定制维度。 示例 API:获取数据质量维度列表 - 数据质量问题
数据质量问题是数据资产的数据质量检查发现的问题。 示例 API:获取数据质量问题列表 - 数据质量评分
对于每个数据资产,将生成不同类型的质量评分,例如总体评分或维度评分。 示例 API:获取给定资产的数据质量得分列表