数据资产的数据质量信息

仅当数据的质量可信且持续评估时,数据才有用。 您可以在其 " 数据质量 " 页面上监视数据资产的数据质量。

当您在元数据扩充资产中单击数据质量分数时,将提供与 数据质量 选项卡上相同的信息。

要求和限制

您可以在以下情况下查看资产的数据质量信息。

所需的服务

数据质量要求 IBM watsonx.data intelligence 服务。 不过,运行数据质量规则仅适用于达拉斯、法兰克福、悉尼和多伦多地区。 请参阅区域限制

必需的许可权

您的角色可确定如何与数据质量进行交互:

  • 要查看 " 数据质量 " 页面,您可以在工作空间中具有任何合作者角色。
  • 要更改评分的计算方式,您必须在项目中具有 管理员编辑者 角色。
  • 要创建新的数据质量检查,您必须具有项目中的 管理员编辑者 角色以及 管理数据质量资产 许可权。
  • 要从 Data quality 页面查看导致数据质量问题的数据(输出表),您必须拥有 Drill down to issue details 权限。 但是,任何可以访问连接的人都可以访问项目中为输出表创建的数据资产。 为限制对该数据资产的访问,应使用个人凭据设置与存储输出表的数据源的连接。

工作空间

您可以在以下工作空间中查看数据质量信息:

  • 项目
  • 目录

资产类型

这些类型的资产具有数据质量信息:

  • 从连接到数据源的关系数据库或非关系数据库中的数据资产
  • 来自分区数据集的数据资产,其中分区数据集由多个文件组成,并由从本地文件系统或从基于文件的数据源连接上载的单个文件夹表示
  • 从本地文件系统上载的文件或从基于文件的连接到数据源的数据资产,格式如下:
    • CSV
    • XLS , XLSM 和 XLSX (仅工作簿中的第一个工作表。)
    • TSV
    • Avro
    • OCR
    • Parquet

概述

在 " 数据质量 " 页面上,您可以找到有关数据资产质量的信息:

显示项目中数据资产的数据质量信息

  1. 资产的总体数据质量得分。 这是由其列提供的评分的加权平均值。
  2. 各个维度的得分。 对于每个维度而言,这是各检查提供的相应维度分数的加权平均值。 作为元数据充实的一部分运行的数据质量检查已分配了默认维度。 对于数据质量规则,可根据需要分配维度。
  3. 趋势信息,显示维度的总体质量或质量得分在 30 天, 90 天或 180 天内的变化情况。
  4. 有关数据质量服务级别协议(SLA)的遵守情况及整改任务的信息。 只有当对该资产运行了 “使用 SLA 评估数据质量 ”的元数据增强操作时,本节才会显示内容。
  5. 应用于资产的数据质量检查及其结果的列表。
  6. 各个列的数据质量信息。

项目中的 "数据质量" 页面

在对数据资产运行第一次数据质量检查之后,将通过下列其中一种方式来填充 " 数据质量 " 页面:

  • 数据质量分析作为元数据扩充的一部分在资产上运行。
  • 数据质量规则在资产上运行。

从目录导入资产时,仅会将概要文件信息复制到项目。 未复制数据质量信息。

将重新计算质量得分,并在以下情况下刷新此页面上的数据:

  • 数据质量分析在元数据扩充的上下文中运行。
  • 数据质量规则在资产上运行。
  • 将删除添加到评分的数据质量规则。 将除去此数据质量规则返回的所有问题。
  • 资产概要文件将在资产的 " 概要文件 " 页面上删除。 将除去预定义数据质量检查返回的所有问题。

每次更改检查或列的 添加到总体评分 设置时,还会更新总体评分和维度评分。

您可以立即查看上次更新质量得分的时间。

如果数据质量 SLA 评估是在元数据增强过程中进行,或者在执行数据质量规则时进行,那么数据质量信息可包含有关数据质量 SLA 合规情况以及针对数据质量问题的修复任务的信息。

“SLA 合规与整改 ”部分包含以下内容:

  • 应用于该资产的数据质量服务级别协议 (SLA) 列表
  • 对于每项 SLA,其结果(可能是 “通过 ”或 “未达标 ”),以及上次评估的日期和时间
  • 对于违反的服务级别协议(SLA),将显示违规次数(具体是针对表、列还是两者兼有,取决于规则条件),以及该规则是否已配置相应操作
  • 已启动的修复任务的状态概览

您可以深入查看每个数据质量 SLA 的结果。

数据质量检查 部分中,您可以看到以下信息:

  • 在资产上运行了哪些检查,按日期排序,最新的检查在顶部
  • 每个检查绑定到哪个维度
  • 检查是应用于整个资产还是应用于资产中的列
  • 有关找到的问题数的信息
  • 取样信息取决于检查的类型、来源和配置
  • 检查生成的数据质量得分
  • 在计算总体资产得分和维度得分时是否考虑检查的数据质量得分
  • 上次运行检查的时间

您可以深入查看每项检查的结果。 作为项目管理员或编辑者,您可以更改每个检查是否有助于总体数据质量得分,并且可以创建新的数据质量检查。

您可以在 " 检查 " 视图与 " " 视图之间进行切换。 列概述 部分显示了受任何数据质量检查约束的每个列的以下信息:

  • 列名
  • 适用于资产的任何维度的列质量得分
  • 对列运行的检查数
  • 在计算总体资产得分和维度得分时是否考虑列的数据质量得分
  • 上次检查列的时间

然后,您可以向下钻取到每个列的数据质量详细信息。 作为项目管理员或编辑者,您还可以更改每个列的质量得分是否有助于总体数据质量得分。

目录中的 "数据质量" 页面

将具有数据质量信息的数据资产发布到目录时,最初会填充 " 数据质量 " 页面。 对于直接添加为已连接资产或从本地文件系统上载的任何资产,此页面为空。 要为此类资产生成数据质量信息,请将其添加到项目并对这些资产运行元数据增补或数据质量规则。 然后,将它们发布到目录。

每次从具有新数据质量信息的项目发布资产时,都会更新质量得分并刷新此页面上的数据。

您可以立即查看上次更新质量得分的时间。

数据质量检查列概述 部分提供与项目中的 数据质量 选项卡相同的信息。 您可以深入查看支票或列的详细信息。 您可以查看的详细程度取决于您的权限。 对于作为元数据增强的一部分运行的数据质量检查,相关信息仅限于检查结果。 即使已配置,输出表也不会显示在目录中。

有关数据质量服务水平协议(SLA)合规性的信息,请参阅“SLA 合规性”部分:

  • 应用于该资产的数据质量服务级别协议 (SLA) 列表
  • 对于每项 SLA,其结果(可能是 “通过 ”或 “未达标 ”),以及上次评估的日期和时间
  • 对于违反的服务级别协议(SLA),将显示违规次数(具体是针对表、列还是两者兼有,取决于规则条件),以及该规则是否已配置相应操作

您可以深入查看每个数据质量 SLA 的结果。

目录中没有关于数据质量问题补救任务的信息。

了解更多