管理数据质量
度量,监视和维护数据质量,以确保数据满足特定用例的期望和标准。
缺省情况下,此功能不可用。 数据质量功能必须与 IBM Knowledge Catalog 或 IBM Knowledge Catalog Premium 一起安装。 要查看是否启用了该功能,请在选择向项目添加新资产时检查资产类型 数据质量定义 和 数据质量规则 是否可用。
质量良好的数据处于通常可定义为 适合使用, 无缺陷或 满足期望和需求的状态。 根据缺省质量维度 准确性, 完整性, 一致性, 及时性, 唯一性和 有效性以及任何定制质量维度来度量数据质量。
数据质量分析提供了以下问题的答案:
- 数据资产的整体质量有多好?
- 哪些数据资产质量更好?
- 数据资产的质量如何随时间变化?
- 数据资产是否满足我的质量期望?
要求和限制
对于数据质量管理,存在以下要求和限制。
数据质量工具
您可以使用以下工具:
个必需的服务
数据质量管理需要以下服务:
- IBM Knowledge Catalog 或 IBM Knowledge Catalog Premium
- DataStage
启用数据质量功能后,DataStage企业版已自动安装。 如果未购买 DataStage 许可证,那么 DataStage Enterprise 的使用仅限于创建,管理和运行数据质量规则。 有关可接受用法的示例,请参阅安装或升级后启用可选功能IBM Knowledge Catalog。
数据格式
支持以下数据格式:
- 来自关系数据源和非关系数据源的表
- 表格:Avro、CSV、Parquet、ORC;对于从本地文件系统上传的数据资产,仅限 CSV
有关受支持的连接器的信息,请参阅 用于组织和数据质量的受支持数据源。
数据大小
可以对任何大小的数据执行数据质量管理任务。
必需的许可权
您的角色确定您可以执行哪些数据质量管理任务:
- 要查看数据质量定义和规则,您必须在项目中至少具有 查看者 角色。
- 要创建,编辑或删除数据质量定义和规则,您必须具有项目中的 管理数据质量资产 用户许可权 和 管理员 或 编辑者 角色。
- 要运行数据质量规则,您必须在项目中拥有 Admin 或 Editor 角色,并且要从 Assets 页面、数据质量规则资产中或使用 API 运行规则,您还必须拥有 Measure data quality user permission 权限。 从 Jobs 页或关联的 DataStage 流程运行数据质量规则作业不需要用户权限。
- 要从规则运行历史记录或 Data quality 页面查看导致数据质量问题的数据(输出表),您必须拥有 Drill down to issue details 用户权限。 但是,任何可以访问连接的人都可以访问项目中为输出表创建的数据资产。 为限制对该数据资产的访问,应使用个人凭据设置与存储输出表的数据源的连接。
- 要创建,编辑或删除数据质量 SLA 规则,您必须具有以下 用户许可权:
- 访问监管工件
- 管理数据质量 SLA 规则
工作空间
您可以在项目中执行数据质量管理任务。 目录中提供了只读数据质量信息。
数据质量分析和监视
使用数据质量分析和监控,根据特定条件评估数据。 随着时间的推移,重复使用这些评估标准,以查看正在验证的数据质量的重要更改。
设计数据质量检查后,您可以使用以下选项:
创建定义数据检查逻辑的数据质量定义,而不考虑数据源。 定义包含在创建可执行的数据质量规则时链接或 绑定 到实际数据 (例如,数据源,表和列或连接表) 的逻辑变量或引用。
在基于选择数据质量定义创建具有所需绑定的数据质量规则之后,可以执行该规则。 此规则生成相关统计信息,并可根据规则配置生成输出表。
创建基于 SQL 的数据质量规则。
数据质量规则的功能可以从简单的单列测试到评估数据源内和数据源之间的多个列。
评估数据质量
要确定您的数据是否质量良好,请检查数据在多大程度上符合您的期望,并识别数据中的异常。 对数据进行质量评估也可以帮助您了解数据的结构和内容。
监视数据质量
为确保重要数据满足贵组织的质量期望,请实施数据质量 SLA 规则,以监视数据是否符合标准,并可以针对检测到的数据质量问题进行补救。
了解更多
父主题: 准备和集成数据