数据质量维
数据质量维度描述了数据的可测量特性,有助于定义数据质量要求。 使用数据质量维度来确定数据质量评估的预期结果,无论是初始评估还是持续监视。
您希望数据处于的状态通常可以定义为 适合使用, 无缺陷, 对应于规范或 满足期望和需求。 在度量数据质量时,将数据的实际状态与此所需状态进行比较。 对于业务流程很重要的标准,期望和需求表示为数据的特征或维度。
Data Management 国际协会 (DAMA ) 发布了一份文件,描述了数据质量的 6 个核心维度: 准确性、 完整性、 一致性、 及时性、 唯一性和有效性
除这些核心维度外, IBM watsonx.data intelligence 还提供了符合性、 覆盖率和同质性维度。
下表描述了数据质量维度,并列出了可识别特定维度相关问题的自动化数据质量检查。 这些检查可以是元数据增强中的数据质量检查,也可以是数据合同中包含的数据质量检查。 数据合同必须符合开放数据合同标准(ODCS)。 此外,这些维度可通过设置并运行个别数据质量规则来评估。
| 维度 | 描述 | 数据质量检查类型 |
|---|---|---|
| 准确性 | 数据值尽可能接近实际值。 | 作为数据合同测试一部分的数据质量检查 |
| 完整性 | 存在所有必需的数据值。 | 完整性检查作为数据合同 测试一部分的数据质量检查 |
| 顺从 | 数据符合既定的标准、格式和允许值。 | 作为数据合同测试一部分的数据质量检查 |
| 一致性 | 列中的数据值符合规则。 | 大写风格检查 缺失值表示 检查参照 完整性检查可疑值 检查作为数据契约测试一部分的数据质量检查 |
| 覆盖范围 | 数据代表预期数据集,通常通过记录计数或数据完整性来衡量。 | 作为数据合同测试一部分的数据质量检查 |
| 同质性 | 数据资产中的数据是统一的,并随着时间的推移而保持一致。 所有数据点都具有相似的特征、格式或结构。 | 历史稳定性 |
| 即时性 | 数据表示来自所需时间点的实际情况。 | 作为数据合同测试一部分的数据质量检查 |
| 唯一性 | 相异值仅出现一次。 | 唯一性 检查作为数据合同测试一部分的数据质量检查 |
| 有效性 | 数据符合其定义的格式,类型或范围。 | 数据类检查 数据类型检查 格式检查 长度检查 可能的数值检查 范围检查 Regex 检查 |
您可以使用 IBM Knowledge Catalog API 创建数据质量维度 创建自己的数据质量维度。