数据组织
数据组织是将数据资产添加到某个项目或目录,通过指定分类、数据类和业务术语来增补增补资产,以及分析和改善数据质量的过程。
基础版 高级版 标准版除非另有说明,本信息适用于所有版本 IBM Knowledge Catalog。
组织基本上是一个手动操作过程,在此过程中,您可以一次组织一个数据资产。 高级组织是一个自动化程度较高的过程,在此过程中,可以同时为多个数据资产自动完成组织任务。
要求与限制
对于数据整理,存在以下要求和限制。
数据整理工具
你使用这些工具:
- Metadata import
- 元数据扩充
个必需的服务
数据整理需要 IBM Knowledge Catalog、或 IBM Knowledge Catalog PremiumIBM Knowledge Catalog Standard。 在元数据增强的背景下,高级分析(包括高级分析、深入的关键字和关系分析)同样需要该 DataStage 服务。
服务 该 IBM Knowledge Catalog 服务默认不可用。 管理员必须安装该服务。 要确定该服务是否已安装,请打开服务目录。 如果服务已安装且准备就绪,则目录中的磁贴 IBM Knowledge Catalog 将显示为" 准备就绪 "。
数据格式
以下数据格式受支持:
- 关系型和非关系型数据源中的表, Amazon S3Delta Lake 表
- Metadata import 从基于文件的数据源连接到任何格式,以及连接到外部工具的特定工具格式
- 元数据增强: 表格格式: CSV、TSV、Avro、Parquet、Microsoft Excel
有关支持的连接器的信息,请参阅 《支持的数据源(用于数据整理和数据质量管理 )》。
数据大小
数据整理适用于任何规模的数据。
必需的许可权
您的角色决定了您可执行的策展任务:
- 您必须拥有数据管理员角色,或至少具备同等权限集的自定义角色。 请参阅预定义的角色和许可权。
- 要使用策展工具相关的资产,您还必须在项目和目录中拥有特定角色。 具体要求请参见各工具说明。
工作空间
您可以在这些工作区中执行内容策划任务:
- 项目
- 目录
根据您要执行的组织任务,在数据准备就绪可供其他用户使用之前,您需要在项目和/或目录中对数据资产进行处理。
项目是一个协作工作空间,您通常会在其中准备和分析数据,然后将数据发布到某个目录,使数据可供组织中的其他用户使用。 若无需进一步准备即可共享数据,您也可直接将其添加至目录。 某些类型的数据只能添加到目录中。
组织任务
这些组织任务让您能够开发有价值的数据资产:
将数据资产添加到项目或目录:
- 从数据源连接中添加资产,可手动逐个添加,或通过元数据导入自动添加多个数据资产。 将您的数据保留在云端或本地环境中,只需添加资产元数据和连接信息,即可在项目或目录内访问数据。
- 将单个文件上载到与项目或目录关联的存储器。
- 手动将资产从目录添加到项目以进行处理。
分析并增补您的数据:
对单个数据资产进行分析,以获取该资产内容的基本统计信息,并在项目或目录范围内为其分配数据类别。 请参阅对数据资产进行概要分析。
在项目中创建并运行元数据增补。
- 在单次运行中对多个数据资产进行概要分析,以自动分配数据类并标识列的数据类型和格式。
- 在单次运行中对多个数据集执行质量分析,以扫描常见数据质量问题,例如缺失值或数据类违规。
- 自动为资产分配业务术语,并基于数据分类或机器学习算法生成术语建议。
- 提供主键和外键,并基于剖析统计数据及列名相似性,在资产与列之间建立候选关系。
审查强化结果。 项目中的元数据增强资产提供了数据资产质量评分的整体概览。 您可以通过点击质量评分来查看每个数据资产或列的详细结果。 或者,您也可以在项目或目录中的资产数据质量选项卡内访问相关信息。
对实际数据进行更深入的分析:主键分析、键关系分析、重叠分析或高级数据剖析
定期重新运行导入和增强作业,以发现并评估数据资产的变化。 您可以手动执行此操作,或设置导入和增强的计划任务。
通过运行数据质量规则来评估数据质量。
优化数据以提高其在项目中的质量和实用性。
将资产从项目发布到目录。
对目录中的数据资产进行评级和复审。
创建标记并将其添加到目录中的数据资产。
将分类和业务术语添加到目录中的单个数据资产。
| 任务 | 在何处手动操作? | 在何处自动操作? |
|---|---|---|
| 创建资产 | 项目 目录 |
项目 目录 |
| 分配数据类 | 项目 目录 |
项目 目录 |
| 分配分类 | 目录 | — |
| 分配业务术语 | 项目 目录 |
项目 |
| 分析数据质量 (元数据增强) |
项目 | 项目 |
| 识别键、键关系和重叠数据 | 项目 | 项目 |
| 评估数据质量(规则) 基础高级版 |
项目 | 项目 |
示例流程:高级策展
一个策展流程可能包含以下任务:
在项目中,创建并运行一个目标为 "发现" 的元数据导入操作,以从连接中批量导入元数据至该项目。 您还可以将元数据导入配置为按一次性或重复计划运行。
在同一项目中,创建并运行元数据增强任务,以在单次运行中为导入的数据资产集完成以下任务:
- 对数据资产进行概要分析。
- 对数据资产运行质量分析。
- 自动为导入的资产分配业务术语并生成术语建议。
- 识别主键和外键,以生成资产与列之间的候选关系。
您还可以为元数据增强设置一次性或重复性计划。 您可以将数据增强计划与元数据导入的配置计划进行对齐。
审查数据资产及其列的增强结果。
可选:对元数据增强中的数据资产执行额外分析。
将增补的数据资产发布到目录。
示例流程:使富集资产及其血统可供使用
随着 MANTA Automated Data Lineage for IBM Cloud Pak for Data
通过 MANTA Automated Data Lineage 将增强型资产及其血统信息纳入目录供业务用户使用,可能涉及以下任务:
在项目中,创建并运行一个目标为 “发现” 的元数据导入资产,用于从连接中将数据资产的元数据导入项目。
在同一项目中,为导入的资产创建并运行元数据增强资产。 选择步骤1中的元数据导入资产作为数据范围。
审查增强结果,并将增强后的资产发布到目录A。
创建并运行另一个元数据导入资产,目标为获取血统信息,将该元数据导入您发布增强资产的目录(目录A)。 选择步骤1中导入数据资产时所使用的数据源的血统特定连接。
导入完成后,目录A中的现有资产将被更新。 新资产(如BI报告)已添加至目录。
若某项资产(其关联的血统信息已 MANTA Automated Data Lineage 附加)后续被更新(例如重新发布元数据增强结果),则该血统关联将被删除。 您需要重新运行血统导入功能,才能为这些资产重新建立关联。
要实现流程自动化,您可以安排元数据导入和增强任务,并协调这些任务的执行计划。
对于此流程,必须安装服务 MANTA Automated Data Lineage for IBM Cloud Pak for Data 和用于血统导入的许可证密钥。
随着 Manta Data Lineage
通过 Manta Data Lineage ,使增强型资产及其血统信息可供业务用户使用,可能涉及以下任务:
- 在平台资产目录中,创建一个包含要扫描连接的数据源定义。
- 在项目中,创建数据源连接的引用副本。
- 创建并运行元数据导入操作,同时包含 “导入资产元数据 ”和 “导入血统元数据 ”两个目标。 导入资产元数据的目标必须是项目。
- 在同一项目中,为导入的资产创建并运行元数据增强资产。 选择步骤1中的元数据导入资产作为数据范围。
- 审查增强结果,并将增强后的资产发布到目录中。
- 检查血统信息。 转到数据 > 数据血统 > 查看血统。
要实现流程自动化,您可以安排元数据导入和增强任务,并协调这些任务的执行计划。
您可以通过API而非用户界面执行大部分内容管理任务。 每个适用任务均 IBM Knowledge Catalog 列出了API链接。