重要说明:

IBM Cloud Pak® for Data 4.6 版本将于 2025 年 7 月 31 日结束支持(EOS)。 欲了解更多信息,请参阅 IBM Cloud Pak for Data 版本 4.X 的停止服务公告

在 IBM Cloud Pak for Data 4.6 版本支持结束之前,升级到 IBM Software Hub 5.1 版本。 更多信息,请参阅 IBM Software Hub 版本 5.1 文档中的升级 IBM Software Hub。

数据治理教程: 整理高质量数据

请学习本教程,以了解如何使用数据光纤网试用的数据监管用例来准备可信数据。 您的目标是通过丰富数据和运行数据质量分析来创建可信数据资产。

以下动画图像提供了在本教程结束时将完成的内容的快速预览,您将在此预览中从外部数据源导入元数据,使用自动分配的业务术语扩充该数据,查看扩充的数据以及将扩充的数据发布到目录。 右键单击该图像并在新选项卡中打开该图像以查看更大的图像。

教程的截屏

教程的故事是, Golden Bank 有几个部门需要访问高质量的客户抵押贷款数据。 作为治理团队的数据专员,您必须对公司的数据进行排序和组织,以提供数据使用者可以在自助服务目录中轻松找到的高质量且受保护的数据资产。

在本教程中,您将完成以下任务:

如果您需要本教程的帮助,请在 Cloud Pak for Data 社区讨论区提问或寻找答案。

提示: 为了获得完成本教程的最佳体验,请在一个浏览器窗口中打开 Cloud Pak for Data ,并在另一个浏览器窗口中保持本教程页面处于打开状态,以便在两个应用程序之间轻松切换。 请考虑将两个浏览器窗口并排排列,以便更轻松地进行后续操作。

并排教程和 UI

预览教程

观看视频 观看本视频,预览本教程的步骤。 视频中显示的用户界面可能存在细微差异。 该视频旨在与编写的教程相伴。

除了遵循本文档中的书面步骤,您还可以观看此视频了解相关操作。

先决条件

完成本教程需要以下先决条件。

访问类型 描述 文档
服务 Watson Knowledge Catalog Watson Knowledge Catalog
角色 数据专员 - 预定义角色和许可权
- 管理角色
许可权 -管理目录
-管理监管类别
- 预定义角色和权限
- 管理角色
其他访问权 [未分类] 类别的编辑者访问权 管理类别合作者
其他配置 禁用 强制独占使用私钥 要求用户使用保密证书

执行以下步骤以验证您的角色和许可权。 如果 Cloud Pak for Data 帐户未满足所有先决条件,请与管理员联系。

  1. 单击工具栏中的概要文件图像。

  2. 单击 概要文件和设置

  3. 选择 角色 选项卡。

与您的角色关联的许可权列示在启用的许可权列中。 如果您是任何用户组的成员,那么您将继承分配给该组的角色。 这些角色也会显示在 "角色" 选项卡上,您从中继承角色的组在 "用户组" 列中指定。 如果 " 用户组 "栏显示破折号,则表示该角色直接分配给了你。
角色和许可权

创建样本项目

如果尚未为此教程创建样本项目,请执行以下步骤:

  1. 下载 Data-Governance.zip 文件。

  2. 从 Cloud Pak for Data 导航菜单 导航菜单 ,选择项目 > 所有项目

  3. 项目页面上,单击新建项目

  4. 选择 从文件创建项目

  5. 上载先前下载的 ZIP 文件。

  6. 在 " 创建项目 " 页面上,复制并粘贴项目名称,并添加项目的可选描述。

    Data Governance
    
  7. 单击创建

  8. 单击 查看新项目 以验证是否已成功创建项目和资产。

  9. 单击 资产 选项卡以查看项目的资产。

  10. 从数据资产行末尾的溢出 溢出菜单 菜单中选择下载 Banking.csv 数据资产行,选择 " 下载 ",然后将其保存到您的电脑中。 您将在稍后的步骤中使用该文件。

样本项目的检查点图标 检查您的进度

下图显示了样本项目中的 "资产" 选项卡。 现在,您已准备好开始本教程。

样本项目

任务 1: 创建目录

在开始使用数据之前,请创建一个目录,您将在其中发布数据以与组织共享数据。 通过 Watson Knowledge Catalog Lite 套餐,您只能创建两个目录。 如果您已有目录,那么可以跳过此步骤。 否则,请遵循以下步骤来创建目录:

注: 如果这是您首次访问目录,那么您将看到一个引导式教程,询问您是否要浏览目录。 现在,请单击 可能稍后

  1. 从 Cloud Pak for Data 导航菜单 导航菜单 ,选择目录 > 所有目录

  2. 如果在 " 目录 " 页面上看到目录,请跳至 任务 2: 创建类别。 否则,请执行以下步骤来创建新目录:

  3. 单击创建目录

  4. 对于 名称,复制并粘贴目录名称,如下所示,没有前导或尾部空格:

    Mortgage Approval Catalog
    
  5. 选择 强制实施数据保护规则,确认选择并接受其他字段的缺省值。

  6. 单击创建

抵押贷款审批目录的检查点图标 检查您的进度

下图显示了您的目录。 现在,您已准备好与组织共享资产。

抵押贷款审批目录

任务 2: 创建类别

您需要一个类别来包含将在下一个任务中导入的业务术语。 类别类似于文件夹,用于组织监管工件以及可以编写和管理这些工件的人员。 执行以下步骤以创建类别:

  1. 从 Cloud Pak for Data 导航菜单 导航菜单 ,选择 " 管理">"类别 "。

  2. 单击 添加类别> 新建类别

  3. 对于名称,输入 Banking

  4. 单击创建

银行类别的检查点图标 检查您的进度

下图显示了 "银行" 类别。 您现在已准备好导入业务术语。

银行类别

任务 3: 添加业务术语

现在将业务术语导入到新类别中。 您将在稍后的步骤中使用它们来扩充数据资产。 业务术语是业务概念的标准化定义,以便在整个企业中以统一且易于理解的方式描述数据。 执行以下步骤以从文件导入业务术语:

  1. 从 Cloud Pak for Data 导航菜单 导航菜单,选择治理 > 业务条款

  2. 单击 添加业务术语> 从文件导入

  3. 单击 将文件拖放到此处或上载

    1. 选择先前下载的 banking.csv 文件。

    2. 单击 打开

  4. 单击下一步

  5. 选择 替换所有值,然后单击 下一步

  6. 单击 转至任务 以查看草稿业务术语。 如果错过了通知,请从 Cloud Pak for Data 导航菜单 导航菜单 ,选择治理 > 任务收件箱

  7. 选中 发布业务术语 复选框,然后单击 发布。 单击 发布 以确认。

  8. 从 Cloud Pak for Data 导航菜单 导航菜单 ,选择治理 > 业务条款 ,查看已发布的业务条款。

已导入业务术语的检查点图标 检查您的进度

下图显示了导入的业务术语。 现在,您已准备好将数据导入到项目中,然后使用导入的业务术语进行扩充。

导入的业务术语

任务 4: 将数据导入到项目

样本项目包含与 Db2 Warehouse 实例的连接,该实例包含抵押资产。 您可以将与数据资产关联的技术元数据导入到项目或目录中,以对这些资产进行库存,评估和编目。 技术元数据描述了数据对象的结构。 执行以下步骤以导入数据资产:

  1. 从 Cloud Pak for Data 导航菜单 导航菜单 ,选择项目 > 所有项目

  2. 单击 数据监管 项目。

  3. 单击“资产”选项卡

  4. 单击 新建资产

  5. 针对资产类型选择 元数据导入

  6. 在 " 定义目标 " 页面上,选择 发现 以导入和查看项目或目录中各种类型的资产。

  7. 对于名称,复制并粘贴以下文本:

    Mortgage data - metadata import
    
  8. 单击下一步以继续。

  9. 在 " 选择目标 " 页面上,选择 此项目,然后单击 下一步 以继续。

  10. 在 " 选择作用域 " 页面上,单击 选择连接

    1. 选择 Data Fabric Trial- Db2 Warehouse 连接。

    2. 选中 WKC_MBS 模式旁边的复选框,然后单击 WKC_MBS 模式名称。

    3. 选择下表:

      • 商业客户机
      • CREDIT_SCORE
      • 家庭价格
      • 抵押贷款申请人
      • 抵押权人应用程序
    4. 查看侧面板中的资产列表,然后单击 选择

  11. 单击下一步以继续操作,安排导入。 您可以手动运行元数据扩充,因此保持已调度的关闭状态。

  12. 单击 下一步 以继续执行 高级选项

  13. 接受 " 高级选项 " 页面上的缺省值,然后单击 下一步 以继续复审。

  14. 查看导入的摘要,然后单击创建。 元数据导入作业将启动。

  15. 单击 " 刷新 “刷新”图标 "图标,观察状态从 " 已排队 "到 " 进行中 "再到 " 已导入 "的变化。 当作业运行完成时,您将看到列出的五个资产。

Metadata import 资产的检查点图标 检查您的进度

下图显示了已完成的元数据导入。 下一个任务是使用导入的业务术语来扩充导入的数据资产。

Metadata import 资产

任务 5: 对导入的数据进行扩充

您可以使用有助于用户更快地找到数据的信息来丰富数据资产,以决定数据是否适合手头的任务,他们是否可以信任数据以及如何使用数据。 此类信息包括定义数据含义的术语、记录所有权或确定质量标准的规则,或者复审,等等。 执行以下步骤来扩充导入的数据:

  1. 单击导航路径中的数据治理项目名称。
    导航跟踪

  2. 资产 选项卡上,单击 新建资产

  3. 针对资产类型选择 元数据扩充

  4. 对于名称,复制并粘贴以下文本:

    Mortgage data - metadata enrichment
    
  5. 单击下一步以继续。

  6. 单击 从项目中选择数据

    1. 选择 Metadata import

    2. 单击 抵押数据-元数据导入旁边的复选框。 此资产包括以下资产:

      • COMMERICIAL_CLIENT
      • CREDIT_SCORE
      • 家庭价格
      • 抵押贷款申请人
      • 抵押权人应用程序
    3. 单击选择

  7. 单击 下一步 以继续实现扩充目标。

  8. 选择所有扩充项目标:

    • 概要分析数据
    • 分析质量
    • 分配术语
  9. 对于 类别,单击 选择类别

    1. 仅选择 [未分类]银行

    2. 单击选择

  10. 对于 抽样,选择 基本

  11. 单击下一步以继续操作,安排导入。 您可以手动运行导入,因此保持已调度的关闭状态。

  12. 单击下一步以继续操作,查看结果。

  13. 单击创建

  14. 将显示元数据扩充资产,但该作业可能需要几分钟才能完成。 单击刷新 “刷新”图标 图标,观察状态从 " 未分析 "到 " 进行中 "再到 " 完成 "的变化。 当作业运行完成时,您将看到列出的五个资产。

元数据扩充资产的检查点图标 检查您的进度

下图显示了已完成的元数据扩充。 现在,您可以浏览扩充的数据资产。

元数据扩充资产

任务 6: 查看元数据扩充项的结果

元数据扩充项运行完成后,请执行以下步骤以查看扩充项数据:

  1. 在 " 抵押数据-元数据扩充 " 屏幕中,单击 选项卡。

  2. 列表中,找到 抵押权人 资产的 EMAIL_ADDRESS 列。

    1. MORTGAGE_APPLICANTS 行的 EMAIL_ADDRESS 末尾,单击溢出 溢出菜单 菜单,然后选择查看列详细信息

    2. 详细信息 选项卡上的侧面板中,您会看到概要分析信息,例如: 格式,频率分布和统计信息。

    3. 在侧面板中,单击 监管 选项卡。 此选项卡包含在元数据扩充期间自动分配的数据类和业务术语。 您还可能会看到建议的业务术语和数据类,并手动分配这些业务术语和数据类。

    4. 查看建议的术语并手动分配这些术语:

      1. 单击 建议的业务术语

      2. 对于 地址,单击 分配

  3. MORTGAGE_APPLICANTS 资产行的 EMAIL_ADDRESS 列末尾,单击 溢出菜单 Overflow 菜单,然后选择查看数据质量详情

    1. 查看数据质量信息。 Watson Knowledge Catalog 通过根据预先构建的维度分析每条记录中的每个值,自动为每个列和数据资产生成数据质量得分。

    2. 单击 X 以关闭 " 数据质量 " 窗口。

  4. 对于 CREDIT_SCORE 资产的 CITY 栏,单击溢出 溢出菜单 菜单,然后选择标记为已审核

  5. 单击“资产”选项卡

  6. 资产列表中,针对 MORTGAGE_APPLICANTS 资产,单击溢出 溢出菜单 菜单,然后选择查看资产详细信息

    1. 在侧面板中,单击 监管 选项卡以查看业务术语自动分配。

    2. 单击编辑 编辑图标 图标,手动指定业务术语。

    3. 搜索 social。 如果未看到任何结果,请确保下拉列表设置为 所有术语 ,而不是 建议的术语

    4. 选择 社会保障号

    5. 单击分配

"已复审的扩充数据资产" 的检查点图标 检查您的进度

下图显示了已复审和扩充的数据资产。 下一步是将扩充的数据发布到目录以与您的组织共享。

已复审的扩充数据资产

任务 7: 将数据发布到目录

现在,您已扩充数据,想要将这些数据资产发布到目录中,以便数据研究员和数据分析人员可以使用扩充的数据资产。 遵循以下步骤将扩充后的数据资产存储在目录中,以便其他人能够访问可信数据:

  1. 单击导航跟踪中的 数据监管 项目名称。

  2. 单击“资产”选项卡

  3. 选择 数据> 数据资产

  4. 从列表中选择 COMMERICIAL_CLIENTHOUSE_PRICE抵押权申请人抵押权应用程序 数据资产,然后单击 发布到目录

    1. 对于 目标 目录,选择 抵押核准目录

    2. 对于 MORTGAGE_APPLICANTS 资产,单击编辑 编辑图标 图标,将名称更改为:

      MORTGAGE_APPLICANTS_TRUST
      
    3. 对于 标记,输入标记 trusted,然后单击 + (加号)。

    4. 请注意,数据资产和连接资产将添加到目录中。 单击发布

  5. 清除所有选中的资产,然后从列表中选择 CREDIT_SCORE 资产旁边的复选框,然后单击 发布到目录

    1. 对于 目标 目录,选择 抵押核准目录

    2. 对于 标记,输入标记 confidential,然后单击 + (加号)。

    3. 对于 标记,输入标记 trusted,然后单击 + (加号)。

    4. 单击发布

  6. 从 Cloud Pak for Data 导航菜单 导航菜单 ,选择目录 > 所有目录

  7. 单击 抵押核准目录

  8. 过滤依据> 任何标记 下拉列表中,选择 可信。 验证是否已将这五个数据资产添加到目录中。

已发布资产到目录的检查点图标 检查您的进度

下图显示了已发布到目录的扩充数据资产。 现在,您可以通过公司目录获取可信数据。

将资产发布到目录

作为治理团队的数据专员,您学习了如何对公司的数据进行排序和组织,以提供高质量且受保护的数据资产,数据使用者可以在自助服务目录中轻松找到这些数据资产。

后续步骤

现在,您已准备好通过创建数据保护规则和屏蔽流来保护数据,以控制对数据的访问。 请参阅 保护数据 教程。

了解更多

父主题: 数据光纤网教程