数据治理教程: 治理虚拟化数据

使用本教程来管理在完成 组织高质量数据教程保护数据教程虚拟化外部数据教程 以及数据光纤网试用的数据集成用例之后虚拟化的数据。 您的目标是保护包含未经授权访问的抵押贷款申请人和应用程序及其信用评分的虚拟数据。 某些个人信息如社保号码,必须被屏蔽,以便所有金银员工都无法访问该个人信息。

本教程的故事是, Golden Bank 有几个部门需要访问存储在三个外部数据源中的高质量客户抵押贷款数据。 作为监管团队的数据专员,您必须丰富虚拟化数据,并确保虚拟化数据受到保护。

以下动画图像提供了在本教程结束时将完成的内容的快速预览。 您将向项目添加虚拟数据,然后使用业务术语扩充该数据,并查看 IBM Knowledge Catalog 数据保护规则如何通过 Cloud Pak for Data as a Service来屏蔽数据。 右键单击该图像并在新选项卡中打开该图像以查看更大的图像。

教程的截屏

预览教程

在本教程中,您将完成以下任务:

观看视频 观看此视频以预览本教程中的步骤。 视频中显示的用户界面可能存在细微差异。 该视频旨在与编写的教程相伴。

此视频提供了一种可视方法来学习本文档中的概念和任务。


试用教程

展开每个部分以完成任务。



完成本教程的提示
以下是成功完成本教程的一些提示。

在社区中获取帮助

如果需要本教程的帮助,您可以在 Cloud Pak for Data 社区讨论论坛中提出问题或找到答案。

设置浏览器窗口

为了获得完成本教程的最佳体验,请在一个浏览器窗口中打开 Cloud Pak for Data ,并在另一个浏览器窗口中保持本教程页面处于打开状态,以便在两个应用程序之间轻松切换。 请考虑将两个浏览器窗口并排排列,以便更轻松地进行后续操作。

并排教程和 UI

提示: 如果在用户界面中完成本教程时迂到引导式教程,请单击 稍后可能



设置先决条件

完成必备教程

完成以下教程:

  • 虚拟化外部数据 教程,用于从存储在三个外部源中的数据创建虚拟表和连接视图。
  • 整理高质量数据 教程,用于导入和扩充数据资产并将其发布到目录。
  • 保护数据 教程,用于创建数据保护规则以保护数据。

Base Premium Standard 除非另有说明,否则本信息适用于所有版本的 IBM Knowledge Catalog。




任务 1: 启用虚拟化数据的监管

必须通过在 Data Virtualization中实施数据保护规则来启用虚拟化数据的监管。

执行以下步骤以在 Data Virtualization中实施数据保护规则:

  1. 从 Cloud Pak for Data 导航菜单 导航菜单中,选择 数据> Data virtualization

  2. 如果看到 设置主目录以实施监管的通知,请单击 转至监管。 如果未看到此消息,请从服务菜单中单击 管理> 服务设置,然后单击 监管 选项卡。
    Data Virtualization 服务菜单

  3. 启用 对虚拟对象实施数据保护规则 选项,然后单击 保存

    注: 供应 IBM Knowledge Catalog 实例时,将自动启用数据保护规则的实施。
  4. 从服务菜单中,返回到 虚拟化> 数据源

检查点图标 检查进度

下图显示了启用了策略实施的 监管 选项卡。 接下来,您需要在 IBM Knowledge Catalog 与 Data Virtualization之间设置授权。

实施策略




任务 2: 对受管虚拟表运行 SQL 查询

通过实施数据保护规则,虚拟表由这些规则管理。 执行以下步骤以在受管虚拟表上运行 SQL 查询:

  1. 从 Data Virtualization 服务菜单中,单击 运行 SQL
    Data Virtualization 服务菜单

  2. 复制并粘贴新查询的以下 SELECT 语句。 将 <your schema> 替换为先前记录的模式名称。

    SELECT * FROM <your-schema>.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
    

    您的查询类似于 SELECT * FROM DV_IBMID_663002GN1Q.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
    SELECT 语句

  3. 单击 全部运行

  4. 查询完成后,在 历史记录 选项卡上选择查询。 在 结果 选项卡上,您可以看到该表仅对来自加利福尼亚州的申请人进行过滤。 数据保护规则适用于 Data Virtualization,目录预览,目录下载, Data Refinery和项目资产预览。 该规则不适用于资产所有者。 观看视频 请在 02:47 观看视频,以查看其他用户在运行 SQL 查询时看到的内容。

检查点图标 检查进度

下图显示了另一个用户的透视图中的 SQL 查询结果。 现在,您已准备好将虚拟表复制到项目。

SQL 查询结果




任务 3: 将虚拟数据复制到项目

虚拟化外部数据 教程中,您创建了虚拟表和虚拟连接视图,并将它们复制到数据集成项目。 如果要使用该项目来完成本教程,请跳至 任务 3。 如果要使用数据监管项目来完成本教程,请执行以下步骤:

  1. 从服务菜单中,单击 虚拟化> 虚拟化数据
    Data Virtualization 服务菜单

  2. 选择下表:

    • 抵押权人应用程序
    • 抵押贷款申请人
    • CREDIT_SCORE
    • APPLANTS_APPLICATIONS_已连接
    • APPLANTS_APPLICATIONS_CREDIT_SCORE_联接
  3. 单击分配

  4. 对于 项目,选择 数据监管

  5. 单击分配

  6. 成功分配虚拟对象后,请浏览到项目。

  7. 数据监管 项目中,单击 资产 选项卡。 虚拟数据表以模式开头,例如 DATASTEWARD

  8. 打开任何虚拟数据表。 例如,单击 APPLANTS_APPLICATIONS_CREDIT_SCORE_联接 虚拟表以进行查看。

  9. 提供凭证以访问数据资产。

    1. 对于 认证方法,选择 用户名和密码

    2. 粘贴 Cloud Pak for Data 用户名密码
      粘贴凭证

    3. 单击连接。 数据保护规则适用于目录预览,目录下载, Data Refinery和项目资产预览。 该规则不适用于资产所有者。 观看视频 请在 04:09 观看视频,以了解其他用户尝试访问虚拟数据表时看到的内容。

检查点图标 检查进度

下图从其他用户的角度显示了项目中具有屏蔽列的虚拟表。 现在,您已准备好扩充数据。

项目中的虚拟表




任务 4: 扩充虚拟数据表

您可以使用有助于用户更快地查找数据的信息来丰富数据资产。 用户可以使用扩充项来决定数据是否适用于手头的任务,是否可以信任数据以及如何使用数据。 此类信息包括定义数据含义的术语、记录所有权或确定质量标准的规则,或者复审,等等。 执行以下步骤来扩充虚拟数据表:

  1. 单击导航跟踪中的 数据监管 以返回到项目。
    导航跟踪

  2. 资产选项卡,点击新资产 > 使用元数据丰富数据资产

  3. 对于名称,复制并粘贴以下文本:

    Virtual mortgage data - metadata enrichment
    
  4. 单击下一步以继续。

  5. 单击 从项目中选择数据

    1. 选择 数据资产

    2. 单击以下资产旁边的复选框:

      • <your schema>.MORTGAGE_APPLICATION
      • <your schema>.MORTGAGE_APPLICANT
      • <your schema>.CREDIT_SCORE
      • <your schema>.APPLICANTS_APPLICATIONS_JOINED
      • <your schema>.APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED
    3. 单击选择

  6. 单击 下一步 以继续实现扩充目标。

  7. 选择所有扩充项目标:

    • 概要分析数据
    • 分配术语
    • 运行基本质量分析
  8. 对于 类别,单击 选择类别

    1. 仅选择 [未分类]银行

    2. 单击选择

  9. 对于 抽样,选择 基本

  10. 单击下一步以继续操作,安排导入。

  11. 单击下一步以继续操作,查看结果。

  12. 单击创建

  13. 将显示元数据扩充资产,但该作业可能需要几分钟才能完成。 单击 刷新 图标 刷新 以监视从 已排队正在进行已完成的状态更改。 当作业运行完成时,您将看到列出的五个资产。

检查点图标 检查进度

下图显示了已完成的元数据扩充。 现在,您可以浏览扩充的数据资产。

扩充数据




任务 5: 查看元数据扩充项的结果

元数据扩充项运行完成后,请执行以下步骤以查看扩充项数据:

  1. 在 " 虚拟抵押数据-元数据扩充 " 屏幕中,单击 选项卡。

  2. 搜索 mortgage_applicant

  3. 列表中,找到 your-schema.MORTGAGE_APPLICANT 资产的 EMAIL_ADDRESS 列。

    1. 单击 your_schema.MORTGAGE_APPLICANT 行的 EMAIL_ADDRESS 末尾的 溢出 菜单 溢出菜单 ,然后选择 查看列详细信息

    2. 详细信息 选项卡上的侧面板中,您会看到概要分析信息,例如: 格式,频率分布和统计信息。

    3. 在侧面板中,单击 监管 选项卡。 此选项卡包含在元数据扩充期间自动分配的数据类和业务术语。 您还可能会看到建议的业务术语和数据类,并手动分配这些业务术语和数据类。

    4. 查看任何建议的业务术语或数据类,并手动分配这些业务术语或数据类。 例如,您可能会将 Address 视为建议的业务术语。

      1. 单击 建议的业务术语

      2. 对于 地址,单击 分配

      3. 单击 建议的数据类

      4. 对于 文本,单击 分配

  4. your_schema.MORTGAGE_APPLICANT 资产行的 EMAIL_ADDRESS 列末尾,单击 溢出 菜单 溢出菜单,然后选择 查看数据质量详细信息

    1. 查看数据质量得分。 IBM Knowledge Catalog 通过根据预先构建的维度分析每条记录中的每个值,自动为每个列和数据资产生成数据质量得分。

    2. 单击 X 以关闭 " 数据质量 " 窗口。

  5. 搜索 credit_score

  6. 对于 your_schema.CREDIT_SCORE 资产的 CITY 列,单击 溢出 菜单 溢出菜单,然后选择 标记为已复审

  7. 单击“资产”选项卡

  8. 资产列表中,对于 your_schema.MORTGAGE_APPLICANT 资产,单击 溢出 菜单 溢出菜单,然后选择 查看资产详细信息

    1. 在侧面板中,单击 监管 选项卡以查看自动分配的任何业务术语。

    2. 单击 添加 图标 添加 (或者您可能会看到 编辑 图标 编辑) 以手动分配业务术语。

    3. 搜索 social。 如果未看到任何结果,请确保下拉列表设置为 所有术语 ,而不是 建议的术语

    4. 选择 社会保障号

    5. 单击分配

检查点图标 检查进度

下图显示了已复审和扩充的数据资产。 下一步是将扩充的数据发布到目录以与您的组织共享。

已复审的扩充数据资产




任务 6: 将虚拟表发布到目录

现在,虚拟化数据已使用业务术语进行扩充,请执行以下步骤将其发布到目录中的虚拟表:

  1. 单击导航跟踪中的 数据监管 以返回到项目。
    导航跟踪

  2. 单击“资产”选项卡

  3. 浏览至 数据> 数据资产

  4. 单击以下资产旁边的复选框:

    • <your schema>.MORTGAGE_APPLICATION
    • <your schema>.MORTGAGE_APPLICANT
    • <your schema>.CREDIT_SCORE
    • <your schema>.APPLICANTS_APPLICATIONS_JOINED
    • <your schema>.APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED
  5. 单击 发布到目录

    1. 从列表中选择 抵押贷款审批目录 (或您的目录名称) ,然后单击 下一步

    2. 选择 发布目录后转至目录选项,然后单击 下一步

    3. 复审资产,然后单击 发布

  6. 抵押核准目录中,搜索模式,例如 DATASTEWARD

  7. 打开其中一个虚拟表。 如果出现提示,请提供您的凭证:

    1. 对于 认证方法,选择 用户名和密码

    2. 粘贴 Cloud Pak for Data 用户名密码

  8. 单击 资产 选项卡以查看数据。 数据保护规则适用于目录预览,目录下载, Data Refinery和项目资产预览。 该规则不适用于资产所有者。 观看视频 请在 08:17 观看视频,以了解其他用户在尝试访问目录中的虚拟数据表时看到的内容。

检查点图标 检查进度

下图从用户的角度显示了目录中虚拟表的数据预览。

预览目录



作为 Golden Bank 的数据工程师和数据管理员,您丰富了虚拟化数据,以确保虚拟化数据受到保护。

清除(可选)

如果要重新学习数据监管用例中的教程,请参阅每个必备教程中的 清除 部分:


后续步骤

了解更多

父主题: 用例教程