数据治理教程: 治理虚拟化数据

This Take this tutorial to govern data that was virtualized after completing the 策划高质量的数据教程, 保护您的数据教程, and 虚拟化外部数据教程 with the Data integration use case of the data fabric trial. 您的目标是保护包含未经授权访问的抵押贷款申请人和应用程序及其信用评分的虚拟数据。 某些个人信息如社保号码,必须被屏蔽,以便所有金银员工都无法访问该个人信息。

快速入门: 如果尚未为此教程创建样本项目,请访问资源中心中的 数据监管样本项目

本教程的故事是, Golden Bank 有几个部门需要访问存储在三个外部数据源中的高质量客户抵押贷款数据。 作为治理团队的数据专员,您必须丰富虚拟化数据并确保虚拟化数据受到保护。

以下动画图像提供了到本教程结束时将完成的内容的快速预览。 您将在项目中添加虚拟数据,然后用业务术语丰富这些数据,并了解 IBM watsonx.data intelligence 数据保护规则如何通过 Cloud Pak for Data as a Service 屏蔽数据。 单击该图像以查看更大的图像。

动画图像

预览教程

在本教程中,您将完成以下任务:

观看视频观看视频,预览本教程的步骤。 视频中显示的用户界面可能存在细微差异。 该视频旨在与编写的教程相伴。

此视频提供了一种可视方法来学习本文档中的概念和任务。





完成本教程的提示
以下是成功完成本教程的一些提示。

使用视频图片

提示: 启动视频,然后在滚动教程时,视频将移动到画中画方式。 关闭视频目录以获取最佳图片体验。 您可以使用图片-图片方式,以便在完成本教程中的任务时可以关注视频。 单击要继续执行的每个任务的时间戳记。

以下动画图像显示了如何使用视频图片和目录功能:

如何使用图片和章节

设置浏览器窗口

为获得最佳学习体验,请在浏览器的一个窗口中打开您的账户,并将本教程页面保持在另一个窗口中,以便在两个窗口之间轻松切换。 请考虑将两个浏览器窗口并排排列,以便更轻松地进行后续操作。

并排教程和 UI

提示: 如果在用户界面中完成本教程时迂到引导式教程,请单击 稍后可能



设置先决条件

完成必备教程

预览教程视频 要预览此任务,请观看视频中从 00:27 开始的部分。

完成以下教程:

  • 虚拟化外部数据 教程,用于从存储在三个外部源中的数据创建虚拟表和连接视图。
  • 整理高质量数据 教程,用于导入和扩充数据资产并将其发布到目录中。
  • 保护数据 教程,用于创建数据保护规则以保护数据。

基本 高级 标准除非另有说明,否则此信息适用于IBM Knowledge Catalog所有版本。




任务 1: 启用虚拟化数据的监管

要启用虚拟化数据的监管,需要执行两个步骤:

  • 在Data Virtualization中执行数据保护规则。
  • 在 IBM watsonx.data intelligence 和 Data Virtualization 之间设置授权。

实施数据保护规则

预览教程视频 要预览此任务,请观看视频中从 01:02 开始的部分。

请按照以下步骤在Data Virtualization中执行数据保护规则:

  1. 导航 导航菜单菜单中选择数据 > Data virtualization

  2. 如果看到 设置主目录以实施监管的通知,请单击 转至监管。 若未看到此消息,请从服务菜单中依次点击 “管理”>“服务设置 ”,然后点击 “治理 ”选项卡。
    Data Virtualization服务菜单

  3. 启用 对虚拟对象实施数据保护规则 选项,然后单击 保存

  4. 从服务菜单中,返回到 虚拟化> 数据源

检查点图标 检查你的进度

下图显示了启用了策略实施的 监管 选项卡。 接下来,您需要在 IBM watsonx.data intelligence 和 Data Virtualization 之间设置授权。

实施策略

在 IBM watsonx.data intelligence 和 Data Virtualization

预览教程视频 要预览此任务,请观看视频中从 01:40 开始的部分。

请按照以下步骤在 IBM watsonx.data intelligence 和 Data Virtualization 之间设置授权:

  1. 访问IBM Cloud控制台中的授权页面

  2. 单击创建

  3. 对于 服务在哪个帐户中? 字段,选择 此帐户

  4. 对于 需要访问哪些服务? 字段,选择 IBM watsonx.data intelligence。

  5. 对于 要如何限定访问权? 到 IBM watsonx.data intelligence ,选择所有资源

  6. 对于 要授予源访问权的内容? 字段,选择Data Virtualization。

  7. 对于 要如何限定访问权? 到Data Virtualization,选择所有资源

  8. 对于 服务访问权,选择 DataAccess (仅适用于服务到服务授权)

  9. 单击 授权

检查点图标 检查你的进度

下图显示了 IBM Cloud 中的授权页面,以及 IBM watsonx.data intelligence 和 Data Virtualization 之间的授权。 现在,您可以在 Data Virtualization 中查询已管理的虚拟表了。

授权页面




任务 2: 对受管虚拟表运行 SQL 查询

预览教程视频 要预览此任务,请观看视频中从 02:20 开始的部分。

通过实施数据保护规则,虚拟表将由这些规则管理。 执行以下步骤以对受管虚拟表运行 SQL 查询:

  1. 从服务 Data Virtualization 菜单中,点击运行SQL
    Data Virtualization服务菜单

  2. 复制并粘贴新查询的以下 SELECT 语句。 将 <your schema> 替换为先前记录的模式名称。

    SELECT * FROM <your-schema>.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
    

    您的查询语句类似于: SELECT * FROM DV_IBMID_663002GN1Q.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
    SELECT 语句

  3. 单击 全部运行

  4. 查询完成后,在 历史记录 选项卡上选择查询。 在 结果 选项卡上,您可以看到该表仅对来自加利福尼亚州的申请人进行过滤。 数据保护规则适用于Data Virtualization、目录预览、目录下载、Data Refinery和项目资产预览。 该规则不适用于资产所有者。 观看视频 观看视频 0 2:47处,了解其他用户执行SQL查询时所见内容。

检查点图标 检查你的进度

下图显示了另一个用户的透视图中的 SQL 查询结果。 现在,您已准备好将虚拟表复制到项目中。

SQL 查询结果




任务 3: 将虚拟数据复制到项目

预览教程视频 要预览此任务,请观看视频中从 03:02 开始的部分。

虚拟化外部数据 教程中,您创建了虚拟表和虚拟连接视图,并将它们复制到数据集成项目。 如果要使用该项目来完成本教程,请跳至 任务 3。 如果要使用数据监管项目来完成本教程,请执行以下步骤:

  1. 从服务菜单中,点击虚拟化 > 虚拟化数据
    Data Virtualization服务菜单

  2. 选择下表:

    • 抵押权人应用程序
    • 抵押贷款申请人
    • 信用评分
    • APPLANTS_APPLICATIONS_已连接
    • APPLANTS_APPLICATIONS_CREDIT_SCORE_联接
  3. 单击分配

  4. 对于 项目,选择 数据监管

  5. 单击分配

  6. 成功分配虚拟对象后,请浏览到项目。

  7. 数据监管 项目中,单击 资产 选项卡。 虚拟数据表以 <your schema>开头。

  8. 打开任何虚拟数据表。 例如,单击 APPLANTS_APPLICATIONS_CREDIT_SCORE_联接 虚拟表以进行查看。

  9. 提供凭证以访问数据资产。

    1. 对于 认证方法,选择 API 密钥

    2. 粘贴您在 Virtualize外部数据教程中创建的相同API密钥。 粘贴 API 密钥

    3. 单击连接。 数据保护规则适用于目录预览,目录下载, Data Refinery和项目资产预览。 该规则不适用于资产所有者。 观看视频 观看视频 04:09 处,了解其他用户尝试访问虚拟数据表时所见内容。

检查点图标 检查你的进度

下图从其他用户的角度显示了项目中具有屏蔽列的虚拟表。 现在,您已准备好扩充数据。

项目中的虚拟表




任务 4: 扩充虚拟数据表

预览教程视频 要预览此任务,请观看视频中从 04:21 开始的部分。

您可以使用有助于用户更快地查找数据的信息来丰富数据资产。 用户可以使用扩充项来决定数据是否适用于手头的任务,是否可以信任数据以及如何使用数据。 此类信息包括定义数据含义的术语、记录所有权或确定质量标准的规则,或者复审,等等。 执行以下步骤来扩充虚拟数据表:

  1. 在导航路径中点击数据治理 ,即可返回项目。
    导航跟踪

  2. 资产选项卡,点击新资产 > 使用元数据丰富数据资产

  3. 对于名称,复制并粘贴以下文本:

    Virtual mortgage data - metadata enrichment
    
  4. 单击下一步以继续。

  5. 单击 从项目中选择数据

    1. 选择 数据资产

    2. 单击以下资产旁边的复选框:

      • <your schema>.MORTGAGE_APPLICATION
      • <your schema>.MORTGAGE_APPLICANT
      • <your schema>.CREDIT_SCORE
      • <your schema>.APPLICANTS_APPLICATIONS_JOINED
      • <your schema>.APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED
    3. 单击选择

  6. 单击 下一步 以继续实现扩充目标。

  7. 选择所有扩充项目标:

    • 概要分析数据
    • 分配术语
    • 运行基本质量分析
  8. 对于 类别,单击 选择类别

    1. 仅选择 [未分类]银行

    2. 单击选择

  9. 对于 抽样,选择 基本

  10. 单击下一步以继续操作,安排导入。

  11. 单击下一步以继续操作,查看结果。

  12. 单击创建

  13. 将显示元数据扩充资产,但该作业可能需要几分钟才能完成。 点击刷新图标 刷新 ,即可观察状态从" 已排队 "变为" 正在处理 ",最终变为 "已完成 "。 作业运行完成后,您将看到列出的五个资产。

检查点图标 检查你的进度

下图显示了已完成的元数据扩充。 现在,您可以浏览扩充的数据资产。

扩充数据




任务 5: 查看元数据扩充项的结果

预览教程视频 要预览此任务,请观看视频中从 05:48 开始的部分。

元数据扩充项运行完成后,请执行以下步骤以查看扩充项数据:

  1. 在 " 虚拟抵押数据-元数据扩充 " 屏幕中,单击 选项卡。

  2. 搜索 mortgage_applicant

  3. 列表中,找到 your-schema.MORTGAGE_APPLICANT 资产的 EMAIL_ADDRESS 列。

    1. 点击您 your_schema.MORTGAGE_APPLICANT 所在行中 EMAIL_ADDRESS 末尾的溢出菜单 溢出菜单 ,然后选择查看列详细信息

    2. 详细信息 选项卡上的侧面板中,您会看到概要分析信息,例如: 格式,频率分布和统计信息。

    3. 在侧面板中,单击 监管 选项卡。 此选项卡包含在元数据扩充期间自动分配的数据类和业务术语。 您还可能会看到建议的业务术语和数据类,并手动分配这些业务术语和数据类。

    4. 查看任何建议的业务术语或数据类,并手动分配这些业务术语或数据类。 例如,您可能会将 Address 视为建议的业务术语。

      1. 单击 建议的业务术语

      2. 对于 地址,单击 分配

      3. 单击 建议的数据类

      4. 对于 文本,单击 分配

  4. 在资产 your_schema.MORTGAGE_APPLICANT 行对应的 EMAIL_ADDRESS 列末尾,点击溢出菜单 溢出菜单,然后选择查看数据质量详情

    1. 查看数据质量得分。 IBM watsonx.data intelligence 通过根据预设维度分析每条记录中的每个值,自动为每个列和数据资产生成数据质量评分。

    2. 单击 X 以关闭 " 数据质量 " 窗口。

  5. 搜索 credit_score

  6. 对于 your_schema.CREDIT_SCORE 资产的 CITY 列,请点击溢出菜单 溢出菜单,然后选择标记为已审核

  7. 单击“资产”选项卡

  8. 资产列表中,针对您的 your_schema.MORTGAGE_APPLICANT 资产,点击溢出菜单 溢出菜单,然后选择 “查看资产详情 ”。

    1. 在侧面板中,单击 监管 选项卡以查看自动分配的任何业务术语。

    2. 点击添加图标 添加 (或您可能看到编辑图标 编辑)以手动分配业务术语。

    3. 搜索 social。 如果未看到任何结果,请确保下拉列表设置为 所有术语 ,而不是 建议的术语

    4. 选择 社会保障号

    5. 单击分配

检查点图标 检查你的进度

下图显示了已复审和扩充的数据资产。 下一步是将扩充的数据发布到目录以与您的组织共享。

已复审的扩充数据资产




任务 6: 将虚拟表发布到目录

预览教程视频 要预览此任务,请观看视频中从 7分18秒开始的部分。

现在,虚拟化数据已使用业务术语进行扩充,请执行以下步骤将其发布到目录中:

  1. 在导航路径中点击数据治理 ,即可返回项目。
    导航跟踪

  2. 单击“资产”选项卡

  3. 浏览至 数据> 数据资产

  4. 单击以下资产旁边的复选框:

    • <your schema>.MORTGAGE_APPLICATION
    • <your schema>.MORTGAGE_APPLICANT
    • <your schema>.CREDIT_SCORE
    • <your schema>.APPLICANTS_APPLICATIONS_JOINED
    • <your schema>.APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED
  5. 单击 发布到目录

    1. 从列表中选择 抵押贷款审批目录 (或您的目录名称) ,然后单击 下一步

    2. 选择 发布目录后转至目录选项,然后单击 下一步

    3. 复审资产,然后单击 发布

  6. 抵押贷款审批目录中,搜索 <your-schema>

  7. 打开其中一个虚拟表。 如果出现提示,请提供您的凭证:

    1. 对于 认证方法,选择 API 密钥

    2. 粘贴在 虚拟化外部数据 教程中创建的相同 API 密钥。

  8. 单击 资产 选项卡以查看数据。 数据保护规则适用于目录预览,目录下载, Data Refinery和项目资产预览。 该规则不适用于资产所有者。 观看视频 观看视频 08:17 处,了解其他用户尝试访问目录中的虚拟数据表时所见内容。

检查点图标 检查你的进度

下图从用户的角度显示了目录中虚拟表的数据预览。

预览目录



作为 Golden Bank 的数据工程师和数据管理员,您丰富了虚拟化数据,以确保虚拟化数据受到保护。

清除(可选)

如果要重新学习数据监管用例中的教程,请参阅每个必备教程中的 清除 部分:


后续步骤

了解更多信息