重要说明:

IBM Cloud Pak® for Data 4.8 版本将于 2025 年 7 月 31 日结束支持(EOS)。 欲了解更多信息,请参阅 IBM Cloud Pak for Data 版本 4.X 的停止服务公告
在 版本支持结束之前,升级到 版本。 IBM Cloud Pak for Data 4.8 IBM Software Hub 5.1 有关更多信息,请参阅从 IBM Cloud Pak for Data 版本 4.8 升级到 IBM Software Hub 版本 5.1

数据集成教程: 虚拟化外部数据

使用本教程,通过数据光纤网试用版的 "数据集成" 用例来虚拟化存储在三个外部数据源中的数据。 您的目标是使用 Watson Query 来创建虚拟表,并从位于三个数据源 ( Db2 Warehouse, PostgreSQL 数据库和 MongoDB 数据库) 中的现有数据将这些虚拟表连接在一起。 如果完成了 集成数据 教程,那么将使用本教程使用 Watson Query完成的 DataStage 执行许多相同的任务。

该教程的故事是,金银需要遵守一项新法规,其中不能向资质不足的贷款申请人提供贷款。 您将使用 Watson Query 来组合来自不同数据源的数据,而无需移动数据,并使虚拟数据可供项目中的其他数据研究员和数据工程师使用。

以下动画图像提供了到本教程结束时将完成的内容的快速预览。 您将连接到外部数据源,创建虚拟表和视图,并将其添加到项目。 右键单击该图像,并在新选项卡中打开该图像以查看更大的图像。

教程的截屏

预览教程

在本教程中,您将完成以下任务:

观看视频 观看本视频,预览本教程的步骤。 视频中显示的用户界面可能存在细微差异。 该视频旨在与编写的教程相伴。

此视频提供了一种可视方法来学习本文档中的概念和任务。




完成本教程的提示

在社区中获取帮助

如果您需要本教程的帮助,可以在 Cloud Pak for Data 社区讨论区提问或寻找答案。

设置浏览器窗口

为了获得完成本教程的最佳体验,请在一个浏览器窗口中打开 Cloud Pak for Data ,并在另一个浏览器窗口中保持本教程页面处于打开状态,以便在两个应用程序之间轻松切换。 请考虑将两个浏览器窗口并排排列,以便更轻松地进行后续操作。

并排教程和 UI

提示: 如果在用户界面中完成本教程时迂到引导式教程,请单击 稍后可能



设置先决条件

完成本教程需要以下先决条件。

访问类型 描述 文档
服务 - Watson Query
- IBM Knowledge Catalog (可选)
- Watson Query
- IBM Knowledge Catalog
角色 数据工程师 - 预定义角色和许可权
- 管理角色
其他访问权 -对平台连接的编辑者访问权
-对缺省目录的编辑者访问权 (可选)
-对 Watson Query 服务的工程师访问权
- 添加合作者
- 在 Watson Query中管理用户和组的角色
其他配置 禁用 强制独占使用私钥 要求用户使用保密证书

执行以下步骤以验证您的角色和许可权。 如果您的 Cloud Pak for Data 帐户未满足所有先决条件,请与管理员联系。

  1. 单击工具栏中的概要文件图像。

  2. 单击 概要文件和设置

  3. 选择 角色 选项卡。

与您的角色关联的许可权列示在启用的许可权列中。 如果您是任何用户组的成员,那么您将继承分配给该组的角色。 这些角色也显示在 角色 选项卡上,并且您从中继承角色的组在 "用户组" 列中指定。 如果 用户组 列显示短划线,那么表示直接将角色分配给您。

角色和许可权

创建样本项目

如果已有本教程的样本项目,请跳至 任务 1。 否则,请完成以下步骤:

  1. 下载 Data-Integration.zip 文件。

  2. 从 Cloud Pak for Data 导航菜单 导航菜单 ,选择项目 > 所有项目

  3. 项目页面上,单击新建项目

  4. 选择 从文件创建项目

  5. 上载先前下载的 ZIP 文件。

  6. 在 " 创建项目 " 页面上,复制并粘贴项目名称,并添加项目的可选描述。

    Data Integration
    
  7. 单击创建

  8. 单击 查看新项目 以验证是否已成功创建项目和资产。

  9. 单击 资产 选项卡以查看项目的资产。

检查点图标 检查您的进度

下图显示了样本项目中的 "资产" 选项卡。 现在,您已准备好开始本教程。

样本项目




任务 1: 验证 Platform assets catalog

您可以在平台级别或服务级别添加与外部数据源的连接。 使用 Platform assets catalog在平台级别添加连接时,可以在项目,目录和 Watson Query 数据源中轻松包含这些连接。 执行以下步骤以验证 Platform assets catalog。

  1. 从 Cloud Pak for Data 导航菜单 导航菜单 ,选择数据 > 平台连接

  2. 如果您看到现有连接,那么您已具有 Platform assets catalog,并且可以跳至 任务 2。 如果没有看到任何连接,但看到了创建新连接的选项,则可以跳到任务 2
    新建连接按钮

  3. 如果您无权添加与 Platform assets catalog的连接,请与管理员联系。

检查点图标 检查您的进度

下图显示了平台连接。 在 "连接" 选项卡上,可以创建连接。 由于样本项目包含连接,因此您可以将外部数据源的连接从样本项目添加到此目录。

Platform Connections 目录




任务 2: 将数据连接添加到 Platform assets catalog

数据集成样本项目包含与外部数据源的多个连接。 接下来,将三个连接添加到 Platform assets catalog,然后可以在 Watson Query中提供这些连接。 执行以下步骤以将连接从样本项目发布到 Platform assets catalog。

  1. 从 Cloud Pak for Data 导航菜单 导航菜单 ,选择项目 > 所有项目

  2. 单击 数据集成 项目。

  3. 单击“资产”选项卡

  4. 在 " 资产类型" 下,单击 数据访问> 连接

  5. 选择以下连接资产:

    • Data Fabric 试用版- Db2 Warehouse
    • Data Fabric 试用- MongoDB
    • Data Fabric 试用版- Databases for PostgreSQL
  6. 单击 发布到目录

    1. 从列表中选择 平台资产目录 ,然后单击 下一步

    2. 复审资产,然后单击 发布

  7. 从 Cloud Pak for Data 导航菜单 导航菜单 中,选择数据 > 平台连接 ,查看发布到目录的三个连接。

检查点图标 检查您的进度

下图显示了具有三个连接的平台连接。 现在,您已准备好添加数据源。

平台连接中的连接




任务 3: 将数据源添加到 Watson Query

现在,您可以将这些外部数据源从 Platform assets catalog 添加到 Watson Query。 执行以下步骤以添加数据源:

  1. 从 Cloud Pak for Data 导航菜单 导航菜单 ,选择数据 > Data virtualization

    注: 如果您看到 设置主目录以实施监管的通知,那么可以安全地关闭此通知。 设置主目录是可选的。
  2. 从服务菜单中选择数据源
    "数据源" 页面上的服务菜单

  3. 数据源页面的表视图中,单击添加连接 > 现有平台连接
    添加现有连接

  4. 选择 Data Fabric Trial- Db2 Warehouse

  5. 单击添加

  6. 在 " 添加到远程连接器 " 页面上,单击 跳过

  7. 重复这些步骤以添加 Data Fabric Trial-Mongo DBData Fabric Trial- Databases for PostgreSQL 连接。

检查点图标 检查您的进度

下图显示了数据源。 现在,您已准备好根据存储在这些外部数据源中的数据创建虚拟表。

数据源




任务 4: 虚拟化数据表

您想要虚拟化 抵押者应用程序抵押者申请人CREDIT_SCORES 表。 稍后,您可以将前两个虚拟表与第三个表连接,以创建新的虚拟连接视图。 执行以下步骤以虚拟化数据表:

  1. 从服务菜单,单击虚拟化 > 虚拟化
    服务菜单上的虚拟化

  2. 如果需要,请更改为 " 列表 " 视图,并在装入表时等待,这可能需要最多 30 秒。 您可能需要单击 刷新 以查看表的完整列表。

  3. 选项卡上,根据以下条件对表进行过滤:

    1. 连接器: IBM Db2 WarehousePostgreSQL

    2. 数据库: Data Fabric Trial- Db2 WarehouseData Fabric Trial- Databases for PostgreSQL

    3. 模式: BANKING

  4. 选择要虚拟化的 抵押权人应用程序抵押贷款申请人CREDIT_SCORE 表。 可以将鼠标悬停在表名上以查看全名,从而验证您是否选择了正确的表名。

  5. 单击 添加到购物车

  6. 单击 查看购物车 以查看您的选择。 从此处,您可以编辑表和模式名称,或者从购物车中除去选择。

  7. 现在,请取消选中 分配给项目旁边的复选框。 此操作将使虚拟表在 " 虚拟化数据 " 页面上可用。

  8. 单击虚拟化

  9. 单击 确认 以开始虚拟化表。

  10. 虚拟化完成后,单击 转至虚拟化数据 以查看新创建的表。

检查点图标 检查您的进度

下图显示了 " 虚拟化数据 " 页面。 现在,您可以通过连接这些虚拟表来创建虚拟表。

虚拟化数据




任务 5: 通过连接虚拟表来创建虚拟连接视图

您希望通过连接抵押权申请人和抵押权应用程序虚拟表来创建虚拟连接视图。 然后,您希望将生成的虚拟对象与 CREDIT_SCORE 虚拟表连接,以创建第二个虚拟连接视图。

虚拟连接视图 1: 连接抵押权人和抵押权人应用程序虚拟表

执行以下步骤以创建第一个虚拟连接视图:

  1. 从 " 虚拟化数据 " 页面中,选择要虚拟化的 抵押权人应用程序抵押权人 表。

  2. 记下模式名称。 稍后将需要该名称来运行 SQL 查询。

  3. 单击 连接

  4. MORTGAGE_APPLICATION 表的列列表中,拖动 ID 列以连接 MORTGAGE_APPLICANT 表中的 ID 列。
    使用密钥标识连接虚拟对象

  5. 选择两个表中的所有列。

  6. 单击 预览 以查看连接表的预览。

  7. 关闭预览窗口。

  8. 单击 在 SQL 编辑器中打开,然后在通知您无法返回到连接画布时单击 继续 。 SQL 编辑器允许您对数据集运行查询。 在这种情况下,您希望预览在对加利福尼亚申请人进行过滤时数据集将包含的记录。

    打开 SQL 编辑器

    1. 复制模式,然后删除现有查询。 您将需要在下一个 SQL 语句中插入模式。

    2. 复制并粘贴新查询的以下 SELECT 语句。 将 <your schema> 替换为先前记录的模式名称。

      SELECT * FROM <your-schema>.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA'
      

      您的查询与 SELECT * FROM DATAENGINEER.MORTGAGE_APPLICANT WHERE STATE_CODE LIKE 'CA' 类似
      SELECT 语句

    3. 单击 全部运行

    4. 查询完成后,在 历史记录 选项卡上选择查询。 在 结果 选项卡上,您可以看到该表仅过滤为来自加利福尼亚州的申请人。

    5. 单击 上一步 以关闭 SQL 编辑器。

  9. 现在,您已预览了按加利福尼亚申请人过滤的数据集,您将向虚拟连接视图添加此过滤条件。 对于 抵押权申请人 表,针对过滤条件复制并粘贴以下语句。 将 <your schema> 替换为先前记录的模式名称。

    "<your-schema>"."MORTGAGE_APPLICANT"."STATE_CODE"='CA'
    

    您的过滤条件类似于 "DV_IBMID_663002GN1Q"。“MORTGAGE_APPLICANT”。“STATE_CODE”='CA'

    过滤器条件

  10. 单击下一步

  11. 您可以编辑列名以区分两个表中具有相同名称的列。 在这种情况下,保留缺省列名,然后单击 下一步

  12. 在 " 分配和复审 " 页面上,对于 视图名称,输入 APPLICANTS_APPLICATIONS_JOINED

  13. 现在,清除 分配给项目 选项。 稍后,创建虚拟对象并将其分配给数据集成项目。

  14. 单击创建视图

  15. 虚拟化完成后,单击 转至虚拟化数据 以查看新创建的连接视图。

检查点图标 检查您的进度

下图显示了 " 虚拟化数据 " 页面。 现在,您已准备好创建第二个虚拟连接视图。

虚拟化数据

虚拟连接视图 2: 连接 APPLANTS_APPLICATIONS_JOIN 和 CREDIT_SCORE 虚拟表

执行以下步骤以创建第二个虚拟连接视图:

  1. 从 " 虚拟化数据 " 页面中,选择要虚拟化的 APPLANTS_APPLICATIONS_联接CREDIT_SCORE 表。

  2. 单击 连接

  3. APPLANTS_APPLICATIONS_联接 表的列列表中,拖动以将 EMAIL_ADDRESS 列与 CREDIT_SCORE 表中的 EMAIL_ADDRESS 列连接。

  4. 单击 预览 以查看连接表的预览。

  5. 关闭预览窗口。

  6. 单击下一步

  7. 接受缺省列名,然后单击 下一步

  8. 在 " 分配和复审 " 页面上,对于 视图名称,输入 APPLICANTS_APPLICATIONS_CREDIT_SCORE_JOINED

  9. 此时,保持选中 分配给项目 ,然后选择 数据集成 项目。

  10. 单击创建视图

  11. 虚拟化完成后,单击 转至虚拟化数据 以查看新创建的连接视图。

检查点图标 检查您的进度

下图显示了 " 虚拟化数据 " 页面。 现在,您已准备好处理项目中的虚拟数据。

虚拟化数据




任务 6: 访问项目中的虚拟连接视图

虚拟表已添加到项目以及与 Watson Query的连接。 执行以下步骤以打开项目来查看虚拟数据以及访问虚拟数据所需的连接信息。

  1. 从 Cloud Pak for Data 导航菜单 导航菜单 ,选择项目 > 所有项目

  2. 打开 数据集成 项目。

  3. 单击“资产”选项卡

  4. 打开任何虚拟化数据。 例如,单击 APPLANTS_APPLICATIONS_CREDIT_SCORE_联接 数据资产以进行查看。

  5. 提供凭证以访问数据资产。

  6. 对于 认证方法,选择 用户名和密码

  7. 粘贴您的 Cloud Pak for Data 用户名密码
    粘贴凭证

  8. 单击连接

  9. 滚动数据资产以查看来自加利福尼亚州的所有申请人。

检查点图标 检查您的进度

下图显示了项目中的虚拟数据。 现在,您已准备好分析虚拟数据。

查看虚拟表



作为 Golden Bank 的数据工程师,您使用 Watson Query 来组合来自不同数据源和不同类型的数据。 您使用了 SQL 语法,并且在没有数据移动的情况下访问和组合了数据。


清除(可选)

如果要重新学习数据集成用例中的教程,请删除以下工件。

工件 如何删除
Platform assets catalog 中的连接 从目录中删除资产
虚拟化数据 导航至数据 > Data virtualization;在虚拟化数据页面上,访问 溢出菜单 表格溢出菜单,然后选择删除
数据源 导航至数据 > Data virtualization;在数据源页面上,单击 “删除”图标 删除连接图标。
数据集成样本项目 删除项目

后续步骤

了解更多

父主题: 用例教程