从文件 Cloud Object Storage 中创建虚拟化表 Data Virtualization

Data Virtualization 中,您可以虚拟化并使用存储在对象存储中的文件数据。

您可以在以下对象存储数据源中对文件中的数据进行虚拟化:
  • IBM Cloud Object Storage
  • Amazon S3
  • Ceph®
  • MinIO
  • 通用 S3
将来自一个或多个文件的数据进行分段或合并,以创建虚拟表。
请记住:
数据请求( 数据 > 数据请求 )功能已在版本 Cloud Pak for Data5.3.0 移除。 不妨考虑工作流

开始之前

要访问云对象存储中的数据,必须创建与文件所在数据源的连接。 有关对象存储数据源的更多信息,请参阅 《对象存储中的数据源》 Data Virtualization

过程

  1. 在导航菜单中,点击 “数据” > Data virtualization 以显示服务菜单。
  2. 在服务菜单中, 单击虚拟化 > 虚拟化 ,然后单击文件选项卡。
    这样会显示可用数据源的列表。 您可以使用可用过滤器来缩小显示的资产的范围。

    若在设置数据源连接时指定了存储桶名称,请单击 向下箭头图标 以展开对象存储连接详情,查看服务类型存储桶信息。 若在设置数据源连接时未指定存储桶名称,可通过" 存储桶 "输入字段在端点中查找特定存储桶。

    如果数据源列表未显示,请点击刷新刷新图标

  3. 选择您要浏览文件和文件路径的对象存储端点。
    对于 Cloud Object Storage,该端点是对象存储的 URL。
    显示端点中的文件路径或存储桶列表。 您可以浏览文件路径结构,或点击 视图图标 查看文件路径中首个文件的内容详情。

    您无法将该存储桶添加到购物车中。 要将文件路径添加到购物车,您必须先选择该文件路径以预览路径中的文件,然后点击 “添加到购物车 ”。 您无法在存储桶级别选择文件,必须将文件添加到存储桶中的某个文件路径下。

  4. 选择您要虚拟化的文件或文件路径,然后点击添加到购物车
    重要说明:
    • 您无法将包含多个文件的路径中的单个文件进行虚拟化。 该文件 URL 解析为其所在的父路径,而完整的文件路径则被虚拟化处理。 若需对单个文件进行虚拟化处理,可将其移动至独立的文件路径。 独立文件路径不得作为任何其他文件路径(该路径当前或将来将被虚拟化)的子文件路径。
    • 需要虚拟化的文件必须位于某个文件路径内,且不能与存储桶处于同一层级。 例如,您无法对文件进行 s3a://mynewbigsqlbucket/mydata.csv虚拟化;必须将 mydata.csv 放入文件路径中再进行虚拟化 s3a://mynewbigsqlbucket/fi1epath1/mydata.csv ,因为虚拟化过程无法仅凭桶名称(无路径)创建外部表。
  5. 点击 “查看购物车 ”可预览您选择的文件数据作为虚拟文件。
    在此窗口中,您可以编辑模式名称、预览参与合并表的文件,或从购物车中移除所选商品。

    若已 IBM® Knowledge Catalog 安装,则可将虚拟表发布至目录。 有关更多信息,请参阅使用 Data Virtualization. 将虚拟数据发布到目录。

  6. 建议:将分区列的类型从STRING更新为更合适的类型。 手动检查并为分区列指定合适的类型,以获得最佳性能。
  7. 可选: 点击 溢出菜单图标 并选择编辑列
    您可以编辑任何未标记为分区列的列名,并通过下拉菜单更改列类型。 当您对编辑内容满意时,请点击应用。 虚拟化表后,更新后的列名将显示出来。
    注意: 当您虚拟化包含日语数据的JSON文件 IBM Cloud Object Storage 时,若日语列名显示不正确, allownonalphanumeric 可使用选项正确查看虚拟化的日语列标题。 此选项默认处于禁用状态,您必须手动启用它。 有关更多信息,请参阅虚拟化数据中日本列名显示不正确的问题
  8. 为虚拟化表选择适当的共享选项。
  9. 若需同时发布所选目录,请选择“发布到目录”。
    可用目录的列表显示在下拉菜单中。 每个目录均标记为受管控不受管控
    注意: 您必须至少有一个目录在 IBM Knowledge Catalog.

    您必须获得许可才能向目录发布内容。 管理员可启用是否将所有虚拟对象发布到选定的受管目录,从而阻止用户向指定目录发布内容。

  10. 模式字段中指定一个模式。
    您也可以通过以下步骤创建模式。
    • 如果您拥有 Data Virtualization 工程师用户角色, 请将架构字段保留为默认值,以使用您的用户 ID 创建架构
    • 若您拥有管理员 Data Virtualization 角色 ,请将架构字段保持默认值以创建包含您用户ID的架构或在架构字段中输入新架构名称。
    有关更多信息,请阅《为虚拟对象创建架构》。
  11. 点击虚拟化以完成该过程。
    在显示状态窗口时,您可以选择查看虚拟化数据或虚拟化更多数据。 然而,您必须等待虚拟化完成后才能离开该页面。

结果

如果 Data VirtualizationIBM Knowledge Catalog 安装在同一个 OpenShift® 项目(命名空间)中,则您的虚拟对象将发布到主目录。

下一步操作

  • 查看表结构和元数据。
  • 管理对该表的访问权限。
  • 编辑对象存储资产的列名和类型,以便为虚拟化准备准确的数据。
  • 刷新虚拟化表的分区,确保数据保持最新且准确。 在虚拟化数据页面的溢出菜单中点击 “刷新分区 ”以识别新分区。 有关更多信息,请参阅 《对象存储中的数据源》 Data Virtualization
  • 为您的虚拟化表收集统计信息,以优化查询性能。 有关更多信息,请参阅 《收集统计信息》 Data Virtualization
  • “虚拟化数据 ”页面上,可选择将虚拟对象发布到目录中。 有关更多信息,请参阅《 将虚拟数据发布到目录》。