在 Data Virtualization 中,您可以虚拟化并使用存储在对象存储中的文件数据。
您可以在以下对象存储数据源中对文件中的数据进行虚拟化:
- IBM Cloud
Object Storage
- Amazon S3
- Ceph®
- MinIO
- 通用 S3
将来自一个或多个文件的数据进行分段或合并,以创建虚拟表。
请记住:数据请求( )功能已在版本
Cloud Pak for Data 中
5.3.0 移除。 不妨考虑
工作流。
过程
- 在导航菜单中,点击 以显示服务菜单。
- 在服务菜单中, ,然后单击文件选项卡。
这样会显示可用数据源的列表。 您可以使用可用过滤器来缩小显示的资产的范围。
若在设置数据源连接时指定了存储桶名称,请单击
以展开对象存储连接详情,查看服务类型和存储桶信息。 若在设置数据源连接时未指定存储桶名称,可通过" 存储桶 "输入字段在端点中查找特定存储桶。
如果数据源列表未显示,请点击刷新
。
- 选择您要浏览文件和文件路径的对象存储端点。
对于 Cloud Object Storage,该端点是对象存储的 URL。
显示端点中的文件路径或存储桶列表。 您可以浏览文件路径结构,或点击

查看文件路径中首个文件的内容详情。
您无法将该存储桶添加到购物车中。 要将文件路径添加到购物车,您必须先选择该文件路径以预览路径中的文件,然后点击 “添加到购物车 ”。 您无法在存储桶级别选择文件,必须将文件添加到存储桶中的某个文件路径下。
- 选择您要虚拟化的文件或文件路径,然后点击添加到购物车。
重要说明:
- 您无法将包含多个文件的路径中的单个文件进行虚拟化。 该文件 URL 解析为其所在的父路径,而完整的文件路径则被虚拟化处理。 若需对单个文件进行虚拟化处理,可将其移动至独立的文件路径。 独立文件路径不得作为任何其他文件路径(该路径当前或将来将被虚拟化)的子文件路径。
- 需要虚拟化的文件必须位于某个文件路径内,且不能与存储桶处于同一层级。 例如,您无法对文件进行 s3a://mynewbigsqlbucket/mydata.csv虚拟化;必须将 mydata.csv 放入文件路径中再进行虚拟化 s3a://mynewbigsqlbucket/fi1epath1/mydata.csv ,因为虚拟化过程无法仅凭桶名称(无路径)创建外部表。
- 点击 “查看购物车 ”可预览您选择的文件数据作为虚拟文件。
在此窗口中,您可以编辑模式名称、预览参与合并表的文件,或从购物车中移除所选商品。
若已 IBM® Knowledge
Catalog 安装,则可将虚拟表发布至目录。 有关更多信息,请参阅使用 Data Virtualization. 将虚拟数据发布到目录。
- 建议:将分区列的类型从STRING更新为更合适的类型。 手动检查并为分区列指定合适的类型,以获得最佳性能。
- 可选: 点击
并选择编辑列。您可以编辑任何未标记为分区列的列名,并通过下拉菜单更改列类型。 当您对编辑内容满意时,请点击应用。 虚拟化表后,更新后的列名将显示出来。注意: 当您虚拟化包含日语数据的JSON文件
IBM Cloud
Object Storage 时,若日语列名显示不正确,
allownonalphanumeric 可使用选项正确查看虚拟化的日语列标题。 此选项默认处于禁用状态,您必须手动启用它。 有关更多信息,请参
阅虚拟化数据中日本列名显示不正确的问题。
- 为虚拟化表选择适当的共享选项。
- 若需同时发布到所选目录,请选择“发布到目录”。
可用目录的列表显示在下拉菜单中。 每个目录均标记为
受管控或
不受管控。
注意: 您必须至少有一个目录在
IBM Knowledge
Catalog.
您必须获得许可才能向目录发布内容。 管理员可启用是否将所有虚拟对象发布到选定的受管目录,从而阻止用户向指定目录发布内容。
- 在模式字段中指定一个模式。
您也可以通过以下步骤创建模式。
- 如果您拥有 Data Virtualization 工程师或用户角色, 请将架构字段保留为默认值,以使用您的用户 ID 创建架构。
- 若您拥有管理员 Data Virtualization 角色 ,请将架构字段保持默认值以创建包含您用户ID的架构 , 或在架构字段中输入新架构名称。
- 点击虚拟化以完成该过程。
在显示状态窗口时,您可以选择查看虚拟化数据或虚拟化更多数据。 然而,您必须等待虚拟化完成后才能离开该页面。
结果
如果 Data Virtualization 和 IBM Knowledge
Catalog 安装在同一个 OpenShift® 项目(命名空间)中,则您的虚拟对象将发布到主目录。