重要说明:

IBM Cloud Pak® for Data 4.6 版本将于 2025 年 7 月 31 日结束支持(EOS)。 欲了解更多信息,请参阅 IBM Cloud Pak for Data 版本 4.X 的停止服务公告

在 IBM Cloud Pak for Data 4.6 版本支持结束之前,升级到 IBM Software Hub 5.1 版本。 更多信息,请参阅 IBM Software Hub 版本 5.1 文档中的升级 IBM Software Hub。

资产类型和属性

Cloud Pak for Data 及其服务提供了一个具有协作工作空间和工具的平台。 您以资产形式向平台提供内容。 资产 是包含有关数据的信息,其他有价值的信息或用于处理数据的代码的项。

您可以通过导入资产或使用工具创建资产来添加资产。 您可以在协作工作空间中使用资产。 您使用的工作空间取决于您的任务。

项目
与他人协作以处理数据和创建资产的位置。 大多数工具都在项目中,您可以运行包含项目中的代码的资产。 例如,您可以在项目中导入数据,准备数据,分析数据或创建模型。 请参阅项目
目录
存储要与组织共享的资产或查找需要使用的资产的位置。 您可以将资产从目录复制到项目中,或者将资产从项目发布到目录中。 您可以在目录中编辑资产属性和元数据,但无法运行资产。 请参阅目录
部署空间
您可以在其中部署和运行准备好进行测试或生产的资产。 将资产从项目移至部署空间,然后从这些资产创建部署。 根据需要监视和更新部署。 请参阅部署空间

下图说明了如何在平台上移动资产。

资产在项目和目录之间以及从项目到部署空间之间移动。

您可以在您作为合作者的任何工作空间中查找任何资产,方法是从全局搜索栏搜索该资产。 请参阅在平台中搜索资产

您可以创建许多不同类型的资产,但所有资产都具有一些公共属性:

资产类型

要创建大多数类型的资产,必须使用特定工具。 大多数工具由一个或多个服务提供。 用于创建数据资产和连接资产的工具由平台提供,并且不需要任何特定服务。

下表列出了可以创建的资产类型,创建这些资产所需的工具以及可以添加这些资产的工作空间。

资产类型 描述 用于创建该工具的工具 工作空间
AutoAI 试验 自动生成候选预测模型管道。 AutoAI 项目
COBOL 副本 显示来自 z/OS 大型机的已连接数据资产的映射元数据。 Metadata import 工具 项目,目录
代码包 包含可执行文件和支持文件。 JupyterLab, RStudio 项目,空间
已连接的数据资产 表示通过与远程数据源的连接访问的数据。 已连接的数据工具, Metadata import 工具 项目,目录,空间
连接 包含用于连接到数据源的信息。 连接工具 项目,目录,空间
仪表板 在无代码的交互式图形中可视化数据。 仪表板编辑器 项目,目录
文件中的数据资产 表示从本地系统上载的文件。 上载窗格 项目,目录,空间
Data Refinery 流程 准备数据。 Data Refinery 项目,空间
Data Replication 流 复制数据。 Data Replication 项目,目录
数据质量定义 定义数据质量规则的可复用规则逻辑组件。 数据质量定义编辑器 项目,目录
数据质量规则 评估特定条件的数据质量。 数据质量规则编辑器 项目
DataStage 构建阶段 定义 DataStage 流的可复用构建阶段组件。 DataStage 组件编辑器 项目,空间
DataStage 定制阶段 为 DataStage 流定义可复用的定制阶段组件。 DataStage 组件编辑器 项目,空间
DataStage 数据定义 定义 DataStage 流作业的可复用列元数据组件。 DataStage 组件编辑器 项目,空间
DataStage 流程 转换和集成数据。 DataStage 流程编辑器 项目,空间
DataStage 函数库 为 DataStage 流定义可复用的定制函数组件。 DataStage 组件编辑器 项目,空间
DataStage Java 库 为 DataStage 流收集一组可复用的 JAR 文件。 DataStage 组件编辑器 项目,空间
DataStage 匹配规范 定义 DataStage 流中匹配策略的可复用条件组件。 DataStage 组件编辑器 项目,空间
DataStage Operational Decision Manager 阶段 为 DataStage 流作业定义一组可复用的复杂业务规则。 DataStage 组件编辑器 项目,空间
DataStage 模式库 导入 DataStage 流的一组可复用资源。 DataStage 组件编辑器 项目,空间
DataStage 标准化规则 定义可复用的规则组件以格式化 DataStage 流中的数据。 DataStage 组件编辑器 项目,空间
DataStage 子流 为 DataStage 流定义一组可复用的阶段和连接器。 DataStage 组件编辑器 项目,空间
DataStage 包装阶段 定义 DataStage 阶段的可复用 UNIX 命令。 DataStage 组件编辑器 项目,空间
决策优化试验 (Decision Optimization experiment) 解决优化问题。 Decision Optimization 项目
深度学习试验 运行数百个实验训练运行。 试验构建器 项目
联合学习试验 在一组远程数据源上训练公共模型。 联合学习 项目
文件夹资产 代表 IBM Cloud Object Storage 中的文件夹。 已连接的数据工具 项目,目录,空间
Jupyter 笔记本 运行 Python 或 R 代码以分析数据或构建模型。 Jupyter 笔记本编辑器, JupyterLab, Visual Studio Code 项目,目录
逻辑数据模型资产类型 可视化逻辑数据模型。 Metadata import 工具 目录
屏蔽流 创建数据资产的掩码副本。 屏蔽流 项目
主数据配置 配置 Match 360。 Match 360 项目
元数据增补 扩充导入的资产元数据。 元数据扩充工具 项目
Metadata import 从连接导入资产元数据。 Metadata import 工具 项目
模型 包含有关已保存或已导入模型的信息。 运行实验或训练模型的各种工具 项目,目录,空间
模型用例 跟踪模型从请求到生产的生命周期。 AI Factsheets 目录
参数集 收集 DataStage 作业的一组可复用作业参数。 参数集编辑器 项目
物理约束 表示数据资产的主键或外键约束。 Metadata import 工具 目录
物理数据模型资产类型 可视化物理数据模型。 Metadata import 工具 目录
管道 自动执行模型生命周期。 Watson Pipelines 项目
Python 函数 包含 Python 代码以支持生产中的模型。 Jupyter Notebook 编辑器, JupyterLab 项目,空间
报告资产类型 组织商业智能报告。 Metadata import 工具 目录
脚本 包含 Python 或 R 脚本以支持生产中的模型。 Jupyter 笔记本编辑器, RStudio、 JupyterLab 项目,空间
Shiny 应用程序 包含交互式数据可视化仪表板。 RStudio 项目,空间
SPSS Modeler 流程 运行流以准备数据并构建模型。 SPSS Modeler 项目
变换脚本资产类型 描述数据转换。 Metadata import 工具 目录

资产的公共属性

当您创建资产,使用资产或由自动化流程更新资产时,这些资产会在属性中累积信息。 某些属性由用户提供,并且可以由用户编辑。 其他属性由系统自动提供。 用户无法编辑大多数系统提供的属性。

资产的通用属性 (无处不在)

在存在这些资产类型的所有工作空间中,大多数类型的资产都具有下表中列出的属性。

属性 描述 可编辑?
名称 资产名称。 最多可以包含 100 个字符。 支持多字节字符。 不能为空,包含 Unicode 控制字符或仅包含空格。 资产名称在项目或部署空间中不需要唯一。 资产名称在目录中是否必须唯一取决于为目录设置的重复处理方法。
描述 可选。 最多可以包含 245 个字符,不包括空格。 支持多字节字符和超链接。
创建日期 创建或导入资产的时间戳记。
创建者或所有者 创建或导入资产的人员的用户名或电子邮件地址。
上次修改日期 上次修改资产的时间戳记。
上次编辑者 上次修改资产的人员的用户名或电子邮件地址。

目录中资产的公共属性

除了所有资产都具有的公共属性外,目录中的资产还具有下表中列出的属性和页面。

属性或页面 描述 可编辑?
" 资产 " 页面 资产内容的视图。 请参阅 资产内容或预览
隐私 缺省情况下设置为“公共”。 此设置可以在设置为专用时限制对目录中资产的访问。 只有资产的所有者和成员才能查看和使用专有资产。
" 访问权 " 页面 资产的所有者和成员。 缺省情况下,资产所有者是已将资产添加到目录的用户。 资产成员可以在资产标记为私有时查看和使用该资产。 请参阅控制资产访问权
" 评级 " 页面 可选。 目录合作者可以对资产进行评级和复审。
标记 可选。 目录合作者为简化搜索而创建的文本标签。 标记由一个最多 255 个字符的字符串组成。 它可以包含空格、字母、数字、下划线、短划线以及符号 # 和 @。
关系 可选。 资产 " 概述 " 页面的 相关项 部分中显示的关系是参考关系,不会对资产产生其他影响。 可以介于同一工作空间或不同工作空间中的资产之间。 例如,可以在目录中的资产与项目中的资产之间添加关系。 可以介于资产与工件之间。 例如,可以在资产与策略之间添加关系。 管理员可以为资产创建定制关系。 请参阅添加资产关系
监管工件 可选。 用户分配给资产的业务术语和分类。 这些分配可能会影响资产。 例如,分配的业务术语可以触发数据保护规则的实施。

您可以为资产类型创建定制属性。 定制属性显示在目录中资产的 概述 选项卡上的 详细信息 部分中。 请参阅 定制属性和关系

要编辑资产属性,您必须具有必需的许可权。 请参阅 编辑目录中的资产

在工具中运行的资产的公共属性

某些资产与运行工具相关联。 例如, AutoAI 试验资产在 AutoAI 工具中运行。 在工具中运行的资产也称为运营资产。 每次在工具中运行资产时,都会启动一个作业。 您可以监视和调度作业。 作业使用计算资源。

对于在工具中运行的许多资产,您可以选择要使用的计算环境配置。 通常,更大更快的环境配置会更快消耗计算资源。

除基本属性外,在工具中运行的大多数资产在项目中包含以下类型的信息:

属性 描述 可编辑? 工作空间
环境定义 用于运行资产的环境模板,硬件规范和软件规范。 请参阅环境 项目,空间
设置 定义资产运行方式的信息。 特定于每种类型的资产。 项目
关联的数据资产 资产正在处理的数据。 项目
作业 有关如何运行资产的信息,包括环境定义,调度和通知选项。 请参阅作业 项目,空间

数据资产类型及其属性

数据资产类型包含元数据和有关数据的其他信息,包括如何访问数据。

创建数据资产的方式取决于数据的位置:

  • 如果数据在文件中,那么将该文件从本地系统上载到项目、目录或部署空间。
  • 如果数据在远程数据源中,那么首先创建用于定义与该数据源的连接的连接资产。 然后,通过选择连接,路径或其他结构以及包含数据的表或文件来创建数据资产。 此类型的数据资产称为已连接数据资产

下图说明了文件中的数据资产如何指向 Cloud Pak for Data 存储器中的已上载文件。 已连接的数据资产需要连接资产并指向远程数据源中的数据。

此图显示文件中的数据资产指向已上载的文件,而已连接的数据资产需要连接资产并指向远程数据源中的数据。

您可以创建以下类型的数据资产:

文件中的数据资产
表示从本地系统上载的文件。 该文件存储在 Cloud Pak for Data中的存储器中。 该文件的内容可以包含结构化数据、非结构化文本数据、图像和其他类型的数据。 可以使用任何格式的文件创建数据资产。 但是,可以对 CSV 文件执行比其他文件类型更多的操作。 请参阅 数据资产的属性 (Properties of data assets)
您可以通过在项目,目录或部署空间中上载文件来根据文件创建数据资产。 您还可以使用工具创建数据文件并将其转换为资产。 例如,您可以使用 Data Refinery、Jupyter 笔记本和 RStudio 工具从文件创建数据资产。
已连接的数据资产
表示通过与远程数据源的连接访问的表,文件或文件夹。 该连接在与已连接数据资产相关联的连接资产中进行定义。 您可以为每个受支持的连接创建一个已连接的数据资产。 访问已连接的数据资产时,数据将从数据源动态检索。 请参阅 数据资产的属性 (Properties of data assets)
您可以使用已连接的数据工具在项目,目录或部署空间中从数据源导入已连接的数据资产。 如果要按调度重新运行导入,请在项目中使用元数据导入工具。 您可以在 " Data virtualization " 工作空间中使用 Watson Query 创建用于编译来自多个数据源的数据的虚拟表。
文件夹资产
代表 IBM Cloud Object Storage 中的文件夹。 文件夹数据资产是已连接数据资产的特殊情况。 通过指定该文件夹的路径和 IBM Cloud Object Storage 连接资产来创建文件夹数据资产。 您可以查看与该文件夹数据资产共享路径的文件和子文件夹。 可以在文件夹数据资产中查看的文件本身并非数据资产。 例如,您可以为包含持续更新的新闻订阅源的路径创建文件夹数据资产。 请参阅 数据资产的属性 (Properties of data assets)
您可以在项目、目录或部署空间中使用连接数据工具从 IBM Cloud Object Storage 导入文件夹资产。
连接资产
包含创建与数据源的连接所需的信息。 请参阅 连接资产的属性
您可以在项目,目录或部署空间中创建与连接工具的连接。

了解有关创建和导入数据资产的更多信息:

来自文件和已连接数据资产的数据资产的属性

除了基本属性和公共目录属性外,来自文件和已连接数据资产的数据资产具有下表中列出的属性或页面。

属性或页面 描述 可编辑? 工作空间
数据资产中列的属性摘要。 包括每个列的质量分数,描述,分配的数据类和分配的业务术语。 分配的数据类和业务术语可能会影响资产。 例如,分配的业务术语可以触发数据保护规则的实施。 目录
标记 可选。 用户为简化搜索而创建的文本标签。 标记由一个最多 255 个字符的字符串组成。 它可以包含空格、字母、数字、下划线、短划线以及符号 # 和 @。 项目,目录
格式 文件的 MIME 类型。 自动检测。 项目,目录,空间
有关存储器或数据源和连接中的数据文件的信息。 项目,目录,空间
资产详细信息 有关数据大小,列数和行数以及资产版本的信息。 项目,目录,空间
" 预览资产 " 或 " 资产 " 页面 包含来自原始数据源的一组有限列和行的数据预览。 请参阅 资产内容或预览 项目,目录,空间
" 概要文件 " 页面 有关数据内容的元数据和统计信息。 请参阅 概要文件 (Profile) 项目,目录
"活动" 窗格 对所有工作空间中的资产执行的操作的历史记录。 请参阅 活动 目录
" 可视化 " 页面 用户为了解数据而创建的图表和图形。 请参阅 可视化 项目
" 沿袭 " 页面 数据的源,变换和目标的图形描述。 请参阅沿袭 目录

连接资产的属性

连接资产的属性取决于您在创建连接时选择的数据源。 请参阅连接类型。 大多数数据源的连接资产具有下表中列出的属性。

属性 描述 可编辑? 工作空间
连接详细信息 标识数据源的信息。 例如,数据库名称、主机名、IP 地址、端口、实例 ID、桶、端点 URL 等。 项目,目录,空间
凭证设置 是跨平台共享凭证 (缺省值) ,还是每个用户都必须输入其个人凭证。 并非所有数据源都支持个人凭证。 项目,目录,空间
认证方法 凭证信息的格式。 例如, API 密钥或用户名和密码。 项目,目录,空间
凭证 数据源和指定的认证方法所需的用户名和密码, API 密钥或其他凭证。 项目,目录,空间
证书 是否将数据源端口配置为接受 SSL 连接以及有关 SSL 证书的其他信息。 项目,目录,空间
保险库文件中的私钥 是否将个人凭证作为私钥存储在保险库文件中。 并非所有数据源服务都支持保险库文件。 请参阅 使用保险库文件中的私钥 项目,目录,空间

了解更多

父主题: Cloud Pak for Data