资产类型和属性
资产是指包含数据信息、其他有价值信息或其他可与数据一起工作的项目。 您可以在协作工作区使用工具或编写代码来创建资产。
您可以通过导入资产或使用工具创建资产来添加资产。 您可以在协作工作空间中使用资产。 您所需要的工作空间取决于您的任务以及您在哪个平台上工作。 项目是在所有体验中处理资产的主要工作空间。 在大多数体验中,其他最常见的工作空间是目录和部署空间。 每种体验都有其他工作区,用于执行专门任务。
| 工作空间 | 描述 | Cloud Pak for Data | watsonx | Data Fabric | watsonx.data 高级 |
|---|---|---|---|---|---|
| 项目 | 在这里,您可以与他人合作处理数据并创建资产。 | ✔️ | ✔️ | ✔️ | ✔️ |
| 目录 | 您可在此存储与组织共享的资产,或查找需要使用的资产。 | ✔️ | ✔️ | ✔️ | |
| 部署空间 | 在这里部署和运行可用于测试或生产的资产。 | ✔️ | ✔️ |
您可以创建多种不同类型的资产。
资产类型
要创建大多数类型的资产,必须使用特定工具。
下表列出了可以创建的资产类型,创建这些资产所需的工具以及可以添加这些资产的工作空间。
| 资产类型 | 描述 | 用于创建该工具的工具 | 工作空间 |
|---|---|---|---|
| 人工智能评估 | 评估和比较提示模板。 | Evaluation Studio | 项目 |
| 人工智能用例 | 跟踪模型从申请到生产的生命周期。 | AI Factsheets | 库存 |
| AutoAI 實驗 | 自动生成候选预测模型管道。 | AutoAI | 项目 |
| 代码包 | 包含一个可执行文件和支持文件。 | JupyterLab, RStudio | 项目,空间 |
| 已连接的数据资产 (connected data asset) | 代表通过远程数据源连接访问的数据。 | 连接数据工具 | 项目,空间 |
| 连接 | 包含连接数据源的信息。 | 连接工具 | 项目,空间 |
| 来自文件的数据资产 | 代表您从本地系统上传的文件。 | 上传窗格 | 项目,空间 |
| Data Refinery 流程 (Data Refinery flow) | 准备数据。 | Data Refinery | 项目,空间 |
| 决策优化试验 (Decision Optimization experiment) | 解决优化问题 | Decision Optimization | 项目 |
| 深度学习实验 (deep learning experiment) | 进行数百次实验训练。 | 实验构建器 (experiment builder) | 项目 |
| 文件夹资产 (folder asset) | 代表 IBM Cloud Object Storage 中的文件夹。 | 连接数据工具 | 项目,空间 |
| Jupyter 笔记本 (Jupyter notebook) | 运行 Python 或 R 代码来分析数据或建立模型。 | Jupyter 笔记本编辑器, AutoAI, Prompt Lab, JupyterLab, Visual Studio Code | 项目 |
| 模型 | 包含保存或导入模型的相关信息。 | 运行实验或训练模型的各种工具 | 项目,空间 |
| 管道 | 模型生命周期自动化 | 编排管道 | 项目 |
| 提示模板 | 一个提示。 | Prompt Lab | 项目 |
| 提示会话 | Prompt Lab 工作会议的历史。 | Prompt Lab | 项目 |
| Python 函数 | 包含 Python 代码,用于支持生产中的模型。 | Jupyter 笔记本编辑器 JupyterLab | 项目,空间 |
| 脚本 | 包含 Python 或 R 脚本,以支持生产中的模型。 | Jupyter 笔记本编辑器, RStudio、 JupyterLab | 项目,空间 |
| SPSS Modeler 流动 | 运行流程,准备数据并建立模型。 | SPSS Modeler | 项目 |
| 合成数据流 | 生成合成表格数据。 | Synthetic Data Generator | 项目 |
| 调优后的模型 | 经过调整的基础模型。 | Tuning Studio | 项目 |
| 正在调整试验 | 调谐实验,建立调谐基础模型。 | Tuning Studio | 项目 |
| 向量索引 | 用于存储基础模型提示上下文信息的索引。 | 向量索引 | 项目 |
| 可视化 | 显示数据资产的可视化效果。 | 数据资产中的可视化页面 | 项目 |
资产的公共属性
当您创建资产,使用资产或由自动化流程更新资产时,这些资产会在属性中累积信息。 某些属性由用户提供,并且可以由用户编辑。 其他属性由系统自动提供。 用户无法编辑大多数系统提供的属性。
资产的最后修改字段可跟踪用户操作和系统操作。 系统操作通常在后台进行,可能只涉及资产内部元数据的更改。
资产的通用属性 (无处不在)
在存在这些资产类型的所有工作空间中,大多数类型的资产都具有下表中列出的属性。
| 属性 | 描述 | 可编辑? |
|---|---|---|
| 姓名 | 资产名称。 最多可包含 255 个字符。 支持多字节字符。 不能为空,包含 Unicode 控制字符或仅包含空格。 资产名称在项目或部署空间中不需要唯一。 | 是 |
| 描述 | 可选。 支持多字节字符和超链接。 | 是 |
| 创建日期 | 创建或导入资产的时间戳记。 | False |
| 创建者或所有者 | 创建或导入资产的人员的用户名或电子邮件地址。 | False |
| 上次修改日期 | 上次修改资产的时间戳记。 | False |
| 最近编辑者 | 上次修改资产的人员的用户名或电子邮件地址。 | False |
在工具中运行的资产的公共属性
某些资产与运行工具相关联。 例如, AutoAI 试验资产在 AutoAI 工具中运行。 在工具中运行的资产也称为运营资产。 每次在工具中运行资产时,都会启动一个作业。 您可以监视和调度作业。 作业使用计算资源。
对于在工具中运行的许多资产,您可以选择要使用的计算环境配置。 通常,更大且更快的环境配置会更快地使用计算资源。
除基本属性外,在工具中运行的大多数资产在项目中包含以下类型的信息:
| 属性 | 描述 | 可编辑? | 工作空间 |
|---|---|---|---|
| 环境定义 | 用于运行资产的环境模板,硬件规范和软件规范。 | 是 | 项目,空间 |
| 设置 | 定义资产运行方式的信息。 特定于每种类型的资产。 | 是 | 项目 |
| 关联的数据资产 | 资产正在处理的数据。 | 是 | 项目 |
| 作业 | 有关如何运行资产的信息,包括环境定义,调度和通知选项。 | 是 | 项目,空间 |
数据资产类型及其属性
数据资产类型包含有关数据的元数据和其他信息,包括如何访问数据。
如何创建数据资产取决于数据的位置:
如果数据以文件形式存在,则需要将文件从本地系统上传到工作区。
如果数据位于远程数据源中,请首先创建用于定义与该数据源的连接的 连接资产 。 然后,通过选择连接,路径或其他结构以及包含数据的表或文件来创建数据资产。 此类型的数据资产称为 已连接的数据资产。
下图说明了文件中的数据资产如何指向存储中的上传文件。 已连接的数据资产需要连接资产并指向远程数据源中的数据。
您可以在工作区中创建以下类型的数据资产:
- 来自文件的数据资产
代表您从本地系统上传的文件。 文件存储在与工作区关联的存储容器中。 文件的内容可以包括结构化数据,非结构化文本数据,图像以及其他类型的数据。 您可以使用任何格式的文件来创建数据资产。 但是,与其他文件类型相比,您可以对 CSV 文件执行更多操作。
您可以通过在工作空间中上载文件来根据文件创建数据资产。 您还可以使用工具创建数据文件并将其转换为资产。 例如,您可以使用Data Refinery、Jupyter 笔记本和RStudio工具从文件中创建数据资产。
- 已连接的数据资产 (connected data asset)
代表通过远程数据源连接访问的表格、文件或文件夹。 该连接是在与已连接数据资产相关联的连接资产中定义的。 您可以为每个受支持的连接创建一个已连接的数据资产。 访问已连接的数据资产时,将从数据源动态检索数据。
您可以在工作空间中使用已连接的数据工具从数据源导入已连接的数据资产。
- 文件夹资产 (folder asset)
代表 IBM Cloud Object Storage 中的文件夹。 文件夹数据资产是连接数据资产的一种特例。 您可以通过指定文件夹路径和 IBM Cloud Object Storage 连接资产来创建文件夹数据资产。 您可以查看与文件夹数据资产共享路径的文件和子文件夹。 您可以在文件夹数据资产中查看的文件本身不是数据资产。 例如,您可以为包含持续更新的新闻订阅源的路径创建文件夹数据资产。
您可以使用工作区中的连接数据工具从IBM Cloud Object Storage导入文件夹资产。
- 连接资产 (connection asset)
包含创建数据源连接所需的信息。
您可以在工作空间中创建与连接工具的连接。
来自文件和已连接数据资产的数据资产的属性
除了基本属性和常用目录属性外,文件中的数据资产和连接的数据资产还具有下表所 列的属性或页面。
| 属性或页面 | 描述 | 可编辑? | 工作空间 |
|---|---|---|---|
| 标记 | 可选。 用户为简化搜索而创建的文本标签。 标记由一个最多 255 个字符的字符串组成。 它可以包含空格、字母、数字、下划线、破折号以及符号 # 和 @。 | 是 | 项目、目录 |
| 格式 | 文件的 MIME 类型。 自动检测。 | 是 | 项目,目录,空间 |
| 资产详细信息 | 有关数据大小、列数和行数以及资产版本的信息。 在项目中,也会显示关系数据的表格类型。 |
False | 项目,目录,空间 |
| 源 | 有关存储中的数据文件或数据源和连接的信息。 | False | 目录, 空间 |
| 活动窗格 | 在所有工作区对资产执行操作的历史记录。 | False | 项目、目录 |
| 资产页面 | 数据预览,包括原始数据源中有限的列和行。 | False | 项目,目录,空间 |
| 简介页面 | 有关数据内容的元数据和统计数据。 例如,当丰富资产发布到目录中时,扩展元数据也会同时发布, 显示名称和描述 (可以是人工智能生成的版本,也可以是编辑过的版本)也会显示在此页面上。 这些信息也会显示在 "概览 "页面上。 | 是 | 项目、目录 |
| 可视化页面 | 用户为了解数据而创建的图表。 | 是 | 项目 |
| 功能组页面 | 有关数据资产中哪些列被用作模型特征的信息。 | 是 | 项目,目录,空间 |
- 仅限项目
连接资产的属性
连接资产的属性取决于您在创建连接时选择的数据源。 大多数数据源的连接资产都具有下表中列出的属性。
| 属性 | 描述 | 可编辑? | 工作空间 |
|---|---|---|---|
| 连接详细信息 | 标识数据源的信息。 例如,数据库名称、主机名、IP 地址、端口、实例 ID、水桶、端点URL 等。 | 是 | 项目,目录,空间 |
| 凭证设置 | 是跨平台共享凭证 (缺省值) ,还是每个用户都必须输入其个人凭证。 并非所有数据源都支持个人凭证。 | 是 | 项目,目录,空间 |
| 认证方法 | 凭证信息的格式。 例如, API 密钥或用户名和密码。 | 是 | 项目,目录,空间 |
| 凭证 | 数据源和指定的认证方法所需的用户名和密码, API 密钥或其他凭证。 | 是 | 项目,目录,空间 |
| 证书 | 是否将数据源端口配置为接受 SSL 连接以及有关 SSL 证书的其他信息。 | 是 | 项目,目录,空间 |
| 保险库文件中的私钥 | 是否将个人凭证作为私钥存储在保险库中。 并非所有数据源服务都支持保险库文件。 | False | 项目,目录,空间 |