IBM Cloud Pak® for Data 4.7 版本将于 2025 年 7 月 31 日结束支持(EOS)。 欲了解更多信息,请参阅 IBM Cloud Pak for Data 版本 4.X 的停止服务公告。
在 IBM Cloud Pak for Data 4.7 版本支持结束之前,升级到 IBM Software Hub 5.1 版本。 更多信息,请参阅 IBM Software Hub 版本 5.1 文档中的升级 IBM Software Hub。
在项目中选择工具 (Watson Studio)
通过 Watson Studio 及其免费服务,项目为具有从初学者到专家等各种级别的数据准备,分析和建模经验的用户提供了一系列工具。 适合您的工具取决于您拥有的数据类型,您计划执行的任务以及您需要的自动化量。
要选择适当的工具,请考虑以下因素。
具有的数据类型
- 定界文件中的表格数据或远程数据源中的关系数据
- 图像文件
- 文档中的文本 (非结构化) 数据
需要执行的任务类型
- 准备数据:清理、修整、可视化、组织和验证数据。
- 分析数据:识别数据中的模式和关系,并显示洞察。
- 构建模型:构建、训练、测试和部署模型,以作出预测或优化决策。
所需的自动化程度
- 代码编辑器工具: 用于在 Python 或 R 中编写代码,所有这些都适用于 Spark。
- 图形构建器工具: 在构建器上使用菜单和拖放功能以直观地编程。
- 自动化构建器工具: 用于配置需要有限用户输入的自动化任务。
查找适当的工具:
表格数据或关系数据工具
表格数据或关系数据工具(按任务划分):
| 工具 | 工具类型 | 准备数据 | 分析数据 | 构建模型 |
|---|---|---|---|---|
| Jupyter 笔记本编辑器 | 代码编辑器 | ✓ | ✓ | ✓ |
| JupyterLab | 代码编辑器 | ✓ | ✓ | ✓ |
| RStudio | 代码编辑器 | ✓ | ✓ | ✓ |
| 屏蔽流程 | 自动化构建器 | ✓ | ||
| Data Refinery | 图形构建器 | ✓ | ✓ | |
| Data Replication | 图形构建器 | ✓ | ||
| 仪表板编辑器 | 图形构建器 | ✓ | ||
| SPSS Modeler | 图形构建器 | ✓ | ✓ | ✓ |
| Decision Optimization 模型构建器 | 图形构建器和代码编辑器 | ✓ | ✓ | |
| AutoAI | 自动化构建器 | ✓ | ✓ | |
| Federated Learning | 自动化构建器 | ✓ | ||
| Metadata import | 自动化构建器 | ✓ | ||
| 元数据增补 | 自动化构建器 | ✓ | ✓ | |
| 数据质量规则 | 自动化构建器和代码编辑器 | ✓ | ||
| IBM Match 360 with Watson | 自动化构建器 | ✓ | ||
| Watson Pipelines | 图形构建器 | ✓ | ✓ | ✓ |
文本数据工具
用于构建对文本数据进行分类的模型的工具:
| 工具 | 代码编辑器 | 图形构建器 | 自动化构建器 |
|---|---|---|---|
| Jupyter 笔记本编辑器 | ✓ | ||
| JupyterLab | ✓ | ||
| RStudio | ✓ | ||
| SPSS Modeler | ✓ | ||
| 试验构建器 | ✓ | ||
| Watson Pipelines | ✓ |
图像数据工具
用于构建对图像进行分类的模型的工具:
| 工具 | 代码编辑器 | 图形构建器 | 自动化构建器 |
|---|---|---|---|
| Jupyter 笔记本编辑器 | ✓ | ||
| JupyterLab | ✓ | ||
| RStudio | ✓ | ||
| 试验构建器 | ✓ | ||
| Watson Pipelines | ✓ |
访问工具
要使用工具,必须创建特定于该工具的资产,或者打开该工具的现有资产。 要创建资产,请单击 新建资产 或 导入资产 ,然后选择所需的资产类型。 下表显示要为每个工具选择的资产类型。
| 要使用此工具 | 请选择此资产类型 |
|---|---|
| Jupyter 笔记本编辑器 | Jupyter 笔记本 |
| 屏蔽流程 | 屏蔽流程 |
| Data Refinery | Data Refinery 流程 |
| Data Replication | Data Replication |
| 仪表板编辑器 | 仪表板 |
| SPSS Modeler | Modeler 流程 |
| Decision Optimization 模型构建器 | Decision Optimization |
| AutoAI | AutoAI 试验 |
| 试验构建器 | 试验 |
| Federated Learning | 联合学习试验 |
| Metadata import | Metadata import |
| 元数据增补 | 元数据扩充 |
| 数据质量规则 | 数据质量规则 |
| IBM Match 360 with Watson | 主数据配置 |
要使用 RStudio ,单击 " 启动 IDE > RStudio "。
要使用 JupyterLab ,单击 " 启动 IDE > JupyterLab "。
Jupyter Notebook 编辑器
使用 Jupyter Notebook 编辑器来创建 Notebook,您可在其中运行代码,以准备、可视化和分析数据,或者构建和训练模型。
- 数据格式
- 所有
- 数据大小
- 所有
- 如何准备数据、分析数据或构建模型
- 使用 Python 或 R 编写代码,同时使用 Spark。
- 在代码中随附富文本和媒体。
- 以任意方式处理任何类型的数据。
- 使用预安装内容或者安装其他开放式源代码和 IBM 库与包。
- 调度代码的运行
- 从文件或 URL 导入笔记本。
- 在外部共享 Notebook 的只读副本。
- 入门
- 要创建 Notebook ,请单击 新建资产> Jupyter Notebook 编辑器。
- 了解更多
- 有关 Notebook 的文档
Data Refinery
使用 Data Refinery 可以通过图形流程编辑器来准备表格数据,以及将其可视化。 您可创建并运行 Data Refinery 流程,它是针对数据执行的一组有序操作。
- 数据格式
- 表格 :Avro , CSV , JSON , Microsoft Excel (xls 和 xlsx 格式)。 仅第一个工作表,连接和已连接的数据资产除外。) 具有 "sas7bdat" 扩展 (只读) , TSV (只读) 或定界文本数据资产的 Parquet , SAS
- 关系:关系数据源中的表
- 数据大小
- 所有
- 如何准备数据
- 通过 60 多项操作清理、修整、组织数据。
- 将优化的数据另存为新数据集或更新原始数据。
- 对数据进行概要分析以验证该数据。
- 使用交互式模板通过代码操作、函数和逻辑运算符来处理数据。
- 调度对数据的循环操作。
- 如何分析数据
- 标识多可视化图表内数据中的模式、连接和关系。
- 入门
- 要创建 Data Refinery 流,请单击 新建资产> Data Refinery。 Data Refinery 磁贴位于 图形构建器 部分中。
- 了解更多
- 有关 Data Refinery 的文档
Data Replication
使用 Data Replication 来集成和同步数据。 Data Replication 提供近乎实时的数据传递,对源的影响较小。
- 必需服务
- Data Replication
- 相关服务
- Watson Knowledge Catalog
- 数据格式
- Data Replication 处理与所选类型的数据源和格式之间的连接。 有关更多信息,请参阅 支持的 Data Replication 连接。
- 凭证
- Data Replication 使用 IBM Cloud 凭证来连接到服务。
仪表板编辑器
使用仪表板编辑器在图形构建器上创建一组分析结果的可视化。
- 必需服务
- Cognos Dashboard
- 数据格式
- 表格:CSV 文件
- 关系:某些关系数据源中的表
- 数据大小
- 任意大小
- 如何分析数据
- 无需编码即可创建图形。
- 在仪表板中包含文本、媒体、Web 页面、图像和形状。
- 入门
- 要创建仪表板,请单击 新建资产 > 仪表板编辑器。 " 仪表板编辑器 " 磁贴位于 图形构建器 部分中。
- 了解更多
- 有关仪表板的文档
SPSS Modeler
使用 SPSS Modeler 来创建流,以在图形构建器上使用流编辑器来准备数据以及构建和训练模型。
- 必需的服务
- SPSS Modeler Watson Machine Learning
- 数据格式
- 关系:关系数据源中的表
- 表格:Excel 文件(.xls 或 .xlsx)、CSV 文件或 SPSS Statistics 文件 (.sav)
- 文本:在受支持的关系表或文件中
- 数据大小
- 所有
- 如何准备数据
- 使用自动数据准备功能。
- 编写 SQL 语句以处理数据。
- 清理、修整、采样、排序和派生数据。
- 如何分析数据
- 使用 40 多个图形直观呈现数据。
- 识别文本字段的自然语言。
- 如何构建模型
- 构建预测模型。
- 从 40 多种建模算法中进行选择。
- 使用自动建模功能。
- 对时间序列或地理空间数据进行建模。
- 对文本数据进行分类。
- 识别文本数据中概念之间的关系。
- 入门
- 要创建 SPSS Modeler 流,请单击 新建资产> SPSS Modeler。
- 了解更多
- 有关 SPSS Modeler 的文档
Decision Optimization 模型构建器
使用 Decision Optimization 在 Decision Optimization 建模器或 Jupyter Notebook 中构建和运行优化模型。
- 必需服务
- Decision Optimization
- 数据格式
- 表格:CSV 文件
- 数据大小
- 所有
- 如何准备数据
- 将相关数据导入到方案中并对其进行编辑。
- 如何构建模型
- 构建规定性 Decision Optimization 模型。
- 在 Python DOcplex、OPL 中或使用自然语言表达式创建、导入和编辑模型。
- 在 Notebook 中创建、导入和编辑模型。
- 如何求解模型
- 使用 CPLEX 引擎运行并求解 Decision Optimization 模型。
- 调查并比较多个方案的解法。
- 创建表、图表和说明以将一个或多个方案的数据和解法可视化。
- 入门
- 要创建 Decision Optimization 模型,请单击 新建资产> Decision Optimization,或者对于 Notebook ,单击 新建资产> Jupyter Notebook 编辑器。
- 了解更多
- 有关 Decision Optimization 的文档
AutoAI 工具
使用 AutoAI 工具自动分析表格数据,并生成针对预测建模问题定制的候选模型管道。
- 必需服务
- Watson Machine Learning
- 数据格式
- 表格:CSV 文件
- 数据大小
- 取决于模型类型。 请参阅 AutoAI 概述 以获取详细信息。
- 如何准备数据
- 自动变换数据,例如插补缺失值,并将文本变换为标量值。
- 如何构建模型
- 训练二元分类、多类分类或回归模型。
- 查看显示 AutoAI 训练阶段序列的树形信息图。
- 生成按交叉验证分数排名的模型管道的排行榜。
- 将管道另存为模型。
- 入门
- 要创建 AutoAI 试验,请单击 新建资产> AutoAI。
- 了解更多
- 有关 AutoAI 的文档
试验构建器
使用试验构建器来构建深度学习试验并运行几百个训练运行。 此方法要求提供代码以定义训练运行。 在试验构建器图形界面中运行、跟踪、存储和比较结果,然后将最佳配置另存为模型。
- 必需服务
Watson Machine Learning Accelerator
- 数据格式
文本:具有带标签文本数据的 CSV 文件
图像:PKL 文件中的图像文件。 例如,模型测试特征符使用大小调整为 32×32 像素并存储为 pickle 格式的 numpy 数组的图像。
- 数据大小
任意大小
- 如何构建模型
编写 Python 代码以指定训练运行的指标。
在 Python 代码中编写训练定义。
定义超参数,或者选择 RBFOpt 方法或随机超参数设置。
通过运行上百或上千次训练,找到大量超参数的最优值。
使用 GPU 和专用、强大的硬件和基础结构运行分布式训练。
比较训练运行的表现。
将训练运行另存为模型。
- 入门
要创建试验,请单击 新建资产 > 试验。
联合学习
使用 Federated Learning 工具使用分布式数据来训练公共模型。 数据从不进行组合或共享,在为所有参与方提供基于汇总数据的模型的同时保持数据完整性。
- 必需服务
- Watson Machine Learning
- 数据格式
- 所有
- 数据大小
- 任意大小
- 如何构建模型
- 选择训练框架。
- 配置公共模型。
- 配置用于训练公共模型的文件。
- 让远程参与方训练其数据。
- 部署公共模型。
- 入门
- 要创建试验,请单击 新建资产> 联合学习。
- 了解更多
- 有关 Federated Learning 的文档
Metadata import
使用元数据导入工具可以自动发现数据资产的技术和流程元数据,并将其导入到项目或目录中。
- 必需服务
- Watson Knowledge Catalog
- 数据格式
- 所有
- 数据大小
- 任意大小
- 如何准备数据
- 通过连接将数据资产导入到数据源。
- 入门
- 要导入元数据,请单击 新建资产> Metadata import。
- 了解更多
- 有关元数据导入的文档
元数据扩充
使用元数据充实工具可自动对数据资产进行概要分析,以及分析项目中的数据质量。
- 必需服务
- Watson Knowledge Catalog
- 数据格式
- 关系和结构化: 关系数据源和非关系数据源中的表和文件
- 表格:Avro、CSV 或 Parquet 文件
- 数据大小
- 任意大小
- 如何准备和分析数据
- 概要分析和分析项目中的一组选定数据资产。
- 入门
- 要扩充数据,请单击 新建资产> 元数据扩充。
- 了解更多
- 有关元数据充实的文档
数据质量规则
使用数据质量工具来创建用于分析项目中数据质量的规则。
- 必需服务
- Watson Knowledge Catalog
- 数据格式
- 关系和结构化: 关系数据源和非关系数据源中的表和文件
- 表格:Avro、CSV 或 Parquet 文件
- 数据大小
- 任意大小
- 如何准备和分析数据
- 分析项目中所选数据资产集的质量。
- 入门
- 要创建数据质量规则,请单击 新建资产> 数据质量规则。
- 了解更多
- 有关数据质量规则的文件
IBM Match 360 with Watson
使用 IBM Match 360 with Watson 创建代表客户数字孪生的主数据实体。 对数据进行建模和映射,然后运行匹配算法以创建主数据实体。 定制和调整匹配算法以满足您组织的需求。
- 必需的服务
- IBM Match 360 with Watson IBM Watson Knowledge Catalog
- 数据大小
- 所有
- 如何准备数据
- 对来自整个组织的源的数据进行建模和映射。
- 运行可定制的匹配算法以创建主数据实体。
- 查看和编辑主数据实体及其关联的记录。
- 入门
- 要创建 IBM Match 360 配置资产,请单击 新建资产> 主数据配置。
- 了解更多
- 有关 IBM Match 360 with Watson 的文档
RStudio IDE
使用 RStudio IDE 通过编写 R 代码来分析数据或创建 Shiny 应用程序。 RStudio 可与必须与项目关联的 Git 存储库集成。
- 必需服务
- RStudio
- 数据格式
- 所有
- 数据大小
- 任意大小
- 如何准备数据、分析数据和构建模型
- 使用 R 编写代码。
- 创建 Shiny 应用程序。
- 使用开放式源代码库和包。
- 在代码中随附富文本和媒体。
- 准备数据。
- 直观地显示数据。
- 从数据中发现洞察。
- 使用开放式源代码库构建和训练模型。
- 在 Git 存储库中共享您的 Shiny 应用程序。
- 入门
- 要使用 RStudio ,请单击启动集成开发环境 >。 RStudio.
- 了解更多
- 有关 RStudio 的文档
JupyterLab
使用 JupyterLab IDE 可以创建 Notebook 或 Python 脚本,您可在其中运行代码以准备、可视化和分析数据,或者构建和训练模型。 JupyterLab 与必须与项目关联的 Git 存储库集成。
- 数据格式
- 所有
- 数据大小
- 所有
- 如何准备数据、分析数据或构建模型
- 使用 Python编写代码。
- 在代码中随附富文本和媒体。
- 以任意方式处理任何类型的数据。
- 使用预安装内容或者安装其他开放式源代码和 IBM 库与包。
- 从文件导入 Notebook。
- 在 Git 存储库中共享 Notebook 或脚本。
- 入门
- 要使用 JupyterLab, ,请单击启动 IDE > JupyterLab。
- 了解更多
- 有关 JupyterLab 的文档
屏蔽流程
使用 "屏蔽" 流工具来准备目录中数据的屏蔽副本或屏蔽子集。 该工具会根据数据保护规则,使用高级屏蔽选项对数据进行去标识化处理。
- 必需服务
- Watson Knowledge Catalog
- 数据格式
- 关系:关系数据源中的表
- 数据大小
- 任意大小
- 如何准备数据、分析数据或构建模型
- 将数据资产从受管目录导入到项目。
- 创建屏蔽流程作业定义以指定要使用数据保护规则屏蔽的数据。
- (可选)设置数据子集以减少复制数据的大小。
- 运行屏蔽流程作业以将屏蔽的副本加载到目标数据库连接。
- 入门
- 确保已完成 Watson Knowledge Catalog 中的先决步骤。 要将数据私有化,请执行以下任务之一:
- 单击 新建资产> 屏蔽流。
- 单击个别数据资产的菜单选项可直接屏蔽该资产。
- 了解更多
- 有关屏蔽数据的文档
Watson Pipelines
使用 "管道" 画布编辑器来创建流,以准备,可视化和分析数据,或者构建和训练模型。
- 必需服务
- Watson Knowledge Catalog 或 Watson Studio
- 数据格式
- 所有
- 数据大小
- 所有
- 如何准备数据、分析数据或构建模型
- 使用各种节点,每个节点都包含自己的日志。
- 将 Notebook 合并到流中以运行任何 Python 或 R 代码。
- 以任意方式处理任何类型的数据。
- 调度流的运行。
- 从已安装的 PVC ,项目或从 Github 采集数据导入数据。
- 使用 Python 代码创建定制组件。
- 根据需要对管道进行条件化,以监视数据质量。
- 使用 Webhook 发送电子邮件或消息以保持最新流状态。
- 入门
- 要创建新管道,请单击 新建资产> 管道。
数据直观表示
使用数据可视化可从数据中发现洞察。 通过使用可视化从不同角度探索数据,您可以识别该数据中的模式,连接和关系,并快速了解大量信息。
- 必需服务
- Watson Knowledge Catalog 或 Watson Studio
- 数据格式
- 表格 :Avro , CSV , JSON , Parquet , TSV , SAV , Microsoft Excel .xls 和 .xlsx 文件, SAS ,定界文本文件和已连接数据。 有关受支持的数据源的更多信息,请参阅 连接器。
- 数据大小
- 无限制
- 入门
- 要创建可视化,请在项目中的资产类型列表中单击 数据资产 ,然后选择数据资产。 单击 可视化 选项卡,然后选择图表类型。
- 了解更多
- 可视化数据
父主题: 项目