在分析项目中选择工具 (Watson Studio)
利用 Watson Studio 及其补充性服务,分析项目提供有一系列工具,供具有各种经验水平的用户(从初学者到专家)用来准备和分析数据以及进行数据建模。 适合您的工具取决于您拥有的数据类型,计划执行的任务以及所需的自动化量。
要选择适当的工具,请考虑以下因素。
具有的数据类型
- 定界文件中的表格数据或远程数据源中的关系数据
- 图像文件
- 文档中的文本数据
需要执行的任务类型
- 准备数据:清理、修整、可视化、组织和验证数据。
- 分析数据:识别数据中的模式和关系,并显示洞察。
- 构建模型:构建、训练、测试和部署模型,以作出预测或优化决策。
所需的自动化程度
- 代码编辑器工具:用来以 Python、R 或 Scala 编写代码。
图形画布工具:在画布上使用菜单和拖放功能以直观方式编程。
自动化构建器工具: 用于配置需要有限用户输入的自动化任务。
查找适当的工具:
表格数据或关系数据工具
表格数据或关系数据工具(按任务划分):
| 工具 | 工具类型 | 准备数据 | 分析数据 | 构建模型 |
|---|---|---|---|---|
| Jupyter 笔记本编辑器 | 代码编辑器 | ✓ | ✓ | ✓ |
| JupyterLab | 代码编辑器 | ✓ | ✓ | ✓ |
| RStudio | 代码编辑器 | ✓ | ✓ | ✓ |
| 屏蔽流程 | 自动化构建器 | ✓ | ||
| Data Refinery | 图形构建器 | ✓ | ✓ | |
| 仪表板编辑器 | 图形构建器 | ✓ | ||
| SPSS Modeler | 图形构建器 | ✓ | ✓ | ✓ |
| Decision Optimization 模型构建器 | 图形构建器和代码编辑器 | ✓ | ✓ | |
| AutoAI | 自动化构建器 | ✓ | ✓ | |
| Federated Learning | 自动化构建器 | ✓ | ||
| Metadata import | 自动化构建器 | ✓ | ||
| IBM Match 360 with Watson | 自动化构建器 | ✓ |
文本数据工具
用于构建对文本数据进行分类的模型的工具:
| 工具 | 代码编辑器 | 图形构建器 | 自动化构建器 |
|---|---|---|---|
| Jupyter 笔记本编辑器 | ✓ | ||
| JupyterLab | ✓ | ||
| RStudio | ✓ | ||
| SPSS Modeler | ✓ | ||
| 试验构建器 | ✓ |
图像数据工具
用于构建对图像进行分类的模型的工具:
| 工具 | 代码编辑器 | 图形构建器 | 自动化构建器 |
|---|---|---|---|
| Jupyter 笔记本编辑器 | ✓ | ||
| JupyterLab | ✓ | ||
| RStudio | ✓ | ||
| 试验构建器 | ✓ |
访问工具
要使用工具,必须创建特定于该工具的资产,或者打开该工具的现有资产。 要创建资产,请单击添加到项目,然后选择所需的资产类型。 下表显示要为每个工具选择的资产类型。
| 要使用此工具 | 请选择此资产类型 |
|---|---|
| Jupyter 笔记本编辑器 | Jupyter 笔记本 |
| 屏蔽流程 | 屏蔽流程 |
| Data Refinery | Data Refinery 流程 |
| 仪表板编辑器 | 仪表板 |
| SPSS Modeler | Modeler 流程 |
| Decision Optimization 模型构建器 | Decision Optimization |
| AutoAI | AutoAI 试验 |
| 试验构建器 | 试验 |
| Federated Learning | 联合学习试验 |
| Metadata import | Metadata import |
| IBM Match 360 with Watson | 主数据配置 |
要使用 RStudio编辑笔记本,请单击 启动 IDE> RStudio。
要使用 JupyterLab编辑笔记本,请单击 启动 IDE> JupyterLab。
Jupyter 笔记本编辑器
使用 Jupyter Notebook 编辑器来创建 Notebook,您可在其中运行代码,以准备、可视化和分析数据,或者构建和训练模型。
数据格式 任何
数据大小 任何
如何准备数据,分析数据或构建模型 使用 Python, R 或 Scala 编写代码。 将富文本格式和媒体包含在代码中。 以您想要的任何方式处理任何类型的数据。 使用预安装或安装其他开放式源代码以及 IBM 库和软件包。 调度代码运行 从文件或 URL 导入 Notebook。 在外部共享 Notebook 的只读副本。
入门 要创建 Notebook ,请单击 添加到项目 > Notebook。
了解更多信息
有关 Notebook 的文档
Data Refinery
使用 Data Refinery 可以通过图形流程编辑器来准备表格数据,以及将其可视化。 您可创建并运行 Data Refinery 流程,它是针对数据执行的一组有序操作。
数据格式 表格 :Avro , CSV , JSON , Parquet , SAS ,扩展名为 "sas7bdat" (只读) , TSV (只读) 或定界文本文件
关系: 关系数据源中的表
数据大小 任何
如何准备数据 使用 60 多个操作来清理,塑造和组织数据。 将优化数据另存为新数据集或更新原始数据。 对数据进行概要分析以进行验证。 使用交互式模板通过代码操作,函数和逻辑运算符来处理数据。 对数据调度重现操作。
如何分析数据 在多个可视化图表中识别数据中的模式,连接和关系。
入门 要创建 Data Refinery 流,请单击 添加到项目 > Data Refinery 流。
了解更多信息 有关 Data Refinery的文档
仪表板编辑器
使用仪表板编辑器在图形画布上创建分析结果的一组直观表示。
必需服务 Cognos Dashboard
数据格式 表格 :CSV 文件 关系: 某些关系数据源中的表
数据大小 任何大小
如何分析数据 创建图形而不进行编码。 在仪表板中包含文本,媒体, Web 页面,图像和形状。
入门 要创建仪表板,请单击 添加到项目 > 仪表板。
了解更多信息
SPSS Modeler
使用 SPSS Modeler 创建流程以准备数据,并使用流程编辑器在图形画布上构建和训练模型。
必需服务 SPSS Modeler Watson Machine Learning
数据格式 关系: 关系数据源中的表 表格 :Excel 文件 (.xls 或 .xlsx) , CSV 文件或 SPSS Statistics 文件 (.sav) 文本: 在受支持的关系表中 或文件
数据大小 任何
如何准备数据 使用自动数据准备功能。 编写 SQL 语句以处理数据。 清除,形状,采样,排序和派生数据。
如何分析数据 使用超过 40 个图形将数据可视化。 标识文本字段的自然语言。
如何构建模型 构建预测模型。 从超过 40 种建模算法中进行选择。 使用自动建模函数。 模型时间序列或地理空间数据。
对文本数据进行分类。 识别文本数据中概念之间的关系。
入门 要创建 SPSS Modeler 流,请单击 添加到项目 > Modeler 流 ,然后选择 IBM SPSS Modeler。
了解更多信息 有关 SPSS Modeler的文档
Decision Optimization 模型构建器
使用 Decision Optimization 在 Decision Optimization 建模器或 Jupyter Notebook 中构建和运行优化模型。
必需服务 Decision Optimization
数据格式 表格 :CSV 文件
数据大小 任何
如何准备数据 将相关数据导入到方案中并进行编辑。
如何构建模型 构建规范性决策优化模型。 在 Python DOcplex , OPL 或使用自然语言表达式创建,导入和编辑模型。 在 Notebook 中创建,导入和编辑模型。
如何对模型求解 使用 CPLEX 引擎运行和求解决策优化模型。 调查和比较多个方案的解决方案。 创建表,图表和注释,以可视化一个或多个场景的数据和解决方案。
入门 要创建 Decision Optimization 模型,请单击 添加到项目> Decision Optimization,或者对于 Notebook ,单击 添加到项目> Notebook。
了解更多信息 有关 Decision Optimization的文档
AutoAI 工具
使用 AutoAI 工具自动分析表格数据,并生成针对预测建模问题定制的候选模型管道。
必需服务 Watson Machine Learning
数据格式 表格 :CSV 文件
数据大小 小于 1 GB
如何准备数据 自动变换数据,例如插补缺失值。
如何构建模型 训练二元分类,多类分类或回归模型。 查看显示 AutoAI 训练阶段序列的树信息图。 生成按交叉验证分数排名的模型管道的排行榜。 将管道另存为模型。
入门 要创建 AutoAI 试验,请单击 添加到项目 > AutoAI 试验。
了解更多信息 有关 AutoAI的文档
试验构建器
使用试验构建器来构建深度学习试验并运行几百个训练运行。 此方法要求提供代码以定义训练运行。 在试验构建器图形界面中运行、跟踪、存储和比较结果,然后将最佳配置另存为模型。
必需服务 Watson Machine Learning
数据格式 带有标签文本数据的文本 :CSV 文件 图像 :PKL 文件中的图像文件。 例如,模型测试特征符使用大小调整为 32×32 像素并存储为 pickle 格式的 numpy 数组的图像。
数据大小 任何大小
如何构建模型 编写 Python 代码以指定训练运行的度量值。 使用 Python 代码编写训练定义。 定义超参数,或者选择 RBFOpt 方法或随机超参数设置。 通过运行数百次或数千次训练运行来查找大量超参数的最佳值。 使用 GPU 和功能强大的专用硬件和基础结构运行分布式训练。 比较训练运行的性能。 将训练运行另存为模型。
入门 要创建试验,请单击 添加到项目 > 试验。
联合学习
借助 Federated Learning 工具,使用分布式数据来训练公共模型。 数据永远不会组合或共享,从而在为所有参与方提供基于汇总数据的模型的同时保持数据完整性。
必需服务 Watson Machine Learning
数据格式 任何
数据大小 任何大小
如何构建模型 选择训练框架。 配置公共模型。 配置用于训练公共模型的文件。 让远程参与方训练其数据。 部署公共模型。
入门 要创建试验,请单击 添加到项目 > Federated Learning 试验。
了解更多信息 有关 Federated Learning 的文档
Metadata import
使用元数据导入工具可以自动发现数据资产的技术和流程元数据,并将其导入到项目或目录中。
必需服务 Watson Knowledge Catalog
数据格式 任何
数据大小 任何大小
如何准备数据 将数据资产从连接导入到数据源。
入门 要导入元数据,请单击 添加到项目> Metadata import。
了解更多信息 有关元数据导入的文档
IBM Match 360 with Watson
使用 IBM Match 360 with Watson 创建代表客户数字孪生的主数据实体。 对数据进行建模和映射,然后运行匹配算法以创建主数据实体。 定制并调整匹配算法以满足组织的需求。
必需服务 IBM Match 360 with Watson
IBM Watson Knowledge Catalog
数据大小 任何
如何准备数据 对来自整个组织的源的数据进行建模和映射。 运行可定制匹配算法以创建主数据实体。 查看和编辑主数据实体及其关联的记录。
入门 要创建 IBM Match 360 配置资产,请单击 添加到项目 > 主数据配置。
了解更多信息 有关 IBM Match 360 with Watson的文档
RStudio IDE
使用 RStudio IDE 通过编写 R 代码来分析数据或创建 Shiny 应用程序。 RStudio 可与必须与项目关联的 Git 存储库集成。
必需服务 RStudio
数据格式 任何
数据大小 任何大小
如何准备数据,分析数据和构建模型 使用 R 编写代码。 创建 Shiny 应用程序。 使用开放式源代码库和软件包。 将富文本格式和媒体包含在代码中。 准备数据。 可视化数据。 从数据中发现洞察。 使用开放式源代码库构建和训练模型。 在 Git 存储库中共享 Shiny 应用程序。
入门 要使用 RStudio ,请单击 启动 IDE > RStudio。
了解更多信息 有关 RStudio 的文档
JupyterLab
使用 JupyterLab IDE 可以创建 Notebook 或 Python 脚本,您可在其中运行代码以准备、可视化和分析数据,或者构建和训练模型。 JupyterLab 与必须与项目关联的 Git 存储库集成。
数据格式 任何
数据大小 任何
如何准备数据,分析数据或构建模型 使用 Python。
将富文本格式和媒体包含在您的代码中。 以您想要的任何方式处理任何类型的数据。 使用预安装或安装其他开放式源代码以及 IBM 库和软件包。 从文件导入 Notebook。 在 Git 存储库中共享 Notebook 或脚本。
入门 要使用 JupyterLab,请单击 启动 IDE> JupyterLab。
了解更多信息 有关 JupyterLab的文档
屏蔽流程
使用屏蔽流程工具,为目录中的数据准备屏蔽副本或屏蔽子集。 该工具会根据数据保护规则,使用高级屏蔽选项对数据进行去标识化处理。
必需服务 Watson Knowledge Catalog
数据格式 关系: 关系数据源中的表
数据大小 任何大小
如何准备数据,分析数据或构建模型 将数据资产从受管目录导入到项目。 创建屏蔽流作业定义,以使用数据保护规则指定要屏蔽的数据。 (可选) 对数据进行子集以减小复制数据的大小。 运行屏蔽流作业以将屏蔽副本装入到目标数据库连接。
入门 确保完成 Watson Knowledge Catalog 中的必备步骤。 要将数据私有化,请执行以下任务之一:
- 单击 添加到项目> 屏蔽流。
- 单击个别数据资产的菜单选项可直接屏蔽该资产。
了解更多信息 有关屏蔽数据的文档
父主题: 项目