管理 Data Refinery 流程 (Data Refinery)
Data Refinery 流程是清理、塑形和增强数据的一组有序步骤。 当您通过 应用操作 对数据集 优化数据 时,您可以动态构建定制的 Data Refinery 流,您可以实时修改该流并将其保存以供将来使用。
以下是在优化数据时可以执行的操作:
使用 Data Refinery 流
步骤
使用数据集
项目页面上的操作
使用 Data Refinery 流程
保存 Data Refinery 流
通过单击 Data Refinery 工具栏中的“保存 Data Refinery 流”图标
来保存 Data Refinery 流。 Data Refinery 流程将保存到您正在处理的项目。 保存 Data Refinery 流,以便稍后可继续优化数据集。
Data Refinery 流的缺省输出保存为数据资产 source-file-name_shaped.csv。 例如,如果源文件为 mydata.csv,那么 Data Refinery 流的缺省名称和输出为 mydata_csv_shaped。 您可以通过 更改 Data Refinery 流程的目标来编辑名称和添加扩展。
运行或调度 Data Refinery 流的作业
Data Refinery 支持大型数据集,大型数据集可能非常耗时且难以优化。 为了让您快速高效地工作,Data Refinery 会对该数据集中的行样本子集执行操作。 样本大小是 1 MB 或 10,000 行,以先达到者为准。 运行 Data Refinery 流的作业时,将处理整个数据集。 运行该作业时,请选择运行时,并可以添加一次性调度或重复调度。
在 Data Refinery 的 Data Refinery 工具栏中单击“作业”图标
,然后选择保存并创建作业或保存并查看作业。
保存 Data Refinery 流程之后,还可以从“项目”页面为该流程创建作业。 转至 资产 选项卡,选择 Data Refinery 流程,然后从溢出菜单 (
) 中选择 创建作业 。
您必须具有管理员或编辑者角色,才能查看作业详细信息或者编辑或运行该作业。 通过项目的 查看者 角色,您只能查看作业详细信息。
有关作业的更多信息,请参阅 在 Data Refinery中创建作业。
重命名 Data Refinery 流
- 在 Data Refinery中,打开信息窗格
,然后单击 详细信息 选项卡。 - 单击 Data Refinery 名称旁边的“编辑”图标。
- 单击 "保存"
。
步骤
撤销或重做步骤
单击工具栏上的撤销 (
) 图标或重做 (
) 图标。
编辑或删除步骤
要编辑步骤:
- 在 "步骤" 窗格中,单击要编辑的操作的步骤上的溢出菜单 (
)。 Data Refinery 切换为编辑方式,并在命令行或“操作”窗格中显示待编辑的操作。 - 编辑操作或选择其他操作以代替该操作。
- 应用已编辑的操作。 Data Refinery 更新相关步骤以反映更改,并重新运行所编辑的操作之后的所有操作。
在 "Snapshot 视图" 中查看 Data Refinery 流步骤
要查看任意时间点的数据状况,请单击先前步骤,以将 Data Refinery 置于快照视图中。 例如,如果单击 数据源,那么在开始对其进行优化之前,您将看到数据的样子。 单击任何操作步骤可查看应用相应操作后的数据情况。 要离开快照视图,请单击 查看第 x 步 (共 y 步) 或单击您选择进入快照视图的同一步骤。
使用快照视图在两个步骤之间插入操作:
- 在要插入新操作的位置前单击该步骤。 Data Refinery 将显示应用相应操作后数据集的快照视图。
- 选择并应用新操作。 Data Refinery 在现有步骤之间插入新步骤,并重新运行新步骤之后的所有操作。
使用数据集
更改 Data Refinery 流的源
更改 Data Refinery 流的源。 运行的 Data Refinery 流相同,但源数据集不同。 在 Data Refinery中的 " 步骤 " 窗格中,单击 数据源旁边的溢出菜单 (
) ,选择 编辑,然后选择其他源数据集。

要获取最佳结果,新数据集的模式应该与原始数据集的模式兼容(例如,列名称、列数和数据类型)。 如果新数据集具有不同的模式,那么无法使用该模式的操作将显示错误。 您可以编辑或删除这些操作,或者将源模式更改为兼容性较好的模式。
更改 Data Refinery 流的目标
- 在 Data Refinery中,打开 "信息" 窗格
,然后单击 详细信息 选项卡。 - 单击编辑按钮。
- 在“DATA REFINERY 流输出”窗格中,单击“编辑”图标可更改以下任何属性:
- 目标位置。 (目标数据集必须是与源数据集不同的数据集。)
- 数据集名称和描述
- 仅限关系数据库目标:选择是否覆盖现有数据集中的数据。 (如果目标数据集不在关系数据库中,那么始终会覆盖目标数据。)
- 文件格式
- 列标题信息
- 编码(UTF-8 或 SJIS)
项目页面上的操作
重新打开 Data Refinery 流以继续使用
要重新打开 Data Refinery 流并继续优化数据,请转至项目的资产选项卡。 单击 Data Refinery 流名称。
复制 Data Refinery 流
要创建 Data Refinery 流副本,请转至项目。 单击“资产”选项卡。 选择 Data Refinery 流,然后从溢出菜单 (
) 中选择 复制 。 Data Refinery 流将作为 "Original-Name Copy 1" 添加到 Data Refinery 流列表中。
删除 Data Refinery 流
要删除 Data Refinery 流,请转至项目。 单击“资产”选项卡。 选择 Data Refinery 流程,然后从溢出菜单 (
) 中选择 删除 。
将 Data Refinery 流程提升到空间
部署空间用于在与项目分离的环境中管理一组相关资产。 使用空间可以为 Watson Machine Learning 的部署作业准备数据。 您可将 Data Refinery 流程从多个项目提升至单个空间。 因为 Data Refinery 流程在空间中不可编辑,请先在 Data Refinery 流程中完成这些步骤,然后再提升该流程。
要将 Data Refinery 流提升到空间,请转至项目的 资产 选项卡,单击 Data Refinery 流的溢出菜单 (
) ,然后选择 提升。 该 Data Refinery 流程的源文件以及任何其他从属数据也会提升。
要为空间中的 Data Refinery 流创建或运行作业,请转至空间的 资产 选项卡,向下滚动到 Data Refinery 流,然后从溢出菜单 (
) 中选择 创建作业 (
)。 如果已创建作业,请转至 作业 选项卡以编辑作业或查看作业运行详细信息。 修整后的 Data Refinery 流程作业输出会显示在空间的资产选项卡上。 您必须具有管理员或编辑者角色,才能查看作业详细信息或者编辑或运行该作业。 项目的查看者角色只能查看作业详细信息。 修整后的输出可以用作 Watson Machine Learning 中的作业输入数据。
限制: 手动提升目标已连接的数据资产: 将 Data Refinery 流从项目提升到空间,并且 Data Refinery 流的目标是 已连接的数据资产时,必须 手动提升已连接的数据资产。 此操作可确保在空间中运行 Data Refinery 流作业时更新已连接数据资产的数据。 否则,成功运行该 Data Refinery 流程作业会在该空间中创建新的数据资产。
有关空间的更多信息,请参阅部署空间。
父主题: 优化数据