管理 Data Refinery 流程 (Data Refinery)

Data Refinery 流程是清理、塑形和增强数据的一组有序步骤。 当您通过 应用操作 对数据集 优化数据 时,您可以动态构建定制的 Data Refinery 流,您可以实时修改该流并将其保存以供将来使用。

以下是在优化数据时可以执行的操作:

使用 Data Refinery 流

步骤

使用数据集

项目页面上的操作

使用 Data Refinery 流程

保存 Data Refinery 流

通过单击 Data Refinery 工具栏中的“保存 Data Refinery 流”图标 '保存' 图标 来保存 Data Refinery 流。 Data Refinery 流程将保存到您正在处理的项目。 保存 Data Refinery 流,以便稍后可继续优化数据集。

Data Refinery 流的缺省输出保存为数据资产 source-file-name_shaped.csv。 例如,如果源文件为 mydata.csv,那么 Data Refinery 流的缺省名称和输出为 mydata_csv_shaped。 您可以通过 更改 Data Refinery 流程的目标来编辑名称和添加扩展。

运行或调度 Data Refinery 流的作业

Data Refinery 支持大型数据集,大型数据集可能非常耗时且难以优化。 为了让您快速高效地工作,Data Refinery 会对该数据集中的行样本子集执行操作。 样本大小是 1 MB 或 10,000 行,以先达到者为准。 运行 Data Refinery 流的作业时,将处理整个数据集。 运行该作业时,请选择运行时,并可以添加一次性调度或重复调度。

在 Data Refinery 的 Data Refinery 工具栏中单击“作业”图标 运行或调度作业图标,然后选择保存并创建作业保存并查看作业

保存 Data Refinery 流程之后,还可以从“项目”页面为该流程创建作业。 转至 资产 选项卡,选择 Data Refinery 流程,然后从溢出菜单 (溢出菜单) 中选择 创建作业

您必须具有管理员编辑者角色,才能查看作业详细信息或者编辑或运行该作业。 通过项目的 查看者 角色,您只能查看作业详细信息。

有关作业的更多信息,请参阅 在 Data Refinery中创建作业

重命名 Data Refinery 流

  1. 在 Data Refinery中,打开信息窗格 “参考”图标 ,然后单击 详细信息 选项卡。
  2. 单击 Data Refinery 名称旁边的“编辑”图标。
  3. 单击 "保存" “参考”图标

步骤

撤销或重做步骤

单击工具栏上的撤销 (“撤销”图标) 图标或重做 (“撤销”图标) 图标。

编辑或删除步骤

要编辑步骤:

  1. 在 "步骤" 窗格中,单击要编辑的操作的步骤上的溢出菜单 (溢出菜单)。 Data Refinery 切换为编辑方式,并在命令行或“操作”窗格中显示待编辑的操作。
  2. 编辑操作或选择其他操作以代替该操作。
  3. 应用已编辑的操作。 Data Refinery 更新相关步骤以反映更改,并重新运行所编辑的操作之后的所有操作。

在 "Snapshot 视图" 中查看 Data Refinery 流步骤

要查看任意时间点的数据状况,请单击先前步骤,以将 Data Refinery 置于快照视图中。 例如,如果单击 数据源,那么在开始对其进行优化之前,您将看到数据的样子。 单击任何操作步骤可查看应用相应操作后的数据情况。 要离开快照视图,请单击 查看第 x 步 (共 y 步) 或单击您选择进入快照视图的同一步骤。

使用快照视图在两个步骤之间插入操作:

  1. 在要插入新操作的位置前单击该步骤。 Data Refinery 将显示应用相应操作后数据集的快照视图。
  2. 选择并应用新操作。 Data Refinery 在现有步骤之间插入新步骤,并重新运行新步骤之后的所有操作。

使用数据集

更改 Data Refinery 流的源

更改 Data Refinery 流的源。 运行的 Data Refinery 流相同,但源数据集不同。 在 Data Refinery中的 " 步骤 " 窗格中,单击 数据源旁边的溢出菜单 (溢出菜单) ,选择 编辑,然后选择其他源数据集。
编辑源

要获取最佳结果,新数据集的模式应该与原始数据集的模式兼容(例如,列名称、列数和数据类型)。 如果新数据集具有不同的模式,那么无法使用该模式的操作将显示错误。 您可以编辑或删除这些操作,或者将源模式更改为兼容性较好的模式。

更改 Data Refinery 流的目标

  1. 在 Data Refinery中,打开 "信息" 窗格 “参考”图标 ,然后单击 详细信息 选项卡。
  2. 单击编辑按钮。
  3. 在“DATA REFINERY 流输出”窗格中,单击“编辑”图标可更改以下任何属性:
    • 目标位置。 (目标数据集必须是与源数据集不同的数据集。)
    • 数据集名称和描述
    • 仅限关系数据库目标:选择是否覆盖现有数据集中的数据。 (如果目标数据集不在关系数据库中,那么始终会覆盖目标数据。)
    • 文件格式
    • 列标题信息
    • 编码(UTF-8 或 SJIS)

项目页面上的操作

重新打开 Data Refinery 流以继续使用

要重新打开 Data Refinery 流并继续优化数据,请转至项目的资产选项卡。 单击 Data Refinery 流名称。

复制 Data Refinery 流

要创建 Data Refinery 流副本,请转至项目。 单击“资产”选项卡。 选择 Data Refinery 流,然后从溢出菜单 (溢出菜单) 中选择 复制 。 Data Refinery 流将作为 "Original-Name Copy 1" 添加到 Data Refinery 流列表中。

删除 Data Refinery 流

要删除 Data Refinery 流,请转至项目。 单击“资产”选项卡。 选择 Data Refinery 流程,然后从溢出菜单 (溢出菜单) 中选择 删除

将 Data Refinery 流程提升到空间

部署空间用于在与项目分离的环境中管理一组相关资产。 使用空间可以为 Watson Machine Learning 的部署作业准备数据。 您可将 Data Refinery 流程从多个项目提升至单个空间。 因为 Data Refinery 流程在空间中不可编辑,请先在 Data Refinery 流程中完成这些步骤,然后再提升该流程。

要将 Data Refinery 流提升到空间,请转至项目的 资产 选项卡,单击 Data Refinery 流的溢出菜单 (溢出菜单) ,然后选择 提升。 该 Data Refinery 流程的源文件以及任何其他从属数据也会提升。

要为空间中的 Data Refinery 流创建或运行作业,请转至空间的 资产 选项卡,向下滚动到 Data Refinery 流,然后从溢出菜单 (溢出菜单) 中选择 创建作业 (运行或调度作业图标)。 如果已创建作业,请转至 作业 选项卡以编辑作业或查看作业运行详细信息。 修整后的 Data Refinery 流程作业输出会显示在空间的资产选项卡上。 您必须具有管理员编辑者角色,才能查看作业详细信息或者编辑或运行该作业。 项目的查看者角色只能查看作业详细信息。 修整后的输出可以用作 Watson Machine Learning 中的作业输入数据。

限制: 手动提升目标已连接的数据资产: 将 Data Refinery 流从项目提升到空间,并且 Data Refinery 流的目标是 已连接的数据资产时,必须 手动提升已连接的数据资产。 此操作可确保在空间中运行 Data Refinery 流作业时更新已连接数据资产的数据。 否则,成功运行该 Data Refinery 流程作业会在该空间中创建新的数据资产。

有关空间的更多信息,请参阅部署空间

父主题: 优化数据