Encode 阶段

Encode stage 使用您提供的 UNIX 编码命令(如 gzip)对数据集进行编码。

“编码”阶段是一个处理阶段。 该阶段会将数据集从记录序列转换成原始二进制数据流。 Decode stage 将数据流重新转换为数据集(见 Decode stage ).

编码的数据集类似于普通数据集,可写入数据集阶段。 不能将已编码的数据集用作执行基于列的处理或对行重新排序的阶段的输入,但是可将它输入到“复制”之类的阶段中。 您可以在数据集查看器中查看有关该数据集的信息,但不是数据本身。 不能对已编码的数据集进行重新分区,如果作业尝试这样做,将会在运行时向您发出警告。

双击 Encode stage 时,会打开属性面板。 属性面板具有三个选项卡:

  • 阶段。 此页面始终存在,并用于指定阶段的相关常规信息。
  • 输入。 您可在该页面上指定进行分组或聚集的数据的详细信息。
  • 输出。 您可在该页面上指定有关从该阶段输出的组的详细信息。