运行屏蔽流程作业

在数据屏蔽流任务中,数据用户需定义屏蔽数据副本的目标存储位置。 任务可以进行计划,任务成功完成后,您可以查看任务报告摘要。

创建掩模流作业有两种方法:

  • 创建遮罩流后,请点击 “配置作业 ”。
  • 点击单个数据资产上的 “选项 ”菜单,即可跳过创建掩码流的步骤,直接为该数据资产配置掩码任务。
注意: 在执行掩膜流作业时,如果内存不足以支持该作业,可能会发生错误。 为避免出错,数据的最大大小不得超过 12GBs。

创建蒙版流程环境

必需的许可权

要创建环境模板,您必须在该项目中拥有管理员编辑角色。

要为您的项目创建环境模板:

  1. 在您的项目中,单击 “管理 ”选项卡,然后单击 “环境 ”页面。
  2. 在“环境”页面中,单击 “模板 ”选项卡,然后单击 “新建模板”
  3. 通过输入名称和描述(可选)来定义环境详细信息。
  4. “类型 ”下,点击 “Spark”
  5. “硬件配置 ”下,请根据掩码流作业中表的大小指定驱动程序和执行器的配置。
  6. “执行器数量 ”下,增加执行器数量,以提升在作业配置为分区运行时的屏蔽流性能。 如需了解更多信息,请参阅 “管理工作表现 ”主题中的 “最佳实践 ”部分。
  7. 软件版本列表中,选择 “Masking Flow Spark ”。
  8. 单击创建

使用作业

要配置一个作业:

  1. 输入工作名称,并可选填工作描述。
  2. 添加目标连接,以便在该连接中插入经过掩码处理的数据副本。 源连接用于读取数据。
  3. 点击“+”添加新联系人。 该模式将源表映射到目标表。 目标模式中必须已配置好表定义。
提示: 当源资产为 Apache Hive 时,请将 Apache HDFS 设为目标连接。
  1. (可选) 在“分区 ”页面中,您可以选择编辑该资产的分区详细信息:
    • 如果您使用 “设置采样 ”创建遮罩流 ,只需将 “编辑分区详细信息”设置为 “关闭 ”,即可放心忽略“分区”页面的编辑操作。
    • 如果您的表中包含大量数据,请考虑通过指定某列作为分区列来编辑分区详细信息。 为了提高工作效率,您可以增加分区数量。 如需了解更多信息,请参阅 “管理工作表现 ”主题中的 “最佳实践 ”部分。
  2. (可选)安排任务或安排周期性任务。
  3. (可选) 在“增量作业 ”页面中,您可以通过指定 “天数偏移 ”值,使作业根据“日期”列以及“YYYY-MM-DD”日期格式对源表中的记录进行筛选。 如果禁用了分区选项,则可使用增量作业选项。
    示例:
    如果启用了增量作业选项,并将 “天数偏移量 ”设置为 5(N),同时将日期列指定为 TRANSACTION_DATE,那么当作业在某个特定日期(例如 2025-07-31(X))执行时,它会从源表中筛选出满足 TRANSACTION_DATE 等于 X-N 的记录,即 2025-07-26。 随后,这些经过筛选的记录会被复制到目标数据库表中。
  4. 检查并运行该作业。

了解更多