运行屏蔽流程作业
在数据屏蔽流任务中,数据用户需定义屏蔽数据副本的目标存储位置。 任务可以进行计划,任务成功完成后,您可以查看任务报告摘要。
创建掩模流作业有两种方法:
- 创建遮罩流后,请点击 “配置作业 ”。
- 点击单个数据资产上的 “选项 ”菜单,即可跳过创建掩码流的步骤,直接为该数据资产配置掩码任务。
注意: 在执行掩膜流作业时,如果内存不足以支持该作业,可能会发生错误。 为避免出错,数据的最大大小不得超过 12GBs。
创建蒙版流程环境
必需的许可权
要创建环境模板,您必须在该项目中拥有管理员或编辑角色。
要为您的项目创建环境模板:
- 在您的项目中,单击 “管理 ”选项卡,然后单击 “环境 ”页面。
- 在“环境”页面中,单击 “模板 ”选项卡,然后单击 “新建模板”。
- 通过输入名称和描述(可选)来定义环境详细信息。
- 在 “类型 ”下,点击 “Spark”。
- 在 “硬件配置 ”下,请根据掩码流作业中表的大小指定驱动程序和执行器的配置。
- 在 “执行器数量 ”下,增加执行器数量,以提升在作业配置为分区运行时的屏蔽流性能。 如需了解更多信息,请参阅 “管理工作表现 ”主题中的 “最佳实践 ”部分。
- 在软件版本列表中,选择 “Masking Flow Spark ”。
- 单击创建。
使用作业
要配置一个作业:
- 输入工作名称,并可选填工作描述。
- 添加目标连接,以便在该连接中插入经过掩码处理的数据副本。 源连接用于读取数据。
- 点击“+”添加新联系人。 该模式将源表映射到目标表。 目标模式中必须已配置好表定义。
提示: 当源资产为 Apache Hive 时,请将 Apache HDFS 设为目标连接。
- (可选) 在“分区 ”页面中,您可以选择编辑该资产的分区详细信息:
- (可选)安排任务或安排周期性任务。
- (可选) 在“增量作业 ”页面中,您可以通过指定 “天数偏移 ”值,使作业根据“日期”列以及“YYYY-MM-DD”日期格式对源表中的记录进行筛选。 如果禁用了分区选项,则可使用增量作业选项。
示例:
如果启用了增量作业选项,并将 “天数偏移量 ”设置为 5(N),同时将日期列指定为TRANSACTION_DATE,那么当作业在某个特定日期(例如 2025-07-31(X))执行时,它会从源表中筛选出满足TRANSACTION_DATE等于 X-N 的记录,即 2025-07-26。 随后,这些经过筛选的记录会被复制到目标数据库表中。 - 检查并运行该作业。