从自定义数据模式生成结构化合成数据

您可以使用 Synthetic Data Generator 根据元数据生成结构化合成数据集。 您可以定义数据类型和数据统计分布,也可以让 Synthetic Data Generator 自动生成数据。 您可以定义每张表格中各列的数据、其分布情况以及任何相关性。 然后,您就可以导出并查看合成数据。

  1. 单击新资产 > 生成合成表格数据 ,创建合成数据流。

  2. 为资产添加名称,然后单击创建。 在欢迎访问 Synthetic Data Generator 对话框中,选择首次用户

  3. 选择从自定义数据模式创建 ,然后单击下一步

  4. 在 " 生成选项 "选项卡中,配置新流程的设置。 您可以指定行数并添加列。 对于添加的每一列,您都可以定义其数据类型、数据的统计分布以及其他分布参数。

    1. 要添加列,请在字段中为列命名,然后从数据类型列表中选择数据类型。

    2. 如果要生成特定类型的数据(如姓名或电子邮件地址),请单击 " 字典 ",然后从 " 选择选项 "列表中选择要生成的数据类型。

    3. 如果要使用统计分布,请单击分布 ,然后从分布列表中选择要使用的统计分布类型。

      配置参数以控制统计分布合成生成数据的特征。

    4. 点击 “保存”

  5. 在 " 导出数据 "选项卡上,选择保存合成数据的文件格式。 更多信息,请参阅导出合成数据。 点击 “下一步”

  6. 在 "审核 "选项卡上,检查设置并单击 " 保存流程 "。

  7. 要立即运行新流程,请单击运行流程

    如果单击继续编辑 ,则可以在生成数据前进一步编辑生成节点。 在 Synthetic Data Generator 图形流程编辑器中编辑 " 生成 "节点时,可以配置数据的其他设置,如列之间的相关性和其他高级选项。

了解更多

从样本数据创建合成数据