从自定义数据模式生成结构化合成数据
您可以使用 Synthetic Data Generator 根据元数据生成结构化合成数据集。 您可以定义数据类型和数据统计分布,也可以让 Synthetic Data Generator 自动生成数据。 您可以定义每张表格中各列的数据、其分布情况以及任何相关性。 然后,您就可以导出并查看合成数据。
单击新资产 > 生成合成表格数据 ,创建合成数据流。
为资产添加名称,然后单击创建。 在欢迎访问 Synthetic Data Generator 对话框中,选择首次用户
选择从自定义数据模式创建 ,然后单击下一步。
在 " 生成选项 "选项卡中,配置新流程的设置。 您可以指定行数并添加列。 对于添加的每一列,您都可以定义其数据类型、数据的统计分布以及其他分布参数。
要添加列,请在列字段中为列命名,然后从数据类型列表中选择数据类型。
如果要生成特定类型的数据(如姓名或电子邮件地址),请单击 " 字典 ",然后从 " 选择选项 "列表中选择要生成的数据类型。
如果要使用统计分布,请单击分布 ,然后从分布列表中选择要使用的统计分布类型。
配置参数以控制统计分布合成生成数据的特征。
点击 “保存”。
在 " 导出数据 "选项卡上,选择保存合成数据的文件格式。 更多信息,请参阅导出合成数据。 点击 “下一步”。
在 "审核 "选项卡上,检查设置并单击 " 保存流程 "。
要立即运行新流程,请单击运行流程。
如果单击继续编辑 ,则可以在生成数据前进一步编辑生成节点。 在 Synthetic Data Generator 图形流程编辑器中编辑 " 生成 "节点时,可以配置数据的其他设置,如列之间的相关性和其他高级选项。