生成结构化合成数据
您可以使用 Synthetic Data Generator ,利用现有数据创建结构化合成数据。 Synthetic Data Generator 生成模拟真实数据特征和关系的合成数据。
- 数据格式
- 表格:数据文件(如.xls、.csv 或.json 文件)中的表格
- 了解有关 Synthetic Data Generator 数据源的更多信息。
- 数据大小
- 环境 Synthetic Data Generator 最多可导入 ~2.5GB 的数据。
Synthetic Data Generator 是什么?
Synthetic Data Generator 是一款图形流程编辑工具。 您可以建立 Synthetic Data Generator 流程,利用可视化界面生成结构化合成数据。 无需编程。
Synthetic Data Generator 图形化流程编辑器。 
入门指南 Synthetic Data Generator
您可以通过快速入门教程学习如何生成
- 有关生成结构化合成数据的快速教程,请参阅《 生成合成表格数据》
- 要快速了解如何创建合成数据流,请参阅 《从样本数据生成结构化合成数据》
建筑物流量
在 Synthetic Data Generator 中,您可以设置导入种子数据并从中生成合成数据的流程。 流程是您在画布上连接的一系列节点。
- 流程
- 流程是一组按顺序连接的数据处理操作。 流程表示通过每个操作的数据流。 数据从数据源通过操作序列流向末端。 流程通常以导入种子数据的节点开始,以导出合成数据的节点结束。 在画布上添加节点并将它们连接起来,就可以创建流程。
- 画布
- 画布是 Synthetic Data Generator 中的主要工作区域,也是您构建流程的地方。
- 节点数
- 节点是一个模块化的、自成一体的操作集。 节点是表示这些操作的图形方式,每个节点都有一个独特的图标。 这些节点在画布上以流程的形式连接起来,以便进行更复杂的处理和数据生成。
脚本
您可以在 Synthetic Data Generator 中使用脚本来自动执行重复性高或耗时的手动任务。 脚本可以像用户使用鼠标或键盘一样执行所有类型的操作,您可以使用 Python 或 Python for Spark 编写脚本。