评估合成数据

合成数据的有效性取决于其质量,这要求开发并运用合适的评估指标。 在这方面,合成数据指标在评估生成的数据的保真度、多样性和实用性方面发挥着至关重要的作用。

在数据科学和机器学习领域,高质量数据的可用性对于构建准确且稳健的模型至关重要。 然而,在许多实际应用场景中,由于隐私问题、数据稀缺或数据采集成本高昂等各种限制,获取充足且多样化的数据往往是一项艰巨的任务。 为应对这些挑战,合成数据生成这一概念日益受到关注,它为通过人工生成的数据来补充或替代真实世界数据提供了极具前景的解决方案。

Synthetic Data Generator 利用质量、隐私和实用性指标,帮助您评估合成数据。

如何评估您的合成数据

要评估您的合成数据,您可以将 “评估 ”节点连接在 “导入 ”节点和 “生成 ”节点之间。 如何连接以评估您的合成数据

您还可以将 “评估 ”节点连接在两个 “导入” 节点之间,或连接在两个 “生成 ”节点之间。

连接好 “评估” 节点后,请点击 “编辑 ”按钮。 如何编辑“评估”节点

评估节点选项

以下子主题将说明如何选择用于评估合成数据的选项。

重要提示: 合成数据中可能会出现重复记录。 您可以选择“删除重复记录”选项,该选项会在重复记录超过数据集总量的5%时将其删除,仅保留首次出现的记录。
重要提示: 如果节点未正确连接,将会出现以下错误:必须输入基线

质量指标

保真度分数

聚集多个指标,这些指标反映各个列的真实数据和分布的合成数据之间的相似性,以及所有列对的相关性的相似性。

数据可区分性

捕获二进制分类器从合成数据中分离真实数据的能力。 训练此类分类器的难度越大,合成数据在反映真实数据统计特性方面的质量就越高。

隐私指标

泄漏分数

计算合成数据中与真实数据中某些行完全相同的行所占的比例。

近似分数

根据合成数据与真实数据中不同点之间的距离计算得出。 这个距离越小,就越容易将某些行从真实数据中隔离,从而增加隐私风险。

效用指标

预测效用

度量合成数据对于预测下游任务的有用性。 它使用真实数据作为测试数据,评估根据合成数据训练的预测模型在准确预测选定目标方面的性能。

评估级别

简单评估

在简单评估方式下,在单个 ML(机器学习)模型上运行指标。

全面评估

在全面评估模式下,系统会尽可能针对多个机器学习(ML)模型对指标进行评估并计算平均值。