使用差分隐私

差异化隐私保护可防止用户数据被追踪到个人用户。 所涉及的参数被称为隐私预算。 这是在数据集中增加或删除一个条目的基础上衡量隐私损失的指标。

Mimic 节点中配置差异隐私设置之前,您需要创建 Synthetic Data Generator 流程。 更多信息,请参阅创建合成数据流

  1. 在 Synthetic Data Generator 图形流程编辑器中打开 Synthetic Data Generator 流程。

  2. 如果您的流程还没有模仿节点,请双击节点面板中的模仿节点并将其连接到流程来添加一个。

  3. 将鼠标悬停在 " 模仿 "节点上,然后单击 " 编辑 "。

  4. 向下滚动并选择 " 隐私 "。 在 " 隐私 "部分,打开 " 启用差分隐私 "。

    这将确保合成输出中不会暴露任何个人的敏感数据。 您可以通过调整隐私预算 (epsilon) 和泄漏 (delta) 参数来控制隐私保护级别。

  5. 调整隐私预算(ε)

    通过隐私预算,您可以调整合成输出中所需的隐私保护级别。 较小的值可提供更大的隐私保护,但会损失一些准确性。 较大的值可提供更高的准确性,但隐私保护能力有所减弱。

  6. 调整隐私泄漏概率 (delta)

    Delta 通常被称为隐私泄露的最大允许可能性。 Delta 应小于或等于 1/n*n,其中 n = 样本大小。 delta 越小,隐私保护能力越强。

  7. 生成随机种子 当启用有区别的隐私时,此随机种子值将使您能够复制有区别的隐私合成输出。 禁用差分隐私时,可在生成节点中调整随机种子值。

  8. 手动调整列边界(可选)。 列界限会自动应用,但您可以手动调整这些界限以限制用于拟合的值的范围。 只能选择数字列。

    注意: 流程运行后,即使在此处设置了列边界,**生成**节点结果中的列边界也不会更新。 这是预期行为。 如果输入的值大于或小于实际数据列的界限,那么差分隐私值就会调整为新值。 不过,最小/最大列界限只适用于真实数据,而不适用于生成的合成数据。 这样做的好处是,在**生成**节点期间,差分隐私结果不会受到指定的最小/最大列边界的干扰。 手动设置最小值和最大值可能会导致隐私泄露。
  9. 更新隐私选项后,选择保存

保存隐私选项

  1. 选择全部运行
注意: 基于已启用差异隐私的合成数据集的参数将与原始数据集中的参数不同。

了解更多

从自定义数据模式创建合成数据