重要说明:

IBM Cloud Pak® for Data 4.8 版本将于 2025 年 7 月 31 日结束支持(EOS)。 欲了解更多信息,请参阅 IBM Cloud Pak for Data 版本 4.X 的停止服务公告
在 版本支持结束之前,升级到 版本。 IBM Cloud Pak for Data 4.8 IBM Software Hub 5.1 有关更多信息,请参阅从 IBM Cloud Pak for Data 版本 4.8 升级到 IBM Software Hub 版本 5.1

快速入门: 生成合成表格数据

学习本教程以了解如何在 IBM watsonx.ai中生成合成表格数据。 合成数据的好处在于,您可以按需采购数据,然后根据您的使用情况进行定制,并大量生产。 本教程帮助您了解如何使用图形流编辑器工具 Synthetic Data Generator来根据生产数据或使用可视流和建模算法的定制数据模式生成合成表格数据。

必需的服务
Watson Studio
Synthetic Data Generator

基本工作流程包含以下任务:

  1. 打开项目。 项目是您与其他人协作处理数据的地方。
  2. 将您的数据添加到项目中。 您可以通过连接从远程数据源添加 CSV 文件或数据。
  3. 创建并运行到项目的合成数据流。 您可以使用图形流编辑器工具 Synthetic Data Generator 来根据生产数据或使用可视流和建模算法的定制数据模式生成合成表格数据。
  4. 查看合成数据流和输出。

阅读有关合成数据的信息

合成数据是在计算机上生成的信息,用于扩充或替换真实数据,以改进 AI 模型,保护敏感数据并减少偏差。 合成数据有助于缓解在现实世界示例中训练机器学习模型所带来的许多后勤,道德和隐私问题。

阅读有关合成数据的更多信息

观看有关生成合成表格数据的视频

观看视频 观看本视频,预览本教程的步骤。 视频中显示的用户界面可能存在细微差异。 该视频旨在与编写的教程相伴。

此视频提供了一种可视方法来学习本文档中的概念和任务。


尝试教程以生成合成表格数据

在本教程中,您将完成以下任务:




完成本教程的提示

以下是成功完成本教程的一些提示。

在社区中获取帮助

如果您需要本教程的帮助,可以在 Cloud Pak for Data 社区讨论区提问或寻找答案。

设置浏览器窗口

为了获得完成本教程的最佳体验,请在一个浏览器窗口中打开 Cloud Pak for Data ,并在另一个浏览器窗口中保持本教程页面处于打开状态,以便在两个应用程序之间轻松切换。 请考虑将两个浏览器窗口并排排列,以便更轻松地进行后续操作。

并排教程和 UI

提示: 如果在用户界面中完成本教程时迂到引导式教程,请单击 稍后可能



任务 1: 打开项目

您需要一个项目来存储资产。

执行以下步骤以验证您是否具有现有项目或创建项目。

  1. 从 Cloud Pak for Data 主屏,滚动到 项目 部分。 如果您看到列出了任何项目,请跳至 任务 2。 如果未看到任何项目,请遵循以下步骤来创建项目。

  2. 快速导航中,单击 所有项目

  3. 打开现有项目或创建新项目:

    1. 在 " 项目 " 页面上单击 新建项目
    2. 选择创建空项目
    3. 在 " 创建项目 " 屏幕上,输入项目的名称和可选描述。
    4. 单击创建

要获取更多信息或观看视频,请参阅创建项目

检查点图标 检查您的进度

下图显示了空项目。 现在您可以打开 Prompt Lab。

项目概述页面




任务 2: 向项目添加数据

本教程中使用的数据集包含公司收集的有关其客户的典型信息。 执行以下步骤以下载数据集,并将其添加到项目中:

  1. 下载 Auto Insurance Customers 数据集 (4KB)

  2. 从项目中单击上传资产到项目图标 "将资产上载到项目" 图标

  3. 在打开的侧面板中,浏览以选择 Customers.csv 文件,然后单击 打开。 请停留在该页面,直至装入完成为止。
    Customers.csv 文件将作为数据资产添加到项目中。

检查点图标 检查您的进度

下图显示了项目中的 "资产" 选项卡。 现在,您已准备好创建合成数据流。

下图显示了项目中的 "资产" 选项卡。




任务 3: 创建合成数据流

使用 Synthetic Data Generator 来创建一个数据流,该数据流根据生产数据或使用可视流和建模算法的定制数据模式来生成合成表格数据。 执行以下步骤以在项目中创建合成数据流资产:

  1. 从项目中的 资产 选项卡,单击 新建资产> Synthetic Data Generator
  2. 对于名称,输入 Bank customers
  3. 单击创建
  4. 在 " 欢迎使用 Synthetic Data Generator " 屏幕上,单击 首次用户,然后单击 继续。 此选项为您提供构建数据流的指导式体验。
  5. 查看两个用例:
    • 利用现有数据: 根据生产数据生成结构化合成数据集。 您可以连接到数据库,导入或上传文件,掩盖数据,以及在导出之前生成输出。
    • 根据定制数据创建: 根据元数据生成结构化合成数据集。 您可以定义每个表列中的数据、其分布以及任何相关性。
  6. 选择 利用现有数据 用例,然后单击 下一步 以导入现有数据。
  7. 单击 从项目中选择数据 以使用从资源中心添加的客户数据资产。
    1. 选择 数据资产> customers.csv
    2. 单击选择
    3. 单击下一步
  8. 在列列表中,搜索 creditcard_number
    1. CREDITCARD_NUMBER匿名化 列中,选择 以屏蔽客户的信用卡号。
    2. 单击下一步
  9. 接受 模拟选项 页面上的缺省设置。 这些选项根据您的生产数据生成合成数据,使用一组候选统计分布来修改数据中的每个列。 单击下一步
  10. 对于 文件名,输入 bank_customers.csv,然后单击 下一步
  11. 查看设置,然后单击 保存并运行。 Synthetic Data Generator 工具将随数据流一起显示。 等待运行完成。

检查点图标 检查您的进度

下图显示了在 Synthetic Data Generator中打开的数据流。 现在,您可以浏览数据流并查看输出。

下图显示了在 Synthetic Data Generator中打开的数据流。




任务 4: 查看数据流和输出

运行完成后,您可以浏览数据流。 执行以下步骤以查看合成数据流和结果:

  1. 单击调色板图标 选用板图标 关闭节点面板。

  2. 双击 导入 节点以查看设置。

    1. 查看 数据 属性。 该工具从项目中读取数据集并填充相应的数据属性。
    2. 展开 类型 部分。 该工具会读取数据集中的值和列。
    3. 请单击取消
  3. 双击 匿名化 节点以查看设置。

    1. 验证 CREDITCARD_NUMBER 列是否设置为匿名化。
    2. 展开 匿名化值 部分。 您可以在此处定制值的匿名化方式。
    3. 请单击取消
  4. 双击 Mimic 节点以查看设置。

    1. 查看缺省设置以模拟源客户数据集中的数据。
    2. 请单击取消
  5. 双击 生成 节点以查看设置。

    1. 查看 合成列的列表。
    2. 可选: 查看 相关性高级选项
    3. 请单击取消
  6. 双击 导出 节点以查看设置。

    1. 可选: 缺省情况下,导出的数据存储在项目中。 单击 更改路径 以将导出的数据存储在连接中,例如 Db2 Warehouse。
    2. 请单击取消
  7. 单击项目名称以返回到 资产 选项卡。

    项目面包屑

  8. 单击 bank_customers.csv 以查看生成的合成表格数据的预览。

检查点图标 检查您的进度

下图显示了导出的,生成的合成表格数据集。

下图显示了导出的,生成的合成表格数据集。



后续步骤

请尝试以下其他教程,以获取有关 watsonx.ai: 的更多实践体验

其他资源

父主题: 快速入门教程