重要说明:

IBM Cloud Pak® for Data 4.8 版本将于 2025 年 7 月 31 日结束支持(EOS)。 欲了解更多信息,请参阅 IBM Cloud Pak for Data 版本 4.X 的停止服务公告
在 版本支持结束之前,升级到 版本。 IBM Cloud Pak for Data 4.8 IBM Software Hub 5.1 有关更多信息,请参阅从 IBM Cloud Pak for Data 版本 4.8 升级到 IBM Software Hub 版本 5.1

快速入门:优化数据

您可以通过快速将大量原始数据转换为可供分析的高质量可用信息,从而节省数据准备时间。 阅读 Data Refinery 工具,然后观看视频并学习适合初学者且不需要编码的教程。

服务 缺省情况下,Data Refinery 服务不可用。 管理员必须在 IBM Cloud Pak for Data 平台上安装 Watson Studio 服务或 IBM Knowledge Catalog 服务。 要确定是否已安装此服务,请打开“服务”目录,并检查是否已启用 Data Refinery 服务。

必需服务
Watson Studio 或 IBM Knowledge Catalog

基本工作流程包含以下任务:

  1. 创建项目。 项目是您与其他人协作处理数据的地方。
  2. 将您的数据添加到项目中。 您可以通过连接从远程数据源添加 CSV 文件或数据。
  3. 打开 Data Refinery 中的数据。
  4. 执行通过一系列操作来优化数据的步骤。
  5. 创建并运行作业以变换数据。

阅读有关 Data Refinery 的内容

使用 Data Refinery 可以通过图形流程编辑器来清理和修整表格数据。 此外,还可以使用交互式模板来编码操作、函数和逻辑运算符。 清理数据时,可修复或移除不正确、不完整、格式错误或者重复的数据。 定制数据时,可通过过滤、排序、组合或移除列以及执行操作对其进行定制。

创建 Data Refinery 流作为数据的有序操作集。 Data Refinery 包含一个图形界面,可用于对数据进行概要分析,并对数据以及超过 20 个可定制的图表进行验证,这些可定制图表有助于您了解数据。 保存优化后的数据集时,您通常将其装入到与其读取位置不同的位置。 这样,源数据就不会受优化过程所影响。

阅读有关优化数据的更多信息

观看有关优化数据的视频

观看视频 观看本视频,了解如何完善数据。

此视频提供了一种可视方法来学习本文档中的概念和任务。


尝试利用教程优化数据

在本教程中,您将完成以下任务:

完成本教程大约需要 30 分钟。




完成本教程的提示

以下是成功完成本教程的一些提示。

在社区中获取帮助

如果您需要本教程的帮助,可以在 Cloud Pak for Data 社区讨论区提问或寻找答案。

设置浏览器窗口

为了获得完成本教程的最佳体验,请在一个浏览器窗口中打开 Cloud Pak for Data ,并在另一个浏览器窗口中保持本教程页面处于打开状态,以便在两个应用程序之间轻松切换。 请考虑并排排列两个浏览器窗口,以便更轻松地遵循本教程。

并排教程和 UI

提示: 如果在用户界面中完成本教程时迂到引导式教程,请单击 稍后可能



任务 1: 打开项目

您需要一个项目来存储数据和 Data Refinery 流程。 您可以使用现有项目或创建项目。

  1. 从导航菜单 导航菜单 中,选择项目 > 所有项目

  2. 打开现有项目。 如果要使用新项目:

    1. 单击新建项目

    2. 选择创建空项目

    3. 输入项目的名称和可选描述。

    4. 单击创建

检查点图标 检查您的进度

下图显示了一个新的空项目。

下图显示了一个新的空项目。

要获取更多信息或观看视频,请参阅创建项目




任务 2: 在 Data Refinery 中打开数据集

遵循以下步骤将数据资产添加到项目并创建 Data Refinery 流。

  1. 下载 airline-data.csv 文件 (1.5 MB)

  2. 从项目中单击上传资产到项目图标 上载图标

  3. 在打开的 " 装入 " 面板中,浏览以选择 airline-data.csv 文件,然后单击 打开。 请停留在该页面,直至装入完成为止。

  4. 资产 选项卡上,单击 airline-data.csv 数据资产以预览其内容。

  5. 单击 准备数据 以在 Data Refinery中打开文件样本,然后等待 Data Refinery 读取并处理数据样本。

  6. 关闭 " 信息 " 和 " 步骤 " 面板。

检查点图标 检查您的进度

下图显示了在 Data Refinery中打开的航空公司数据资产。

下图显示了在 Data Refinery中打开的航空公司数据资产。




任务 3: 使用 "概要文件" 和 "可视化" 查看数据

资产的内容将根据这些列中的值自动进行概要分析和分类。 执行以下步骤以使用 "概要文件" 和 "可视化" 选项卡来浏览数据。

提示: 使用 "概要文件" 和 "可视化" 页面在优化数据时查看数据中的更改。
  1. 单击概要文件选项卡查看数据的频率分布,以便您查找离群值。

    1. 滚动各列以查看各列的统计信息。 统计信息显示每个列中的四分位距,最小值,最大值,中位数和标准差。

    2. 将鼠标悬停在条形上可查看其他详细信息。

    下图显示了 "配置文件 "选项卡:
    概要文件选项卡

  2. 单击直观显示选项卡。

    1. 选择要可视化的 UniqueCarrier 列。 建议使用的图表在其图标旁边会有一个蓝点。

    2. 单击 饼图 。 使用图表中提供的不同透视图标识数据中的模式、连接和关系。

检查点图标 检查您的进度

下图显示了 "可视化" 选项卡。 现在,您已准备好优化数据。

"可视化" 选项卡




任务 4: 优化数据

Data Refinery 操作

Data Refinery 可使用两种操作优化数据,即 GUI 操作编码操作。 您将在本教程中使用这两种类型的操作。

  • GUI 操作由多个步骤组成。 从 新建步骤中选择操作。 每列的溢出菜单 (溢出菜单) 也提供了图形用户界面操作的子集。

    在 Data Refinery 中打开文件时,转换列类型操作会作为第一步自动应用,以将任何非字符串数据类型转换为推断的数据类型(例如,转换为整数、日期、布尔值等)。 您可以撤销或编辑此步骤。

  • 编码操作是用于对操作、函数和逻辑运算符进行编码的交互式模板。 大多数操作都提供交互式帮助。 单击命令行文本框中的操作名称可查看编码操作及其语法选项。

优化数据是构建 Data Refinery 流的一系列步骤。 完成此任务时,请查看 " 步骤 " 面板以了解进度。 可以选择要删除或编辑的步骤。 如果您犯了错误,也可以点击撤消图标 “撤销”图标。 遵循以下步骤来优化数据:

  1. 返回至数据选项卡。

  2. 选择列。 单击溢出菜单 (溢出菜单) 并选择降序排序

  3. 单击 步骤 以在 " 步骤 " 面板中查看新步骤。

  4. 关注特定航空公司的延迟情况。 本教程使用的是联合航空公司 (UA),您可以选用任何航空公司。

    1. 单击 新建步骤,然后选择 GUI 操作 过滤器

    2. 选择唯一客运航空公司列。

    3. 对于运算符,选择等于

    4. 对于,输入要查看延迟信息的航空公司的字符串。 例如, UA
      过滤操作

    5. 单击应用。 滚动到 UniqueCarrier 列以查看结果。

  5. 新建一个将抵达延迟时间和起飞延迟时间相加的列。

    1. 选择 DepDelay 列。

    2. 请注意,要将值为数字的所有列中的“字符串”数据类型转换为“整数”数据类型,转换列类型操作将自动用作第一步。

    3. 单击 新建步骤,然后选择 GUI 操作 计算

    4. 对于运算符,选择加号

    5. 选择 ,然后选择 ArrDelay 列。

    6. 选择新建结果列

    7. 新列名中 ,键入 TotalDelay
      计算操作

    8. 您可以将新列放置在列列表的末尾或原始列旁边。 在本例中,选择 下一步到原始列

    9. 单击应用。 添加了新列 TotalDelay

  6. 将新的 TotalDelay 列移至数据集的开头:

    1. 在命令行文本框中,选择 select 操作。

    2. 单击单词 select,然后选择 select(`<column>`, everything())

    3. 单击 `<column>`,然后选择 TotalDelay 列。 完成后,命令应该如下所示:

      select(`TotalDelay`, everything())
      
    4. 单击应用TotalDelay 列现已位于第一列。

  7. 将数据减少至四列:YearMonthDayofMonthTotalDelay。 使用 group_by 编码操作将列分为年组、月组和日组。

    1. 在命令行文本框中,选择 group_by 操作。

    2. 单击 <column>,然后选择 Year 列。

    3. 在右括号之前,输入:,Month,DayofMonth。 完成后,命令应该如下所示:

      group_by(`Year`,Month,DayofMonth)
      
    4. 单击应用

    5. select 编码操作用于 TotalDelay 列。 在命令行文本框中,选择 select 操作。
      单击 <column>,然后选择 TotalDelay 列。 命令应该如下所示:

      select(`TotalDelay`)
      
    6. 单击应用。 现在,定制的数据由 YearMonthDayofMonthTotalDelay 列组成。

      下面的屏幕图像显示了前四行数据。
      Data Refinery 流程的前四行包括年、月、 DayofMonth, 和 TotalDelay 列

  8. 显示 TotalDelay 列值的平均值,并创建新的 AverageDelay 列:

    1. 单击 新建步骤,然后选择 GUI 操作 聚集

    2. 对于 ,选择 TotalDelay

    3. 对于 运算符,选择 平均值

    4. 对于汇总列的名称 ,请键入 AverageDelay
      聚集操作

    5. 单击应用

      新列 AverageDelay 是所有延迟时间的平均值。

检查点图标 检查您的进度

下图显示了数据的前四行。

以下屏幕图像显示数据的前四行。




任务 5: 运行 Data Refinery 流程的作业

运行 Data Refinery 流的作业时,将对整个数据集运行这些步骤。 选择运行时并添加一次性或重复调度。 Data Refinery 流的输出将添加到项目中的数据资产。 执行以下步骤以运行作业来创建优化数据集。

  1. 从 Data Refinery 工具栏单击作业图标,然后选择保存并创建作业
    保存并创建作业

  2. 输入作业的名称和描述,然后单击下一步

  3. 选择运行时环境,然后单击下一步

  4. (可选)单击切换按钮以安排运行。 指定日期、时间以及是否希望重复运行作业,然后单击下一步

  5. (可选)打开此作业的通知,然后单击下一步

  6. 查看详细信息,然后单击 " 创建并运行 "立即运行作业。
    创建作业

  7. 创建作业时,单击通知中的 作业详细信息 链接以查看项目中的作业。 或者,您可以浏览至项目中的作业选项卡,然后单击要打开的作业名称。

  8. 当作业的 状态已完成时,请使用项目导航跟踪以返回到项目中的 资产 选项卡。

  9. 单击 数据> 数据资产 部分以查看 Data Refinery 流 airline-data_shaped.csv的输出。

  10. 单击 流> Data Refinery 流 部分以查看 Data Refinery 流 airline-data.csv_flow

检查点图标 检查您的进度

下图显示了带有 Data Refinery 流程和形状的资产的 "资产" 选项卡。

下图显示了带有 Data Refinery 流程和形状资产的 "资产" 选项卡。




任务 6: 从 Data Refinery 流程创建另一个数据资产

执行以下步骤以通过编辑 Data Refinery 流来进一步优化数据集:

  1. 单击 airline-data.csv_flow 以在 Data Refinery中打开流。

  2. 按降序对 AverageDelay 列进行排序。

    1. 选择 AverageDelay 列。

    2. 单击列溢出菜单 (溢出菜单),然后选择降序排序

  3. 单击流量设置图标 流设置图标

  4. 单击 目标数据集 面板。

  5. 单击 编辑属性

    1. 格式化目标属性对话框中,将数据资产名称更改为 airline-data_sorted_shaped.csv
      已更改输出文件名

    2. 单击 保存 以返回到流设置。

  6. 单击 应用 以保存设置。

  7. 从 Data Refinery 工具栏中,单击作业图标并选择保存和查看作业
    保存并查看作业

  8. 选择航空公司数据的作业,然后单击查看

  9. 任务窗口工具栏中,单击运行任务图标。
    "运行作业" 图标

检查点图标 检查您的进度

下图显示了已完成的作业详细信息。

下图显示了已完成的作业详细信息。




任务 7: 查看项目中的数据资产和 Data Refinery 流程

现在遵循以下步骤来查看三个数据资产,即原始数据集,第一个优化数据集和第二个优化数据集:

  1. 当作业完成时,转至项目页面。

  2. 单击“资产”选项卡

  3. 数据资产部分中,您将看到上载的原始数据集和两个 Data Refinery 流的输出。

    • airline-data_sorted_shaped.csv
    • airline-data_csv_shaped
    • airline-data.csv
  4. 单击 航空公司-data_csv_形状 数据资产以查看未排序的平均延迟。 返回到 资产 选项卡。

  5. 单击 airline-data_sorted_shaped.csv 数据资产可查看按降序排序的延误时间均值。 返回到 资产 选项卡。

  6. 单击 流> Data Refinery 流 部分将显示 Data Refinery 流: airline-data.csv_flow

检查点图标 检查您的进度

下图显示了 "资产" 选项卡,其中显示了所有资产。

下图显示了 "资产" 选项卡,其中显示了所有资产。



后续步骤

现在数据已准备就绪,可供使用。 例如,您或其他用户可以执行以下任何任务:

其他资源

父主题: 快速入门教程