IBM Cloud Pak® for Data 4.8 版本将于 2025 年 7 月 31 日结束支持(EOS)。 欲了解更多信息,请参阅 IBM Cloud Pak for Data 版本 4.X 的停止服务公告。
在 版本支持结束之前,升级到 版本。 IBM Cloud Pak for Data 4.8 IBM Software Hub 5.1 有关更多信息,请参阅从 IBM Cloud Pak for Data 版本 4.8 升级到 IBM Software Hub 版本 5.1。
快速入门:优化数据
您可以通过快速将大量原始数据转换为可供分析的高质量可用信息,从而节省数据准备时间。 阅读 Data Refinery 工具,然后观看视频并学习适合初学者且不需要编码的教程。
服务 缺省情况下,Data Refinery 服务不可用。 管理员必须在 IBM Cloud Pak for Data 平台上安装 Watson Studio 服务或 IBM Knowledge Catalog 服务。 要确定是否已安装此服务,请打开“服务”目录,并检查是否已启用 Data Refinery 服务。
- 必需服务
- Watson Studio 或 IBM Knowledge Catalog
基本工作流程包含以下任务:
- 创建项目。 项目是您与其他人协作处理数据的地方。
- 将您的数据添加到项目中。 您可以通过连接从远程数据源添加 CSV 文件或数据。
- 打开 Data Refinery 中的数据。
- 执行通过一系列操作来优化数据的步骤。
- 创建并运行作业以变换数据。
阅读有关 Data Refinery 的内容
使用 Data Refinery 可以通过图形流程编辑器来清理和修整表格数据。 此外,还可以使用交互式模板来编码操作、函数和逻辑运算符。 清理数据时,可修复或移除不正确、不完整、格式错误或者重复的数据。 定制数据时,可通过过滤、排序、组合或移除列以及执行操作对其进行定制。
创建 Data Refinery 流作为数据的有序操作集。 Data Refinery 包含一个图形界面,可用于对数据进行概要分析,并对数据以及超过 20 个可定制的图表进行验证,这些可定制图表有助于您了解数据。 保存优化后的数据集时,您通常将其装入到与其读取位置不同的位置。 这样,源数据就不会受优化过程所影响。
观看有关优化数据的视频
观看本视频,了解如何完善数据。
此视频提供了一种可视方法来学习本文档中的概念和任务。
尝试利用教程优化数据
在本教程中,您将完成以下任务:
- 任务 1: 打开项目。
- 任务 2: 在 Data Refinery中打开数据集。
- 任务 3: 使用 "概要文件" 和 "可视化" 查看数据。
- 任务 4: 优化数据。
- 任务 5: 运行 Data Refinery 流程的作业。
- 任务 6: 从 Data Refinery 流程创建另一个数据资产。
- 任务 7: 查看数据资产以及项目中的 Data Refinery 流。
完成本教程大约需要 30 分钟。
完成本教程的提示
以下是成功完成本教程的一些提示。
在社区中获取帮助
如果您需要本教程的帮助,可以在 Cloud Pak for Data 社区讨论区提问或寻找答案。
设置浏览器窗口
为了获得完成本教程的最佳体验,请在一个浏览器窗口中打开 Cloud Pak for Data ,并在另一个浏览器窗口中保持本教程页面处于打开状态,以便在两个应用程序之间轻松切换。 请考虑并排排列两个浏览器窗口,以便更轻松地遵循本教程。

任务 1: 打开项目
您需要一个项目来存储数据和 Data Refinery 流程。 您可以使用现有项目或创建项目。
从导航菜单
中,选择项目 > 所有项目。
打开现有项目。 如果要使用新项目:
单击新建项目。
选择创建空项目。
输入项目的名称和可选描述。
单击创建。
检查您的进度
下图显示了一个新的空项目。

要获取更多信息或观看视频,请参阅创建项目。
任务 2: 在 Data Refinery 中打开数据集
遵循以下步骤将数据资产添加到项目并创建 Data Refinery 流。
从项目中单击上传资产到项目图标
。在打开的 " 装入 " 面板中,浏览以选择
airline-data.csv文件,然后单击 打开。 请停留在该页面,直至装入完成为止。在 资产 选项卡上,单击 airline-data.csv 数据资产以预览其内容。
单击 准备数据 以在 Data Refinery中打开文件样本,然后等待 Data Refinery 读取并处理数据样本。
关闭 " 信息 " 和 " 步骤 " 面板。
检查您的进度
下图显示了在 Data Refinery中打开的航空公司数据资产。

任务 3: 使用 "概要文件" 和 "可视化" 查看数据
资产的内容将根据这些列中的值自动进行概要分析和分类。 执行以下步骤以使用 "概要文件" 和 "可视化" 选项卡来浏览数据。
单击概要文件选项卡查看数据的频率分布,以便您查找离群值。
滚动各列以查看各列的统计信息。 统计信息显示每个列中的四分位距,最小值,最大值,中位数和标准差。
将鼠标悬停在条形上可查看其他详细信息。
下图显示了 "配置文件 "选项卡:

单击直观显示选项卡。
选择要可视化的 UniqueCarrier 列。 建议使用的图表在其图标旁边会有一个蓝点。
单击 饼图 。 使用图表中提供的不同透视图标识数据中的模式、连接和关系。
检查您的进度
下图显示了 "可视化" 选项卡。 现在,您已准备好优化数据。

任务 4: 优化数据
Data Refinery 操作
Data Refinery 可使用两种操作优化数据,即 GUI 操作和编码操作。 您将在本教程中使用这两种类型的操作。
GUI 操作由多个步骤组成。 从 新建步骤中选择操作。 每列的溢出菜单 (
) 也提供了图形用户界面操作的子集。
在 Data Refinery 中打开文件时,转换列类型操作会作为第一步自动应用,以将任何非字符串数据类型转换为推断的数据类型(例如,转换为整数、日期、布尔值等)。 您可以撤销或编辑此步骤。
编码操作是用于对操作、函数和逻辑运算符进行编码的交互式模板。 大多数操作都提供交互式帮助。 单击命令行文本框中的操作名称可查看编码操作及其语法选项。
优化数据是构建 Data Refinery 流的一系列步骤。 完成此任务时,请查看 " 步骤 " 面板以了解进度。 可以选择要删除或编辑的步骤。 如果您犯了错误,也可以点击撤消图标
。 遵循以下步骤来优化数据:
返回至数据选项卡。
选择年列。 单击溢出菜单 (
) 并选择降序排序。
单击 步骤 以在 " 步骤 " 面板中查看新步骤。
关注特定航空公司的延迟情况。 本教程使用的是联合航空公司 (UA),您可以选用任何航空公司。
单击 新建步骤,然后选择 GUI 操作 过滤器。
选择唯一客运航空公司列。
对于运算符,选择等于。
对于值,输入要查看延迟信息的航空公司的字符串。 例如,
UA。

单击应用。 滚动到 UniqueCarrier 列以查看结果。
新建一个将抵达延迟时间和起飞延迟时间相加的列。
选择 DepDelay 列。
请注意,要将值为数字的所有列中的“字符串”数据类型转换为“整数”数据类型,转换列类型操作将自动用作第一步。
单击 新建步骤,然后选择 GUI 操作 计算。
对于运算符,选择加号。
选择 列,然后选择 ArrDelay 列。
选择新建结果列。
在新列名中 ,键入
TotalDelay。

您可以将新列放置在列列表的末尾或原始列旁边。 在本例中,选择 下一步到原始列。
单击应用。 添加了新列 TotalDelay。
将新的 TotalDelay 列移至数据集的开头:
在命令行文本框中,选择 select 操作。
单击单词 select,然后选择 select(`
<column>`, everything())。单击
`<column>`,然后选择 TotalDelay 列。 完成后,命令应该如下所示:select(`TotalDelay`, everything())单击应用。 TotalDelay 列现已位于第一列。
将数据减少至四列:Year、Month、DayofMonth 和 TotalDelay。 使用 group_by 编码操作将列分为年组、月组和日组。
在命令行文本框中,选择 group_by 操作。
单击
<column>,然后选择 Year 列。在右括号之前,输入:
,Month,DayofMonth。 完成后,命令应该如下所示:group_by(`Year`,Month,DayofMonth)单击应用。
将 select 编码操作用于 TotalDelay 列。 在命令行文本框中,选择 select 操作。
单击<column>,然后选择 TotalDelay 列。 命令应该如下所示:select(`TotalDelay`)单击应用。 现在,定制的数据由 Year、Month、DayofMonth 和 TotalDelay 列组成。
下面的屏幕图像显示了前四行数据。

显示 TotalDelay 列值的平均值,并创建新的 AverageDelay 列:
单击 新建步骤,然后选择 GUI 操作 聚集。
对于 列,选择 TotalDelay。
对于 运算符,选择 平均值。
对于汇总列的名称 ,请键入
AverageDelay。

单击应用。
新列 AverageDelay 是所有延迟时间的平均值。
检查您的进度
下图显示了数据的前四行。

任务 5: 运行 Data Refinery 流程的作业
运行 Data Refinery 流的作业时,将对整个数据集运行这些步骤。 选择运行时并添加一次性或重复调度。 Data Refinery 流的输出将添加到项目中的数据资产。 执行以下步骤以运行作业来创建优化数据集。
从 Data Refinery 工具栏单击作业图标,然后选择保存并创建作业。

输入作业的名称和描述,然后单击下一步。
选择运行时环境,然后单击下一步。
(可选)单击切换按钮以安排运行。 指定日期、时间以及是否希望重复运行作业,然后单击下一步。
(可选)打开此作业的通知,然后单击下一步。
查看详细信息,然后单击 " 创建并运行 "立即运行作业。

创建作业时,单击通知中的 作业详细信息 链接以查看项目中的作业。 或者,您可以浏览至项目中的作业选项卡,然后单击要打开的作业名称。
当作业的 状态 为 已完成时,请使用项目导航跟踪以返回到项目中的 资产 选项卡。
单击 数据> 数据资产 部分以查看 Data Refinery 流 airline-data_shaped.csv的输出。
单击 流> Data Refinery 流 部分以查看 Data Refinery 流 airline-data.csv_flow。
检查您的进度
下图显示了带有 Data Refinery 流程和形状的资产的 "资产" 选项卡。

任务 6: 从 Data Refinery 流程创建另一个数据资产
执行以下步骤以通过编辑 Data Refinery 流来进一步优化数据集:
单击 airline-data.csv_flow 以在 Data Refinery中打开流。
按降序对 AverageDelay 列进行排序。
选择 AverageDelay 列。
单击列溢出菜单 (
),然后选择降序排序。
单击流量设置图标
。单击 目标数据集 面板。
单击 编辑属性。
在格式化目标属性对话框中,将数据资产名称更改为
airline-data_sorted_shaped.csv。

单击 保存 以返回到流设置。
单击 应用 以保存设置。
从 Data Refinery 工具栏中,单击作业图标并选择保存和查看作业。

选择航空公司数据的作业,然后单击查看。
从任务窗口工具栏中,单击运行任务图标。

检查您的进度
下图显示了已完成的作业详细信息。

任务 7: 查看项目中的数据资产和 Data Refinery 流程
现在遵循以下步骤来查看三个数据资产,即原始数据集,第一个优化数据集和第二个优化数据集:
当作业完成时,转至项目页面。
单击“资产”选项卡。
在数据资产部分中,您将看到上载的原始数据集和两个 Data Refinery 流的输出。
airline-data_sorted_shaped.csvairline-data_csv_shapedairline-data.csv
单击 航空公司-data_csv_形状 数据资产以查看未排序的平均延迟。 返回到 资产 选项卡。
单击 airline-data_sorted_shaped.csv 数据资产可查看按降序排序的延误时间均值。 返回到 资产 选项卡。
单击 流> Data Refinery 流 部分将显示 Data Refinery 流:
airline-data.csv_flow。
检查您的进度
下图显示了 "资产" 选项卡,其中显示了所有资产。

后续步骤
现在数据已准备就绪,可供使用。 例如,您或其他用户可以执行以下任何任务:
其他资源
观看更多视频。
请试试 Data Refinery 的附加教程: 收集、清理和增强您的数据
。
父主题: 快速入门教程