内容


利用 Data Refinery 实现数据可视化

使用 IBM Cloud Pak for Data 上的 Data Refinery 来过滤和清理数据并使之可视化

Comments

本教程纳入 IBM Cloud Pak for Data 快速入门学习路径

Data Refinery 属于 IBM Watson 的一部分,它随附有 IBM Watson Studio(位于 IBM Public Cloud 上)和 IBM Watson Knowledge Catalog(使用 IBM Cloud Pak for Data 在内部部署中运行)。它属于自助式数据准备客户端,可供数据科学家、数据工程师和业务分析人员使用。您可以使用它将大量原始数据快速转换为可使用的高质量信息,为分析做好准备。对于整个组织内的人员均可信任的数据,Data Refinery 简化了这些数据的浏览、准备和交付工作。

学习目标

完成本教程后,用户将掌握:

  • 如何将数据加载到 IBM Cloud Pak for Data 平台以配合 Data Refinery 一起使用。
  • 如何通过在命令行中输入 R 代码或者从菜单中选择操作来转换样本数据集。
  • 如何使用“数据流”步骤跟踪工作进展。
  • 如何利用图表和图形实现数据可视化。

前提条件

预估时间

完成本教程大约需要 45 分钟。

步骤

第 1 步:将 billing.csv 数据加载到 Data Refinery 中

点击附件下载 billing.csv 文件。

Project 主页上单击 Data sets+Add Data Set,然后选中 billing.csv 文件。

添加 billing.csv 数据
添加 billing.csv 数据

单击新添加的 billing.csv 文件。

这样即可启动 Data Refinery 并打开数据,如下图所示:

BILLING 表的 Data Refinery 视图
BILLING 表的 Data Refinery 视图

第 2 步:提炼数据

我们将从 Data 选项卡开始操作。

在命令行中输入 R 代码或者从菜单中选择操作来转换样本数据集。例如,在命令行上输入 filter,这样会观察到自动完成功能将提供有关命令语法及使用方式的提示:

命令行过滤器
命令行过滤器

或者,将鼠标悬停在操作或函数名上,查看完成命令的描述和详细信息。准备就绪后,单击 Apply 对数据集应用操作。

单击 +Operation 按钮:

选择 Operation 按钮
选择 Operation 按钮

首先,我们注意到 TotalCharges 是一个字符串。但是,由于它代表一个十进制数字,因此我们将这些值转换为十进制。选择操作 Convert Column Type

选择 Convert Column Type
选择 Convert Column Type

单击 + Select column,然后选择 Column -> TotalCharges and Type -> Decimal,选择 dr-convert-string-to-decimal.png 点击 Apply:

转换为十进制
转换为十进制

我们想要确保没有空值,然而 totalcharge 列刚好有一些空值,所以我们需要修复它。点击 filter 并且从下拉框中选择 TotalCharges 列,将 Operator Is 设置为 empty,点击 Apply

过滤器为空
过滤器为空

可以看到,这里只有 3 行 TotalCharges 为空值的数据:

过滤器为空的结果
过滤器为空的结果

直接将这些行从数据集中删除即可。

首先删除你刚添加的过滤条件。您可以从单击页面顶部的撤消箭头的“Steps”部分删除它。

接下来选择 Remove empty rows 操作,选择 TotalCharges 行并单击 Apply

Remove empty rows
Remove empty rows

最后,我们可以移除 CustomerID 列,因为它对于稍后的机器学习模型训练没有用。选择 Remove 操作,然后选择 Change column selection。 在 Select a column 选择 CustomerID 然后点击 next 并选择 Apply

移除 CustomerID 列
移除 CustomerID 列

第 3 步:使用“数据流”步骤跟踪工作进展

如果我们执行了错误的操作该怎么办?我们可以使用圆形箭头来撤销(或重做)操作:

撤销最近的操作
撤销最近的操作

提炼数据时,IBM Data Refinery 会跟踪数据流中的步骤。您可以修改这些步骤,甚至可以选中某个步骤以返回到数据转换过程中的某一特定时刻。

要查看数据流中已执行的步骤,可单击 Steps 按钮。这样将显示您已对数据执行的操作:

数据流步骤
数据流步骤

您可实时修改这些步骤,并保存以供将来使用。

第 4 步:执行数据概要分析

单击 Profile 选项卡将显示有关数据的多个直方图概览。

Data Refinery Profile 选项卡
Data Refinery Profile 选项卡

您可通过直方图来深入洞察数据:

  • 按月签约的客户数量是签订 2 年期或 1 年期合同的客户数量的两倍。
  • 越来越多的客户选择无纸化记账,但仍约有 40% 的客户选择通过邮寄方式接收账单。
  • 您可以查看 MonthlyChargesTotalCharges 的分布情况。
  • 在 Churn 列中,可看到大量客户将取消其服务。

第 5 步:利用图表和图形实现数据可视化

选择 Visualizations 选项卡会显示一个选项,通过该选项可选择要可视化的列。单击下方图像显示 Click hereColumns to Visualize 的空白处,选择 TotalCharges,然后在准备就绪后单击 Visualize data

可视化 TotalCharges 列
可视化 TotalCharges 列

默认情况下,先会看到以直方图形式显示的数据。您可以选择其他图表类型。接下来,我们将单击 Scatter plot 来选取散点图:

可视化 TotalCharges 直方图
可视化 TotalCharges 直方图

在散点图中,为 X 轴选择 TotalCharges,为 Y 轴选择 MonthlyCharges,并为 Color map 选择 Churn

设置 X 轴、Y 轴和 Color map
设置 X 轴、Y 轴和 Color map

向下滚动,为散点图提供一个标题,如果需要,还可以提供子标题。单击 Actions 下的齿轮图标,执行 Start overDownload chart detailsDownload chart imageGlobal visualization preferences 等任务:

可视化设置标题和选择首选项
可视化设置标题和选择首选项

可以看到,在 Global visualization preferences 中,可以对 TitlesToolsColor schemesNotifications 执行各种操作。让我们把 Color scheme 设置为 Vivid

可视化设置 vivid
可视化设置 vivid

现在,所有图表的颜色都将体现此效果:

可视化显示的 vivid 效果
可视化显示的 vivid 效果

结束语

本教程为您展示了 IBM Cloud Pak for Data 上的 IBM Data Refinery 的一小部分功能。同时还说明了如何通过命令行使用 R 代码来转换数据,对列执行各种操作,例如,更改数据类型、移除空行或删除整列等。接下来,本教程还说明了数据流中的所有步骤均记录在案,因此您可以移除步骤、重复步骤或者编辑单个步骤。本教程还展示了如何快速执行数据概要分析,查看直方图和每列的统计信息。最后,本教程说明了如何创建更深入的可视化效果,并创建散点图映射(TotalCharges 对比 MonthlyCharges),以及通过颜色来突出显示客户流失率结果。

本教程纳入 IBM Cloud Pak for Data 快速入门学习路径。要继续学习本系列并了解有关 IBM Cloud Pak for Data 的更多信息,可阅读下一个 Pattern 借助含 Notebook 的 Watson Machine Learning 进行数据分析、建模以及部署

本文翻译自:Data visualization with data refinery(2019-11-25)。


下载资源


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=10
Zone=Big data and analytics
ArticleID=1067320
ArticleTitle=利用 Data Refinery 实现数据可视化
publish-date=11272019