IBM SPSS Visualization Designer 简介
在数据挖掘的步骤中有一个重要的环节,就是需要把数据挖掘的结果展现给用户,让用户更加清晰的理解挖掘结果的意义。这就是数据可视化重点研究的领域和课题。
在 IBM SPSS 产品线中都有数据可视化的需求,包括 Modeler,Statistics 等。因此 IBM SPSS Visualization Designer 在 IBM SPSS Statistics 和 IBM SPSS Modeler 中发挥着不可忽视的作用。在预测分析的最后阶段,Visualization Designer 以可视化图形的方式展示给用户一个非常清晰的数据统计以及预测分析的结果,尤其对于普通用户更为友好。
为了进行数据可视化,早期的 SPSS 公司开发了一个数据可视化引擎:SPSS Trinity。在 SPSS 的这些产品中,大部分的数据可视化工作都是通过 Trinity 实现的。这个可视化引擎已经超过了 10 年的开发历史。在 2007 年,SPSS 公司把 Trinity 进行了产品化,推出了 SPSS Visualization Designer 这一可视化工具。它提供了丰富的接口可以用来对各种数据进行可视化操作,包括 CSV 文件,IBM SPSS Statistics data (SAV) 文件以及通用的数据库。
IBM SPSS Visualization Designer 的基本功能介绍
IBM SPSS Visualization Designer 主要提供了以下几个功能:
创建,编辑,重新构造和保存导出可视化图形(Visualization)或者图形模板(template)。下面针对 Visualization Designer 最常用的几个功能做一个简单介绍。
打开开始页面,选择一个合适的数据源。Visualization Designer 较为常用的有两种数据类型, CSV 文件和 SAV(Statistics data files) 文件。SAV 文件是 SPSS Statistics 使用的一种自定义的数据格式文件。具体的文件格式请参阅 IBM SPSS Visualization Designer 帮助文档。
图 1 是 IBM SPSS Visualization Designer 的开始操作的初始界面。可以选择数据文件或者数据库作为数据源来创建可视化图形或者图形模板。
图 1. IBM SPSS Visualization Designer 的初始界面
Visualization Designer 本身提供了许多常用的图形模板。用户可以根据自己的需要在模板选择器(Template Chooser)中选择模板,展现数据的内在含义。
选择数据源后打开模板选择器,在模板选择器的左上方导航菜单中列出了该数据源的所有统计变量,右边区域根据用户选择的统计变量自动列举出适合这些统计变量的图形模板,用户自主地选择一个合适的可视化模板,可参考图 2。
Visualization Designer 支持的可视化类型非常丰富,包括直方图(Bar Chart),饼图(Pie Chart),气泡图(Bubble Plot),散点图(Scatter Plot),箱体图(Box plot),热点图(Heat map),3D 柱状图(3-D Histogram)等等,基本可以满足各种数据类型的要求。
图 2. 模板选择器
选定想要查看的统计变量(这里选择的是 jobcat 和 salary),然后选择你想用的模板(这里选择的是直方图),Visualization Designer 会自动将用户选择的统计变量渲染成一副直方图,用来展示这些被选择的变量之间的关系。如图 3:
图 3. 直方图
Visualization Designer 提供了编辑和浏览两种模式供用户查看可视化图形,用户可以在编辑模式下对可视化图形进行编辑。
Visualization Designer 提供了非常丰富的编辑方式,用户可以根据自己的需要修改可视化图形的各种属性,包括文字的字体,样式;图形的大小,填充色,透明度,边框样式;坐标系的轴线以及坐标刻度;标题,脚注;图形的统计方式等等。用户同样可以通过编辑 GPL 或 Vizml 文件的方式去编辑可视化图形的属性。具体内容可参考 IBM SPSS Visualization Designer 的帮助文档。
图 4 即为 IBM SPSS Visualization Designer 提供的编辑模式:
图 4. IBM SPSS Visualization Designer 的编辑模式
Visualization Designer 提供一种方式帮助用户自定义可视化图形,用户可以通过增加删除统计变量和图形元素来重新构造可视化图形,这个新的可视化图形可以展示更多的数据变量之间的内在关系。
- 增加删除统计变量:
这个例子,我们通过增加性别(gender)这个统计变量将原有可视化图形做了更加细致的分类,针对不同性别的数据使用原有模板进行分类展示。如图 5 所示:
图 5. 增加删除统计变量
- 增加删除图形元素:
用户可以根据自己的需求,在已有的可视化图形上增加一些图形元素,可以增加点(Point),区间(Interval),线(Line),区域(Area),路径(Path),箱体图(Schema),多边形(Polygon)等等。如图 6 所示:
图 6. 增加删除图形元素
Visualization Designer 在浏览模式下为用户提供了多种可交互的方式来查看可视化图形。比如,动态展示可视化图形,多方位旋转展示 3D 可视化图形,查看图形元素的详细提示信息等。图 7 为 IBM SPSS Visualization Designer 动态展示可视化图形的例子:
图 7. 动态展示可视化图形
这里不做更多的介绍,有兴趣的话可以参阅 IBM SPSS Visualization Designer 帮助文档。
Visualization Designer 主要提供四种保存导出的方式:
- 保存一个内部文件,支持 VIZ 和 Vizml(XML)文件格式,Visualization Designer 默认保存的是 VIZ 文件。
- 导出一个外部文件,Visualization Designer 同样提供很多种文件格式,包括 PNG,JPEG 等。
- 保存一个模板,Visualization Designer 允许用户保存一个可视化图形作为模板,从而可以应用于其他图形。如图 8:
图 8. 保存模板
- 保存一个样式表,Visualization Designer 允许用户保存一个定制好的样式表,方便以后使用。如图 9:
图 9. 保存样式表
IBM SPSS Visualization Designer 的实例应用分析 ------ 创建一个新的可视化模板
在 IBM SPSS Visualization Designer 中创建一个 Visualization,最典型的方法便是使用一个原有的可视化模板,根据用户自己的需求进行编辑,生成一个完全符合要求的新可视化图形。
下面通过一个实例来简单的介绍一下 Visualization Designer 的基本使用。这个例子将创建一个这样的统计图形:直方图表示个体 95% 的置信区间,点图表示平均值。这是 Visualization Designer 本身没有的一种可视化类型模板。 在这个例子中,将使用 Employee data.sav 这个数据,它包含了一个公司所有员工的基本信息。
通过如下操作(文件 ----- 新的可视化 ----- 数据文件)打开文件选择窗口选择数据,在数据库中选择 Employee data.sav 这个数据并打开。选择在基本模式下使用,在左边的导航菜单中选择 jobcat 和 salary 这两个统计变量,右边的视图板中选择直方图,然后打开。参考图 10:
图 10. 选择图形模板
- 现在看到的直方图本身已经具有一定的统计意义,但是还需要根据特定的需求来改变这个直方图上所有方块的意义,让它们表示个体的 95% 的置信区间。未改变之前的直方图显示如图 11:
图 11. 改变之前的直方图
- 选择直方图上的方块,这时就会显示属性调色板(Properties Palette)。当然也可以通过设置(视图 ----- 调色板 ----- 属性)来选择是否需要显示属性调色板。在属性调色板中打开元素(Element)这个子页面,作如下选择,见图 12:
图形类型(Type):区间
统计概要(Summary):个体 95% 的置信区间
图 12. 属性调色板 1
这个时候所看到的直方图上的方块已经代表了新的统计意义。改变之后的直方图显示如图 13:
图 13. 改变之后的直方图
- 接下来根据既定的需求,还需要增加一些点来表示平均值。在菜单项中选择(增加 ----- 图形元素 ---- 点)增加散点,增加散点后图形显示如图 14:
图 14. 增加散点后的直方图
被增加的这些点已经具有之前我们设置的统计意义,所以这些点表示每个个体在 95% 置信区间的最大值和最小值。
- 回到属性调色板中的元素子页面,作如下选择,见图 15:
图形类型(Type):点
统计概要(Summary):平均值
图 15. 属性调色板 2
做了以上所有的这些操作之后,现在看到的图形就具有了这样的统计意义:点图表示平均值,直方图表示个体的 95% 的置信区间。
图形显示如图 16:
图 16. 表示个体 95% 的置信区间的直方图
现在的图形已经表示了我们想要的统计意义,但是整个图上方块的颜色比较深,以至于刚刚增加的那些散点看起来不是那么明显。那么我们可以通过 Visualization Designer 提供的其他功能改变一下图形的外观,让整个图形看起来更加美观清晰。
选择图形中的方块,然后在编辑模式下使用工具调色板中的颜色工具,改变一下方块的颜色,并且把方块的不透明度改成 50%。见图 17。
图 17. 工具调色板
这时候直方图中的方块看起来颜色比较淡,而且透明了,从而突出了刚刚增加的那些点,整个图看起来非常的清晰。如图 18。
图 18. 改变外观之后的直方图
到现在为止,我们想要的可视化图形就已经完全实现了。为了方便以后的使用,我们还可以为自己保存一个模板。
通过(文件 ----- 提取模板)打开保存模板的子窗口,输入一个易识别的名字来保存刚刚创建的模板。如图 19。
图 19. 保存可视化模板
现在这个模板已经可以被保存到本地了,下面我们应用刚刚创建的可视化模板来创建一个新的可视化图形吧。
通过如下操作(文件 ----- 新的可视化 ----- 数据文件)打开文件选择窗口选择数据,在数据库中选择 Customer_subset.csv 这个数据并打开。同样在基本模式下,左边的导航菜单中选择 edcat 和 income,右边的视图模板中选择刚刚创建的图形模板,然后打开。见图 20。
图 20. 应用新模板
应用新模板打开之后的图形显示如图 21:
图 21. 应用新模板之后的图形
看来新模板已经完全可以使用了。我们想把刚刚应用新模板创建的可视化图形保存下来,并且随时随地都可以打开使用。但是通过 Visualization Designer 保存出来的文件格式只能用 IBM SPSS Visualization Designer 或者 IBM SPSS 其他产品打开,别的机器上可能并没有安装这些产品,这时候我们可以使用 IBM SPSS Visualization Designer 提供的另外一个功能“导出可视化图形”,将可视化图形以别的格式保存出来,让我们可以随时随地使用其他的工具来浏览这些可视化图形。
通过(文件 ----- 导出)打开保存窗口,选择一个本地化路径,输入文件名,这时 Visualization Designer 会自动帮你选择一种合适的文件格式,自动加载文件扩展名,比如,PNG,JPEG 和 EMF 等。你只需点击保存按钮,一切就大功告成了。
IBM SPSS Visualization Designer 在数据可视化图形方面的功能非常之强大,包括了几十种可视化图形类型,基本可以满足各种数据类型的统计要求。这里我们介绍的只是其中的一种图形的简单应用,希望读者阅读完此文之后能够对 IBM SPSS Visualization Designer 有一个初步的了解。对于使用 IBM SPSS Statistics 和 IBM SPSS Modeler 的用户,熟悉了 Visualization Designer 之后,使用 IBM SPSS Statistics 和 IBM SPSS Modeler 也会更加得心应手。
学习
-
“数据挖掘产品 IBM SPSS Modeler 新手使用入门”(developerWorks 中国,2011 年 3 月)介绍了 IBM SPSS Modeler 的使用入门。
- 随时关注 developerWorks 技术活动 和 网络广播,了解各种 IBM 产品和 IT 行业话题。
- 观看 developerWorks 演示中心,包括面向初学者的产品安装和设置演示,以及为经验丰富的开发人员提供的高级功能。
获得产品和技术
- 下载
IBM SPSS Visualization Designer,体验其强大的图形可视化功能。
-
以最适合您的方式 IBM 产品评估试用版软件:下载产品试用版,在线试用产品,在云环境下试用产品,或者在 IBM SOA 人员沙箱 中花费几个小时来学习如何高效实现面向服务架构。
讨论
- 参与论坛讨论。
- 加入 developerWorks 中文社区。查看开发人员推动的博客、论坛、组和 wikis,并与其他 developerWorks 用户交流。