通用图形节点功能

数据挖掘过程的多个阶段都会使用图形和图表探索导入到 IBM® SPSS® Modeler 中的数据。例如,可将“散点图”或“分布”节点连接到数据源,以了解数据类型和数据分布。然后可以执行记录和字段操作,以准备下游建模操作的数据。图形的另一个常见用途是检查新导出字段的分布和它们之间的关系。

“图形”选项板含有以下节点:

“图形板”节点在单个节点中提供许多不同类型的图形。使用此节点,可以选择要探索的数据字段,然后从适用于选定数据的字段中选择 一个图形。此节点自动过滤掉所有不适用于字段选项的图形类型。
散点图节点可显示数字字段间的关系。可通过使用点(散点)或线创建散点图。
“分布”节点显示符号(分类)值(例如抵押类型或性别)的出现次数。通常,您可以使用“分布”节点来显示数据中的不平衡,然后可以在创建模型前使用“均衡”节点来纠正此类不均衡。
“直方图”节点显示数字字段的值的出现次数。此节点经常用来在进行数据操作和模型构建前探索数据。与“分布”节点相似,“直方图”节点经常用来揭示数据中的不平衡。
“收集”节点显示一个数字字段的值相对于另一个数字字段的值的分布。(它创建类似于直方图的图形。)图示说明值不断变化的变量或字段时,它 是有用的。使用 3-D 图形表示时,还可以包括一个按类别显示分布的符号轴。
“多重散点图”节点创建在单个 X 字段上显示多个 Y 字段的散点图。Y 字段被绘制为彩色的线;每条线相当于“样式”设置为线且“X 模式”设置为排序的散点图节点。在探索多个变量随时间推移的变化情况时,多重散点图非常有用。
Web 节点说明两个或两个以上符号(分类)字段的值之间的关系强度。此图使用不同粗细的线条来表示连接强度。例如,您可以使用 Web 节点来探索电子商务网站上一组商品的购买之间的关系。
“时间散点图”节点显示一组或多组时间序列数据。通常情况下,您首先要使用“时间区间”节点创建一个 TimeLabel 字段,该字段用于为 x 轴设置标签。
“评估”节点有助于评估和比较预测模型。评估图表显示模型预测特定结果的优劣程度。它根据预测值和预测置信度对记录进行排序。它将记录分成若干个相同大小的组(分位数),然后从高到底为每个分位数划分业务标准值。在散点图中,以不同的线条显示多个模型。
“地图可视化”节点可以接受多个输入连接,并在地图上将地理空间数据显示为一系列层。每个层都是单个地理空间字段;例如,底层可能是国家或地区的地图,在其之上可能存在一个道路层、一个河流层和一个城镇层。
E-Plot (Beta) 节点显示数字字段之间的关系。它与“绘图”节点类似,但是其选项不同,并且其输出使用特定于此节点的新图形界面。使用 beta 级节点可运用新图形功能。
t-分布随机邻域嵌入 (t-SNE) 是用于可视化高维数据的工具。其将数据点亲缘关系转换为可能性。此 t-SNE 节点在 SPSS Modeler 中使用 Python 进行实现并且需要 scikit-learn© Python 库。

将图形节点添加到流后,可双击节点以打开用于指定选项的对话框。绝大多数图形都含有一些独特的选项,这些选项会显示在一个或多个选项卡上。除此以外,还有若干通用于所有图形的选项卡选项。以下主题包含有关这些通用选项的更多信息。

配置图形节点的选项后,可通过对话框运行该节点或将它作为流的组成部分来运行。可在已生成图形窗口中根据选择或数据区域生成“派生”(集合和标记)和“选择”节点,有效地将数据划分为多个“子集”。例如,可使用此强大功能来识别和排除离群值。