测量级别

测量级别(以前称为“数据类型”或“用途类型”)用于描述数据字段在 IBM® SPSS® Modeler 中的用法。测量级别可以在源节点或“类型”节点的“类型”选项卡中指定。例如,您可能希望将值为 1 和 0 的某个整数字段的测量级别设置为标志。这通常表明 1 = ,0 =

存储与测量。请注意,字段的测量级别不同于字段的存储类型,后者是指数据的存储形式是字符串、整数、实数、日期、时间还是时间戳记。数据类型可以使用类型节点在流中的任意位置进行修改,而存储类型必须在将数据读入 IBM SPSS Modeler 时在源中确定(当然,之后也可以使用转换函数对其进行更改)。有关更多信息,请参阅设置字段存储类型和格式主题。

某些建模节点通过其“字段”选项卡上的图标指示其输入字段和目标字段所允许的测量级别类型。

测量级别图标

表 1. 测量级别图标
图标 测量级别
缺省
连续
分类
标记
名义
有序
无类型
集合
地理空间

可以使用以下测量级别:

  • 缺省值 存储类型和值未知(例如,由于尚未读取)的数据将显示为 <缺省值>
  • 连续 用于描述数字值,例如范围 0-100 或 0.75-1.25。连续值可以是整数、实数或日期/时间。
  • 分类 在不同值的准确数目未知时用于字符串值。这是一种 非实例化 数据类型,表示有关数据存储类型和用法的所有可用信息均未知。读取数据后,测量级别将为标志名义、或无类型,具体取决于“流属性”对话框中指定的名义字段成员最大数。
  • 标志 用于具有两个不同值的数据,这两个值用于指示特性存在与否(例如 truefalseYesNo 或者 01)。所用值可能有所不同,但其中总会有个值代表“真”值,另一个代表“假”值。 数据可表示为文本、整数、实数、日期、时间或时间戳记。
  • 名义 用于描述具有多个不同值的数据,其中的每个值都被视为集合的一个成员,例如 small/medium/large。名义数据可具有任何存储数值、字符串或日期/时间。请注意,将测量级别设置为名义不会自动将值更改为字符串存储。
  • 有序 用于描述具有多个顺序固定的不同值的数据。例如,工资类别或满意度排秩可以归类为有序数据。顺序由数据元素的自然排列顺序定义。例如, 1, 3, 5 是某个整数集合的默认排列顺序,而 HIGH, LOW, NORMAL (按字母升序)是某个字符串集合的顺序。使用有序测量级别可以将一组分类数据定义为有序数据,以进行可视化处理、模型构建以及导出到将有序数据识别为不同类型的其他应用程序(如 IBM SPSS Statistics)。您可以在任何能够使用名义字段的位置使用有序字段。此外,可以将任何存储类型(实数、整数、字符串、日期、时间等等)的字段定义为有序。
  • 无类型 用于不属于上述任何类型的数据、具有单个值的字段或者集合成员数超过定义的最大数目的名义数据。当测量级别为包含许多成员(如帐号)的集合时,这种类型也将十分有用。When you select 字段的无类型,角色将自动设置为,并且记录标识将作为唯一的替代项。集合的最大缺省容量为 250 个唯一值。可在“流属性”对话框(通过“工具”菜单访问)的“选项”选项卡中调整或禁用该数字。
  • 集合 用于标识列表中记录的非地理空间数据。集合实际上是深度为零的列表字段,该列表中的元素具有另外某种测量级别。

    有关列表的更多信息,请参阅列表存储以及相关联的测量级别

  • 地理空间 与“列表”存储类型配合使用以标识地理空间数据。列表可以是列表深度介于 0 与 2(含首尾值)之间的“整数列表”或“实数列表”字段。

    有关更多信息,请参阅 地理空间测量子级别

可以手动指定测量级别,也可以由软件读取数据并根据所读取的值确定其测量级别。

此外,如果有多个连续数据字段需视为类别数据,可以选择一个用于对这些字段进行转换的选项。有关更多信息,请参阅转换连续数据主题。

要使用自动输入

  1. 在类型节点中或源节点的“类型”选项卡中,将所需字段的列设置为 <读取>。此操作将使元数据可用于所有下游节点。可以使用对话框中的墨镜按钮将所有字段快速设置为 <读取 ><传递 >
  2. 单击读取值可立即读取数据源中的值。

要为字段手动设置测量级别

  1. 选择表中的某个字段。
  2. 测量列的下拉列表中为该字段选择测量级别。
  3. 或者,可以先采用 Ctrl+A 或按住 Ctrl 并单击的方式选择多个字段,再使用下拉列表选择测量级别。