“派生”节点

IBM® SPSS® Modeler 中最强大的功能之一是可以修改数据值并从现有数据中派生新字段。在漫长的数据挖掘工程中,执行若干派生操作是很常见的,如从 Web 日志数据的字符串中抽取客户标识,或根据事务和人口统计数据创建客户生命周期值。所有这些变换均可使用各种字段操作节点完成。

若干节点可提供导出新字段的功能:

“派生”节点修改数据值或者根据一个或多个现有字段创建新字段。它可以创建类型为公式、标志、名义、状态、计数和条件的字段。
“重新分类”节点将一组分类值转换为另一组值。对于折叠类别或者进行数据重新分组以执行分析而言,重新分类非常有用。
“分箱”节点根据一个或多个现有连续(数字范围)字段的值自动创建新的名义(集合)字段。例如,您可以将连续收入字段转换为一个包含各组收入(作为与均值之间的偏差)的新分类字段。为新字段创建分箱后,即可根据分割点生成“派生”节点。
“设为标志”节点根据针对一个或多个名义字段定义的分类值派生多个标志字段。
“重构”节点将名义字段或标志字段转换为一组字段,这组字段可以使用另一字段的值进行填充。例如,给定一个名为 支付类型的字段,其值为 贷方现金借方,那么将创建三个新字段(贷方现金借方),每个字段可能包含实际支付的值。
“历史记录”节点创建新字段,这些字段包含先前记录中的字段的数据。“历史记录”节点最常用于顺序数据,例如时间序列数据。在使用“历史记录”节点前,可以使用“排序”节点对数据进行排序。

使用派生节点

使用导出节点,可以根据一个或多个现有字段创建六种类型的新字段:

  • 公式。新字段是任意 CLEM 表达式的结果。
  • 标志。新字段是代表指定条件的标志。
  • 名义。新字段是名义的,表示其成员是一组指定值。
  • 状态。新字段是两种状态之一。通过指定条件触发这两种状态之间的切换。
  • 计数。新字段以满足某个条件的次数为基准。
  • 条件。新字段是两个表达式的其中一个的值,具体取决于条件的值。

其中每个节点在 Derive 节点对话框中都包含一组特殊选项。这些选项将在后续主题中进行论述。

请注意,使用以下各项可能会更改行顺序:
  • 通过 SQL 回送在数据库中执行
  • 通过远程 IBM SPSS Analytic Server 执行
  • 使用在嵌入式 IBM SPSS Analytic Server 中运行的函数
  • 派生列表(例如,请参阅派生列表或地理空间字段
  • 调用任何空间函数