“合并”节点
“合并”节点的功能是获取多个输入记录,然后创建单个包含全部或部分输入字段的输出记录。 如果您要合并来源不同的数据(例如,内部客户数据和购买的人口统计数据),此操作非常有用。
可以通过下列方法来合并数据。
- 按顺序合并表示按输入顺序将所有来源的相应记录并置,直至穷尽最小的数据源为止。 如果使用此选项,请务必确保已使用“排序”节点将数据排序。
- 使用 键 字段 (例如
Customer ID) 进行合并,以指定如何将来自一个数据源的记录与来自其他数据源的记录进行匹配。 连接有多种可能的类型,包括内连接、全部外连接、部分外连接和反连接。 - 按条件合并表示您可以指定执行合并前需要满足的条件。 您可以直接在该节点中指定条件,也可以使用表达式构建器来构建条件。
连接类型
使用关键字段进行数据合并时,您可能会发现花一些时间来思考哪些记录将被排除以及哪些记录将被包括是有用的。 有多种连接,在这里讨论。 两种基本的连接类型称为内部连接和外部连接。 这些方法通常用于根据关键字段 (例如 Customer ID) 的公共值来合并来自相关数据集的表。 通过内部连接,可以实现清理合并,以及仅包括完整记录的输出数据集。 外部连接也包括合并数据中的完整记录,但它们还允许包括来自一个或多个输入表的唯一性数据。
下面更详细地描述了允许的连接类型。
内连接 只包括关键字段的值在所有输入表中通用的记录。 即,输出数据集中不会包含不匹配的记录。
全外连接 包括输入表中匹配和非匹配的所有记录。 左外连接和右外连接称为部分外连接。
部分外部连接 包括使用关键字段匹配的所有记录以及指定表中未匹配的记录。 (换句话说,包括部分表中的所有记录,以及其他表中的仅匹配记录。) 您可以选择要包含在节点属性的 "合并" 选项下的外连接中的表 (例如,此处显示的 A 和 B)。 如果只合并两个表,部分连接也称为左外部连接或右外部连接。 由于 SPSS Modeler 允许合并两个以上的表,因此我们将其称为部分外连接。
反连接 只包括第一个输入表(此处显示的表 A)的未匹配记录。 此类型的连接与内部连接相反,并且不包含输出数据集中的完整记录。
例如,如果您在一个数据集 中包含有关农场的信息,在另一个数据集中包含农场相关的保险索赔信息,则可以使用合并选项将第一个源中的记录与第二个源相匹配。 要确定您农场样本中的客户是否已经提出了保险索赔,请使用内部连接选项返回一个列表,其中显示两个样本中所有标识匹配的记录。

使用完全外部连接选项既会返回输入表中的匹配记录也会返回不匹配的记录。 系统缺失值 ($null$) 将用于任何不完整的值。

部分外部连接包括使用关键字段匹配的所有记录,以及指定的表中的不匹配记录。 该表显示了标识字段中所有匹配的记录,以及第一个数据集中匹配的记录。

如果您正在使用反连接选项,那么表仅返回第一个输入表的不匹配记录。
