连接类型

当数据合并使用一个关键字段时,最好先花一些时间来考虑要排除和包括哪些记录。连接的类型有很多种,详细信息将在下面讨论。

两种基本的连接类型称为内部连接和外部连接。这些方法经常用于根据关键字段(如 客户标识 )的公共值,合并来自相关数据集的表。通过内部连接,可以实现清理合并,以及仅包括完整记录的输出数据集。外部连接也包括合并数据中的完整记录,但它们还允许包括来自一个或多个输入表的唯一性数据。

以下内容详细介绍了允许的连接类型。

内部连接 只包括其中关键字段的值对于所有输入表都共有的记录。即,不匹配的记录不会包括在输出数据集中。
完全外部连接包括输入表中的所有记录,既有匹配的记录也有不匹配的记录。左外部连接和右外部连接称为部分外部连接,将在下面描述。
部分外部连接 包括使用关键字段匹配的所有记录,以及指定的表中的不匹配记录。(换句话说,包括部分表中的所有记录,以及其他表中的仅匹配记录。)使用“合并”选项卡上的“选择”按钮,可选择要包括在外部连接中的表(如此处显示的 A 和 B)。如果只合并两个表,部分连接也称为左外部连接或右外部连接。因为 IBM® SPSS® Modeler 允许合并两个以上的表,所以我们称此为部分外部连接。
反连接 仅包括第一个输入表(此处显示的表A)的不匹配记录。这种连接类型与内部连接正好相反,在输出数据集中不包括完整记录。

例如,如果您在一个数据集 中包含有关农场的信息,在另一个数据集中包含农场相关的保险索赔信息,则可以使用合并选项将第一个源中的记录与第二个源相匹配。

要确定您农场样本中的客户是否已经提出了保险索赔,请使用内部连接选项返回一个列表,其中显示两个样本中所有标识匹配的记录。

图 1. 内部连接合并的输出示例
内部连接合并的输出示例

使用完全外部连接选项既会返回输入表中的匹配记录也会返回不匹配的记录。对于任何不完整的值,都将使用系统缺失值 ( $null$ )。

图 2. 完全外部连接合并的输出示例
完全外部连接合并的输出示例

部分外部连接包括使用关键字段匹配的所有记录,以及指定的表中的不匹配记录。该表显示了标识字段中所有匹配的记录,以及第一个数据集中匹配的记录。

图 3. 部分外部连接合并的输出示例
部分外部连接合并的输出示例

如果使用反连接选项,该表则只返回第一个输入表的不匹配记录。

图 4. 反连接合并的输出示例
反连接合并的输出示例