結合の種類

データ結合にキー・フィールドを使用する場合、まずどのレコードを除外して、どのレコードを対象にするかを検討することをお勧めします。後述するように、さまざまな種類の結合手段があります。

基本的な結合の種類としては、内部結合と外部結合があります。これらの方法は、Customer ID などのキー・フィールドの共通する値に基づいて、関連データ・セットからテーブルを併合するために頻繁に使用されます。内部結合によって、制限のない併合が行われ、完全なレコードのみが含まれるデータ・セットが出力されます。外部結合の場合も結合データからの完全なレコードが含まれますが、それ以外に 1 つまたは複数の入力テーブルから固有のデータを入れることもできます。

利用できる各種の結合手段の詳細は、後述します。

内部結合では、キー・フィールドの値がすべての入力テーブルで共通のレコードだけが含まれます。つまり、出力データ・セットには、一致しないレコードは含まれません。
完全外部結合では、入力テーブルからの一致するレコードと一致しないレコードの両方のレコード (すべてのレコード) が含まれます。左外部結合および右外部結合は、部分外部結合と呼ばれています。
部分外部結合では、キー・フィールドを使ったすべての一致するレコード、および特定のテーブルからの一致しないレコードが含まれます。(または、別な方法では、いくつかのテーブルからのすべてのレコードと、そのほかのテーブルからの一致したレコードのみ。)外部結合に入れるテーブル (ここの A や B など) は、「レコード結合」タブの「データの選択」ボタンを使用して選択することができます。2 つのテーブルだけを結合する場合、部分結合は左外部結合または右外部結合と呼ばれることもあります。IBM® SPSS® Modeler では、3 つ以上のテーブルを結合することもできるため、ここでは部分外部結合と呼んでいます。
逆結合では、最初の入力テーブルの一致しないレコードだけが含まれます (ここではテーブル A)。この結合では、内部結合とは反対に、出力データ・セットに完全なレコードは含まれません。

例えば、あるデータ・セット内の農場についての情報があり、農業関連の保険金請求が別のデータ・セットにある場合に、「レコード結合」オプションを使用して、最初のソースのレコードを 2 番目のソースに照合できます。

農場サンプル内の顧客が保険金請求をファイリングしているかどうかを判断するには、内部結合オプションを使用して、すべての ID が 2 つのサンプルで一致する箇所を示すリストを返します。

図 1. 内部結合のサンプル出力
内部結合のサンプル出力

完全外部結合オプションを使用すると、入力テーブルから一致するレコードと一致しないレコードの両方が返されます。システム欠損値 ($null$) が、不完全な値に対して使用されます。

図 2. 完全外部結合のサンプル出力
完全外部結合のサンプル出力

部分外部結合では、指定されたテーブルから一致しないレコードと同様に、キー・フィールドを使用して一致したすべてのレコードが含まれます。テーブルには、最初のデータ・セットから一致したレコードと同様に、ID フィールドから一致したすべてのレコードが表示されます。

図 3. 部分外部結合のサンプル出力
部分外部結合のサンプル出力

逆結合オプションを使用する場合は、最初の入力テーブルで一致しないレコードのみが返されます。

図 4. 逆結合のサンプル出力
逆結合のサンプル出力