レコード集計ノード
レコード集計は、データ・セットのサイズを減らすために頻繁に用いられるデータ準備作業です。レコード集計を行う前に、データのクリーニングを、特に欠損値に注目して行う必要があります。レコード集計を実行すると、欠損値に関する潜在的な有益情報が失われてしまう可能性があります。
レコード集計ノードを使用すると、一連の入力レコードを要約 (集計された出力レコード) に置き換えることができます。例えば、 次の表に示すような一連の入力売上レコードがあるとします。
| Age | Sex (性別) | 地域 | Branch | Sales (販売額) |
|---|---|---|---|---|
| 23 | M | S | 8 | 4 |
| 45 | M | S | 16 | 4 |
| 37 | M | S | 8 | 5 |
| 30 | M | S | 5 | 7 |
| 44 | M | N | 4 | 9 |
| 25 | M | N | 2 | 11 |
| 29 | F | S | 16 | 6 |
| 41 | F | N | 4 | 8 |
| 23 | F | N | 6 | 2 |
| 45 | F | N | 4 | 5 |
| 33 | F | N | 6 | 10 |
上記のレコードを、Sex と Region をキー・フィールドにして集計することができます。次に、「平均値」 モードでAge フィールドを集計し、「合計」モードで Sales フィールドを集計します。「レコード集計ノード」ダイアログ・ボックスで「フィールドにレコード度数を含める」を選択します。 集計の出力は次の表のようになります。
| Age (平均年齢) | Sex (性別) | 地域 | Sales (販売額) | レコード件数 |
|---|---|---|---|---|
| 35.5 | F | N | 25 | 4 |
| 29 | F | S | 6 | 1 |
| 34.5 | M | N | 20 | 2 |
| 33.75 | M | S | 20 | 4 |
例えば、このことから、北部地域の 4 名の女性販売スタッフの平均年齢が 35.5 歳で、合計販売金額が 25 単位です。
注 : 集計モードを指定しないと、Branch などのフィールドは自動的に無視されます。