レコード集計ノードのオプションの設定
「レコード集計」ノードで以下を指定します。
- レコード集計のカテゴリーとして使用する 1 つまたは複数のキー・フィールド。
- レコード集計値を計算する 1 つまたは複数の集計フィールド。
- 各レコード集計フィールドに出力する 1 つまたは複数のレコード集計モード (集計の種類)。
新しく追加されたフィールドに使用するデフォルトの集計モードを指定することも、式 (数式に似ている) を使用して集約をカテゴリー化することもできます。
パフォーマンス上、集計操作は、並列処理を有効にすると、有利になる可能性があります。
キー・フィールド。集計にカテゴリーとして使用できるフィールドが一覧表示されます。連続型 (数値型) フィールドとカテゴリー・フィールドの両方がキーとして使用できます。複数のフィールドを選択した場合は、値が組み合されて、レコードを集計するためのキー値が生成されます。集計レコードは、それぞれ一意のキー・フィールドに対して 1 つずつ生成されます。例えば、キー・フィールドが Sex と Region の場合、一意な M と F の、および地域 N と S のそれぞれの組み合わせに対して集計レコードが作成されます (4 つの一意な組み合わせ)。キー・フィールドを追加するには、ウィンドウの右側にあるフィールド・ピッカー・ボタンをクリックします。
ダイアログ・ボックスの残りの部分は、基本集計と集計式という 2 つの主な領域に分かれています。
基本集計
集計フィールド。選択されたレコード集計のモードのほか、集計される値のフィールドを表示します。リストにフィールドを追加するには、右側にあるフィールド・ピッカー・ボタンを使用します。利用できる集計関数を次に示します。
- 合計:キー・フィールドの各組み合せの合計値を返す場合に選択します。合計は、欠損値のないすべてのケースに対する変数の値の合計です。
- 平均値: キー・フィールドの各組み合せの平均値を返す場合に選択します。平均値は、中心傾向の尺度であり、算術平均です (ケース数で割った合計)。
- 最小: キー・フィールドの各組み合わせの最小値を返す場合に選択します。
- 最大: キー・フィールドの各組み合わせの最大値を返す場合に選択します。
- 標準偏差:キー・フィールドの各組み合わせの標準偏差を返す場合に選択します。標準偏差平均の周りの散らばり度です。変動測定の平方根に等しくなります。
- 中央値: キー・フィールドの各組み合せの中央値を返す場合に選択します。中央値は、外れ値に対して敏感でない、中心化傾向の測定値です。それに対して平均値は、いくつかの極端に大きい、または小さい値に影響されます。50 番目のパーセンタイルまたは 2 番目の四分位でもあります。
- カウント: キー・フィールドの各組み合わせの非ヌル値のカウントを返す場合に選択します。
- 分散: キー・フィールドの各組み合わせの分散値を返す場合に選択します。分散は、平均値のまわりの値の散らばりの程度。平均値からの偏差の平方和を、有効観測値の合計数から 1 を引いたもので割って求めます。
- 第一四分位:キー・フィールドの各組み合わせの第一四分位 (25 番目のパーセンタイル) を返す場合に選択します。
- 第三四分位:キー・フィールドの各組み合わせの第三四分位 (75 番目のパーセンタイル) を返す場合に選択します。
デフォルト・モード。新しく追加したフィールドに対して、デフォルトで使用する集計モードを指定します。同じ集計モードを頻繁に使用しているような場合は、ここでそれらのモードを選択し、右側にある「すべてに適用」ボタンをクリックすると、選択したモードが上記のリストに表示されているすべてのフィールドに適用されます。
新規フィールド名拡張子。重複する集計フィールドに対して、1 や new などの接頭辞や接尾辞を追加する場合に選択します。例えば、接尾辞オプションを選択し、拡張子として 1 を指定すると、Age フィールドに対する最小値の集計の結果、Age_Min_1 というフィールド名が生成されます。なお、_Min や Max_ などの集計拡張子は、実行された集計の種類を表し、自動的に新規フィールドに追加されます。付ける拡張子の種類に応じて、「接尾辞」 または 「接頭辞」 を選択してください。
フィールドにレコード度数を含める。各出力レコードに追加のフィールド (デフォルトでは Record_Count) を含める場合に選択します。このフィールドは、各集計レコードを作成するために集計された入力レコード数を示します。このフィールド名を自分で指定するには、その名前を編集フィールドに入力してください。
集計式
式は、値、フィールド名、演算子、および関数から作成される数式と同じようなものです。一度に 1 つのレコードに対して機能する関数とは異なり、集計式はレコードのグループ、セット、または集合に対して働きます。
新しい式は、派生フィールドとして作成されます。式を作成するには、Clem 式ビルダーから使用可能なデータベース集計 関数を使用します。
詳しくは、Clem 式ビルダーを参照してください。
集計式はキー・フィールド別にグループ化されるため、キー・フィールドと、作成する集計式との間に接続があることに注意してください。
集計結果を評価する集計式は、有効な集計式です。以下に 2 つの有効な集計式の例と規則を示します。
- スカラー関数を使用して複数の集計関数を結合し、単一の集計結果を生成できます。
例:
max(C01) - min(C01) - 集計関数は、複数のスカラー関数の結果に対して働きます。
例:
sum (C01*C01)