為聚集節點設定選項
在「聚集」節點上,您可以指定下列內容。
- 一個或多個用作聚集種類的索引鍵欄位
- 一個或多個要為其計算聚合值的聚集欄位
- 一種或多種聚集模式(聚集類型),用於每個聚集欄位的輸出
您還可以指定用於新增欄位的預設聚集模式,並使用表示式(類似於公式)對聚集進行分類。
請註意,為了增加效能,啟用平行處理可能會有益於聚集作業。
索引鍵欄位。列出可用作聚集種類的欄位。連續(數值)欄位和種類欄位都可用作索引鍵。如果您選擇多個索引鍵欄位,那麼這些值將進行合併,以生成用於聚集記錄的索引鍵值。對於每個唯一的索引鍵欄位,將會產生一條聚合記錄。例如,如果 Sex 和 Region 是索引鍵欄位,那麼 M 和 F 與 N 和 S 區域的每個唯一組合(四個唯一組合)都將具有一條聚合記錄。要新增索引鍵欄位,請使用視窗右側的欄位選擇器按鈕。
對話框的剩餘部分分為兩個主要區域 - 基本聚合和聚集表示式。
基本聚集
聚集欄位。列出將聚集其值的欄位以及所選的聚集方式。要向此清單中新增欄位,請使用右側的「欄位選擇器」按鈕。可用的聚集模式如下。
- 總和。 選取此選項可傳回每個索引鍵欄位組合的合計值。總和是遍及所有包含非遺漏值之觀察值的值總計。
- 平均數。 選取此選項可傳回每個索引鍵欄位組合的平均數。平均數是集中趨勢的量數,是算數平均值(總和除以觀察值數)。
- 最小。 選取此選項可傳回每個索引鍵欄位組合的最小值。
- 最大。 選取此選項可傳回每個索引鍵欄位組合的最大值。
- 標準差。選取此選項可傳回每個索引鍵欄位組合的標準差。標準差是對圍繞平均數的離差的測量,該值等於變異測量結果的平方根。
- 中位數。 選取此選項可傳回每個索引鍵欄位組合的中位數值。中位數為集中趨勢的量數,其不會感應到偏離值(相反地,平均數會受到幾個高低極端值的影響)。其亦稱作第 50 個百分位數或第 2 個四分位數。
- 計數。 選取此選項可傳回每個索引鍵欄位組合的非空值計數。
- 變異。 選取此選項可傳回每個索引鍵欄位組合的變異值。變異是對圍繞平均數的離差的測量,該值等於平均離差的平方和除以觀察值數減一。
- 第 1 個四分位數。選取此選項可傳回每個索引鍵欄位組合的第 1 個四分位數(第 25 個百分位數)值。
- 第 3 個四分位數。選取此選項可傳回每個索引鍵欄位組合的第 3 個四分位數(第 75 個百分位數)值。
預設方式。指定要用於新增欄位的預設聚集方式。如果您經常使用同一聚集,請在此處選取一個或多個方式,然後使用右側的「全部套用」按鈕,以便將所選方式套用至上方列出的所有欄位。
新欄位名稱副檔名。 選取此選項可新增字尾或字首(例如,1 或 new),以複製聚集欄位。例如,如果您選取了字尾選項,並將 1 指定為延伸,則針對欄位年齡的最小值聚集結果會產生欄位名稱 Age_Min_1。請注意,聚集延伸(例如,_Min 或 Max_)將自動新增至新欄位,以指示所執行的聚集的類型。選取字尾或字首以指出偏好的延伸樣式。
包含欄位中的記錄計數。依預設,選取此選項可在每條輸出記錄中包含一個額外的欄位 Record_Count。此欄位指出聚集多少個輸入記錄來形成每一個聚集記錄。在編輯欄位中鍵入內容,以便為此欄位建立自訂名稱。
聚集表示式
表示式類似於根據值、欄位名稱、運算子和函數建立的公式。聚集表示式與函數不同之處在於,函數一次只能操作一條記錄,而聚集表示式能夠對記錄群組、記錄集或記錄收集進行操作。
將新的表示式建立為衍生欄位;要建立表示式,請使用表示式建置器中提供的資料庫聚合函數。
如需相關資訊,請參閱表示式建置器。
請注意,由於聚集表示式按索引鍵欄位進行群組,因此索引鍵欄位與您建立的任何聚集表示式之間存在關聯。
有效聚集表示式可評估為聚集結果;以下是幾個有效聚集表示式範例以及用於控管它們的規則:
- 您可以使用純量函數將多個聚集函數組合在一起,以生成單個聚集結果。例如:
max(C01) - min(C01) - 聚集函數可對多個純量函數的結果執行操作。例如:
sum (C01*C01)