為聚集節點設定選項

在「聚集」節點上,您可以指定下列內容。

  • 一個或多個用作聚集種類的索引鍵欄位
  • 一個或多個要為其計算聚合值的聚集欄位
  • 一種或多種聚集模式(聚集類型),用於每個聚集欄位的輸出

您還可以指定用於新增欄位的預設聚集模式,並使用表示式(類似於公式)對聚集進行分類。

請註意,為了增加效能,啟用平行處理可能會有益於聚集作業。

索引鍵欄位。列出可用作聚集種類的欄位。連續(數值)欄位和種類欄位都可用作索引鍵。如果您選擇多個索引鍵欄位,那麼這些值將進行合併,以生成用於聚集記錄的索引鍵值。對於每個唯一的索引鍵欄位,將會產生一條聚合記錄。例如,如果 SexRegion 是索引鍵欄位,那麼 MFNS 區域的每個唯一組合(四個唯一組合)都將具有一條聚合記錄。要新增索引鍵欄位,請使用視窗右側的欄位選擇器按鈕。

對話框的剩餘部分分為兩個主要區域 - 基本聚合聚集表示式

基本聚集

聚集欄位。列出將聚集其值的欄位以及所選的聚集方式。要向此清單中新增欄位,請使用右側的「欄位選擇器」按鈕。可用的聚集模式如下。

註: 某些模式不適用於非數值欄位(例如,總和不適用於日期/時間欄位)。不能用於所選聚合欄位的模式將被停用。
  • 總和。 選取此選項可傳回每個索引鍵欄位組合的合計值。總和是遍及所有包含非遺漏值之觀察值的值總計。
  • 平均數。 選取此選項可傳回每個索引鍵欄位組合的平均數。平均數是集中趨勢的量數,是算數平均值(總和除以觀察值數)。
  • 最小。 選取此選項可傳回每個索引鍵欄位組合的最小值。
  • 最大。 選取此選項可傳回每個索引鍵欄位組合的最大值。
  • 標準差。選取此選項可傳回每個索引鍵欄位組合的標準差。標準差是對圍繞平均數的離差的測量,該值等於變異測量結果的平方根。
  • 中位數。 選取此選項可傳回每個索引鍵欄位組合的中位數值。中位數為集中趨勢的量數,其不會感應到偏離值(相反地,平均數會受到幾個高低極端值的影響)。其亦稱作第 50 個百分位數或第 2 個四分位數。
  • 計數。 選取此選項可傳回每個索引鍵欄位組合的非空值計數。
  • 變異。 選取此選項可傳回每個索引鍵欄位組合的變異值。變異是對圍繞平均數的離差的測量,該值等於平均離差的平方和除以觀察值數減一。
  • 第 1 個四分位數。選取此選項可傳回每個索引鍵欄位組合的第 1 個四分位數(第 25 個百分位數)值。
  • 第 3 個四分位數。選取此選項可傳回每個索引鍵欄位組合的第 3 個四分位數(第 75 個百分位數)值。
註: 在執行包含「聚集」節點的串流的情況下,將 SQL 推送回 Oracle 資料庫時針對第一個四分位數和第 3 個四分位數傳回的值可能與原生模式下傳回的那些值不同。

預設方式。指定要用於新增欄位的預設聚集方式。如果您經常使用同一聚集,請在此處選取一個或多個方式,然後使用右側的「全部套用」按鈕,以便將所選方式套用至上方列出的所有欄位。

新欄位名稱副檔名。 選取此選項可新增字尾或字首(例如,1new),以複製聚集欄位。例如,如果您選取了字尾選項,並將 1 指定為延伸,則針對欄位年齡的最小值聚集結果會產生欄位名稱 Age_Min_1。請注意,聚集延伸(例如,_MinMax_)將自動新增至新欄位,以指示所執行的聚集的類型。選取字尾字首以指出偏好的延伸樣式。

包含欄位中的記錄計數。依預設,選取此選項可在每條輸出記錄中包含一個額外的欄位 Record_Count。此欄位指出聚集多少個輸入記錄來形成每一個聚集記錄。在編輯欄位中鍵入內容,以便為此欄位建立自訂名稱。

註: 計算聚合時將排除系統空值,但它們會併入在記錄計數中。另一方面,空白值既併入在聚集中也併入在記錄計數中。要排除空白值,您可以使用「填入器」節點將空白值取代為空值。您還可以使用「選取」節點移除空白值。

聚集表示式

表示式類似於根據值、欄位名稱、運算子和函數建立的公式。聚集表示式與函數不同之處在於,函數一次只能操作一條記錄,而聚集表示式能夠對記錄群組、記錄集或記錄收集進行操作。

註: 只有在串流包含資料庫連線(通過「資料庫來源」節點),您才能建立聚集表示式。

將新的表示式建立為衍生欄位;要建立表示式,請使用表示式建置器中提供的資料庫聚合函數。

如需相關資訊,請參閱表示式建置器

請注意,由於聚集表示式按索引鍵欄位進行群組,因此索引鍵欄位與您建立的任何聚集表示式之間存在關聯。

有效聚集表示式可評估為聚集結果;以下是幾個有效聚集表示式範例以及用於控管它們的規則:

  • 您可以使用純量函數將多個聚集函數組合在一起,以生成單個聚集結果。例如:
    max(C01) - min(C01)
  • 聚集函數可對多個純量函數的結果執行操作。例如:
    sum (C01*C01)