差異節點
必須移除資料集中的複製記錄後才能開始資料採礦。例如,在某行銷資料庫中,個別可能以不同的位址或公司資訊多次出現。您可以使用「特定」節點來尋找或移除資料中的複製記錄,或者根據一組複製記錄建立單個複合記錄。
要使用「相異」節點,您必須先定義一組索引鍵欄位,用於確定何時將兩個記錄視為重複項。
如果您僅挑選了部分欄位用作索引鍵欄位,那麼兩個「複製」記錄可能並非確實完全相同,這是因為它們的其餘欄位的值仍可能有所不同。在這種情況下,您還可以定義在每群組複製記錄中套用的排序。此排序使您能夠進行微調,以確定要將哪個記錄視為群組中的第一個記錄。否則,會將所有複製項都視為可交換,並可能已選取任意記錄。不會對記錄的傳入順序加以考慮,因此,使用上游「排序」節點並無說明(請參閱下方文中的『在「特定」節點中進行記錄排序』)。
眾數。 指定是建立複合記錄,還是併入或排除(捨棄)第一個記錄。
- 為每個群組建立複合記錄。提供一種對非數值欄位進行聚合的方式。選中此選項將使「複合」標籤可用,您可以在該標籤上指定如何建立複合記錄。如需相關資訊,請參閱相異的複合設定。
- 僅包含每個群組中的第一個記錄。選取每群組複製記錄中的第一個記錄並捨棄餘下的記錄。第一筆記錄由下面定義的排序決定,而不是由送入記錄的順序決定。
- 僅捨棄每個群組中的第一個記錄。捨棄每群組複製記錄中的第一個記錄並選中餘下的記錄。第一筆記錄由下面定義的排序決定,而不是由送入記錄的順序決定。此選項對於 找出 資料中的複製非常有幫助,因為您隨後即可在串流中檢查這些內容。
關鍵分組欄位。列出用於確定記錄是否相同的一個或多個欄位。您可以:
- 使用右側的欄位選取器按鈕將欄位新增至此清單。
- 使用紅色 X(移除)按鈕從清單中刪除欄位。
在群組內記錄的排序依據。列出用於確定各個記錄在每群組複製項目中的排序方式以及是按遞增還是遞減排序的欄位。您可以:
- 使用右側的欄位選取器按鈕將欄位新增至此清單。
- 使用紅色 X(移除)按鈕從清單中刪除欄位。
- 如果您按多個欄位排序,則使用上下按鈕移動欄位。
如果您已選擇包含或排除每個群組中的第一個記錄,並且將哪個記錄視為第一個記錄對您而言十分重要,那麼必須指定排序。
預設排序順序。指定依預設各個記錄是按排序鍵值的遞增還是遞減排列。
在「特定」節點中進行記錄排序
如果一組複製項中的記錄順序至關重要,那麼您必須使用「特定」節點中的在群組內記錄的排序依據選項來指定順序。請勿依賴於上游「排序」節點。請注意,不會對記錄的傳入順序加以考慮 - 僅考慮此節點中指定的順序。
如果未指定任何排序欄位(或者指定的排序欄位不夠充分),那麼每群組複製項中的記錄均為無序(或者不完全地進行了排序),而結果可能不可預測。
例如,假定存在大量與眾多機器相關的日誌記錄。此日誌包含資料,例如:
| 時間戳記 | 機器 | 溫度 |
|---|---|---|
| 17:00:22 | 機器 A | 31 |
| 13:11:30 | 機器 B | 26 |
| 16:49:59 | 機器 A | 30 |
| 18:06:30 | 機器 X | 32 |
| 16:17:33 | 機器 A | 29 |
| 19:59:04 | 機器 C | 35 |
| 19:20:55 | 機器 Y | 34 |
| 15:36:14 | 機器 X | 28 |
| 12:30:41 | 機器 Y | 25 |
| 14:45:49 | 機器 C | 27 |
| 19:42:00 | 機器 B | 34 |
| 20:51:09 | 機器 Y | 36 |
| 19:07:23 | 機器 X | 33 |
要將記錄數減少為每台機器的最新的記錄,請使用 Machine 作為索引鍵欄位,並使用 Timestamp 作為排序欄位(遞減)。輸入順序不會影響結果,這是因為,排序選擇指定了對於給定機器應傳回多數列中的哪些列,最終資料輸出如下所示。
| 時間戳記 | 機器 | 溫度 |
|---|---|---|
| 17:00:22 | 機器 A | 31 |
| 19:42:00 | 機器 B | 34 |
| 19:59:04 | 機器 C | 35 |
| 19:07:23 | 機器 X | 33 |
| 20:51:09 | 機器 Y | 36 |