węzeł Powtórzenia
Przed rozpoczęciem eksploracji danych konieczne jest usunięcie duplikowanych rekordów ze zbioru danych. Na przykład w bazie danych marketingowych osoby mogą występować klika razy dla różnych adresów lub danych firmy. Węzeł Powtórzenia umożliwia znalezienie lub usunięcie zduplikowanych rekordów z danych lub utworzenie pojedynczego, złożonego rekordu na podstawie grupy zduplikowanych rekordów.
Aby użyć węzła Powtórzenia, najpierw należy zdefiniować zestaw zmiennych kluczowych, który określi, kiedy dwa rekordy zostaną uznane za zduplikowane.
Jeśli nie wszystkie zmienne zostaną wybrane jako zmienne kluczowe, wówczas dwa „zduplikowane” rekordy mogą nie być rzeczywiście identyczne, ponieważ wartości pozostałych zmiennych nadal mogą się różnić. W takim przypadku można również zdefiniować porządek sortowania, jaki zostanie zastosowany w każdej grupie zduplikowanych rekordów. Porządek sortowania zapewnia dokładną kontrolę nad tym, który rekord będzie traktowany jako pierwszy w grupie. W przeciwnym razie wszystkie duplikaty będą traktowane jako zamienne i wybrany może zostać dowolny rekord. Porządek wejściowy rekordów nie jest brany pod uwagę, dlatego nie pomaga w użyciu wcześniejszego węzła Sortowanie (patrz temat „Sortowanie rekordów w węźle Powtórzenia” poniżej).
Dominanta. Należy określić, czy ma zostać utworzony rekord złożony, czy też konieczne jest uwzględnienie lub wykluczenie (odrzucenie) pierwszego rekordu.
- Utwórz rekord złożony dla każdej grupy. Zapewnia sposób zagregowania zmiennych nienumerycznych. Po zaznaczeniu tej opcji udostępniana jest karta Złożone, na której można określić sposób, w jaki tworzone będą rekordy złożone. Więcej informacji można znaleźć w temacie Ustawienia złożonego rekordu w węźle Powtórzenia.
- W każdej z grup dołącz tylko pierwszy rekord. Powoduje wybranie pierwszego rekordu z każdej grupy zduplikowanych rekordów i odrzucenie pozostałych. Pierwszy rekord jest ustalany na podstawie porządku sortowania zdefiniowanego poniżej, a nie na podstawie wejściowego porządku rekordów.
- W każdej z grup odrzuć tylko pierwszy rekord. Powoduje odrzucenie pierwszego rekordu z każdej grupy zduplikowanych rekordów i wybranie pozostałych. Pierwszy rekord jest ustalany na podstawie porządku sortowania zdefiniowanego poniżej, a nie na podstawie wejściowego porządku rekordów. Ta opcja jest przydatna do wyszukiwania duplikatów w danych, tak aby możliwe było ich zbadanie w dalszej części strumienia.
Pola kluczowe dla grupowania. Wyświetla listę zmiennych użytych do określenia, czy rekordy są identyczne. Można:
- Dodawać zmienne za pomocą przycisku wybierania zmiennych, który znajduje się po prawej stronie.
- Usuwać zmienne z listy za pomocą czerwonego przycisku X (Usuń).
W obrębie grup uporządkuj rekordy ze względu na. Wyświetla listę zmiennych używanych do określenia sposobu sortowania rekordów w każdej grupie duplikatów oraz porządku sortowania (malejąco lub rosnąco). Można:
- Dodawać zmienne za pomocą przycisku wybierania zmiennych, który znajduje się po prawej stronie.
- Usuwać zmienne z listy za pomocą czerwonego przycisku X (Usuń).
- Przenosić zmienne za pomocą przycisków strzałki w górę lub w dół, o ile sortowanie jest przeprowadzane na podstawie więcej niż jednej zmiennej.
Jeśli wybrano opcję uwzględniania pierwszego rekordu w grupie lub wykluczania go z grupy i jeśli ma znaczenie to, który rekord jest traktowany jak pierwszy, należy określić porządek sortowania.
Domyślny porządek sortowania. Należy określić, czy rekordy (domyślnie) będą sortowane w porządku rosnącym czy malejącym ich wartości kluczowych sortowania.
Sortowanie rekordów w węźle Powtórzenia
Jeśli porządek rekordów w grupie duplikatów jest istotny, należy go określić, używając opcji W obrębie grup uporządkuj rekordy ze względu na w węźle Powtórzenia. Nie należy polegać na ustawieniach we wcześniejszym węźle Sortowanie. Należy pamiętać, że wejściowy porządek rekordów nie jest brany pod uwagę — ważny jest tylko porządek określony w danym węźle.
Jeśli nie zostaną określone żadne zmienne sortowania (lub jeśli określona zostanie niedostateczna liczba zmiennych sortowania), wówczas rekordy w każdej grupie duplikatów będą nieuporządkowane (lub będą uporządkowane w sposób niekompletny), a wyniki mogą być nieprzewidywalne.
Załóżmy na przykład, że dostępny jest bardzo duży zbiór rekordów dziennika odnoszący się do wielu komputerów. Dziennik zawiera dane, takie jak:
| Znacznik czasu | Komputer | Temperatura |
|---|---|---|
| 17:00:22 | Machine A | 31 |
| 13:11:30 | Machine B | 26 |
| 16:49:59 | Machine A | 30 |
| 18:06:30 | Machine X | 32 |
| 16:17:33 | Machine A | 29 |
| 19:59:04 | Machine C | 35 |
| 19:20:55 | Machine Y | 34 |
| 15:36:14 | Machine X | 28 |
| 12:30:41 | Machine Y | 25 |
| 14:45:49 | Machine C | 27 |
| 19:42:00 | Machine B | 34 |
| 20:51:09 | Machine Y | 36 |
| 19:07:23 | Machine X | 33 |
Aby zmniejszyć liczbę rekordów do najnowszego rekordu dla każdego komputera, należy użyć zmiennej
Machine(Komputer) jako zmiennej kluczowej oraz zmiennej Timestamp (Znacznik czasu) jako zmiennej sortowania (w porządku malejącym). Porządek wprowadzania danych wejściowych nie wpływa na wynik, ponieważ wybór sortowania określa, które z wierszy dla danego komputera mają zostać zwrócone; ostatecznie dane wyjściowe będą wyglądały następująco.
| Znacznik czasu | Komputer | Temperatura |
|---|---|---|
| 17:00:22 | Machine A | 31 |
| 19:42:00 | Machine B | 34 |
| 19:59:04 | Machine C | 35 |
| 19:07:23 | Machine X | 33 |
| 20:51:09 | Machine Y | 36 |