N-tyle (równa liczebność lub suma)
Metoda kategoryzacji powoduje utworzenie zmiennych nominalnych, jakie mogą zostać użyte do rozdziału skanowanych rekordów na grupy percentyli (lub kwartyli, decyli itd.), w wyniku czego każda grupa będzie zawierała taką samą liczbę rekordów lub suma wartości w każdej grupie będzie taka sama. Rekordy są rangowane w porządku rosnącym na podstawie wartości określonej w zmiennej poddanej podziałowi, w wyniku czego rekordy o najniższych wartościach dla wybranej zmiennej poddanej podziałowi mają przypisaną rangę 1, kolejny zestaw rekordów ma rangę 2 itd. Wartości graniczne dla każdego przedziału są generowane automatycznie w oparciu o użyte dane i zastosowaną metodę tworzenia N-tyli.
Rozszerzenie nazwy N-tyla. Należy określić rozszerzenie, jakie będzie używane dla zmiennych wygenerowanych z zastosowaniem standardowych p-tyli. Domyślnym rozszerzeniem jest _TILE plus N, gdzie N oznacza liczbę N-tyli. Można również określić, czy rozszerzenie ma być dodawane na początku (Przedrostek), czy na końcu (Przyrostek) nazwy zmiennej. Można na przykład wygenerować nową zmienną o nazwie income_BIN4.
Rozszerzenie N-tyla użytkownika. Należy określić rozszerzenie, jakie będzie używane dla niestandardowego przedziału N-tyli. Wartość domyślna to _TILEN. Należy pamiętać, że N w tym przypadku nie jest zastępowane wartością niestandardową.
Dostępne p-tyle to:
- Kwartyl. Generuje 4 przedziały, każdy składający się z 25% obserwacji.
- Kwintyl. Generuje 5 przedziałów, każdy składający się z 20% obserwacji.
- Decyl. Generuje 10 przedziałów, każdy składający się z 10% obserwacji.
- Vingtyl. Generuje 20 przedziałów, każdy składający się z 5% obserwacji.
- Percentyl. Generuje 100 przedziałów, każdy składający się z 1% obserwacji.
- N użytkownika. Tę opcję należy wybrać, aby określić liczbę przedziałów. Przykładowo wartość 3 spowoduje utworzenie 3 kategorii podziału (2 punkty podziału), każda składająca się z 33,3% obserwacji.
Należy pamiętać, że jeśli w danych jest mniejsza liczba wartości dyskretnych niż liczba określonych N-tyli, nie wszystkie N-tyle zostaną użyte. W takich sytuacjach nowy rozkład prawdopodobnie będzie odzwierciedlał oryginalny rozkład danych.
Metoda tworzenia N-tyli. Określa metodę używaną do przypisywania rekordów do przedziałów.
- Liczebność rekordów. Stara się przypisać jednakową liczbę rekordów do każdego przedziału.
- Suma wartości. Stara się przypisać rekordy do przedziałów, tak aby suma wartości w każdym przedziale była jednakowa. Na przykład w przypadku konkretnego ukierunkowania działań sprzedażowych ta metoda może być zastosowana w celu przypisania potencjalnych klientów do grup decylowych na podstawie wartości dla rekordu, umieszczając potencjalnych klientów o najwyższej wartości w górnej części przedziału. Przykładowo firma farmaceutyczna może dokonać rangowania lekarzy w postaci grup decylowych w oparciu o liczbę wypisanych recept. Każdy decyl będzie zawierał w przybliżeniu taką samą liczbę recept, jednak liczba osób wystawiających te recepty będzie różna, przy czym osoby, które wypisały najwięcej recept, będą skupione w decylu 10. Należy pamiętać, że przy takim rozwiązaniu zakłada się, że wszystkie wartości są większe od zera; w przeciwnym wypadku może dojść do uzyskania nieoczekiwanych wyników.
Wiązania. Warunek wiązania występuje, kiedy wartości po obu stronach punktu podziału są identyczne. Przykładowo, jeśli przypisywane są decyle i więcej niż 10% rekordów zawiera tą samą wartość dla zmiennej poddanej podziałowi, wówczas nie ma możliwości dopasowania ich do tego samego przedziału bez wymuszenia wartości granicznej. Wiązania można przenieść w górę do następnego przedziału lub mogą pozostać w bieżącym, ale konieczne będzie ich przetworzenie, dlatego wszystkie rekordy z identycznymi wartościami znajdą się w tym samym przedziale, nawet jeśli spowoduje to, że niektóre przedziały będą zawierały więcej rekordów niż oczekiwano. W wyniku tego wartości graniczne kolejnych przedziałów również mogą być skorygowane, co spowoduje różne przypisanie wartości dla tego samego zbioru liczb z użyciem metody zastosowanej do przetworzenia wiązań.
- Dodaj do następnej. Tę opcję należy wybrać, aby przenieść wartości wiązania w górę do następnej kategorii.
- Pozostaw w bieżącej. Zachowuje wartości w bieżącej (niższej) kategorii. Zastosowanie tej metody może skutkować utworzeniem mniejszej liczby przedziałów.
- Przydziel losowo. Tę opcję należy wybrać, aby przydzielać wartości wiązania do przedziału w sposób losowy. Podejmowana będzie próba zachowania w każdym przedziale takiej samej liczby rekordów.
Przykład: tworzenie N-tyli na podstawie liczebności rekordów
W poniższej tabeli przedstawiono sposób rangowania uproszczonych wartości zmiennych jako kwartyle przy zastosowaniu metody tworzenia N-tyli na podstawie liczebności rekordów. Należy pamiętać, że wyniki będą różniły się w zależności od wybranej opcji N-tyli.
| Wartości | Dodaj do następnej | Pozostaw w bieżącej |
|---|---|---|
| 10 | 1 | 1 |
| 13 | 2 | 1 |
| 15 | 3 | 2 |
| 15 | 3 | 2 |
| 20 | 4 | 3 |
Liczba pozycji w każdej kategorii jest obliczana w następujący sposób:
łączna liczba wartości/liczba N-tyli
W uproszczonym przykładzie przedstawionym powyżej żądana liczba pozycji w danej kategorii wynosi 1,25 (5 wartości/4 kwartyle). Wartość 13 (wartość numer 2) przekracza 1,25 żądanej wartości granicznej liczebności i dlatego jest traktowana w różny sposób, w zależności od wybranej opcji wiązania. W trybie Dodaj do następnej jest dodawana do kategorii 2. W trybie Zachowaj w bieżącej pozostaje w kategorii 1, przesuwając zakres wartości dla kategorii 4 poza istniejące wartości danych. W wyniku tego utworzone zostają tylko trzy kategorie, a wartości graniczne dla każdej kategorii zostają odpowiednio skorygowane, co przedstawiono w następującej tabeli.
| Kategoria | Dolna | Górna |
|---|---|---|
| 1 | >=10 | <15 |
| 2 | >=15 | <20 |
| 3 | >=20 | <=20 |
Uwaga: Szybkość kategoryzacji wg wiązań może zostać zwiększona poprzez aktywowanie przetwarzania równoległego.