N-tyle (równa liczebność lub suma)

Metoda kategoryzacji powoduje utworzenie zmiennych nominalnych, jakie mogą zostać użyte do rozdziału skanowanych rekordów na grupy percentyli (lub kwartyli, decyli itd.), w wyniku czego każda grupa będzie zawierała taką samą liczbę rekordów lub suma wartości w każdej grupie będzie taka sama. Rekordy są rangowane w porządku rosnącym na podstawie wartości określonej w zmiennej poddanej podziałowi, w wyniku czego rekordy o najniższych wartościach dla wybranej zmiennej poddanej podziałowi mają przypisaną rangę 1, kolejny zestaw rekordów ma rangę 2 itd. Wartości graniczne dla każdego przedziału są generowane automatycznie w oparciu o użyte dane i zastosowaną metodę tworzenia N-tyli.

Rozszerzenie nazwy N-tyla. Należy określić rozszerzenie, jakie będzie używane dla zmiennych wygenerowanych z zastosowaniem standardowych p-tyli. Domyślnym rozszerzeniem jest _TILE plus N, gdzie N oznacza liczbę N-tyli. Można również określić, czy rozszerzenie ma być dodawane na początku (Przedrostek), czy na końcu (Przyrostek) nazwy zmiennej. Można na przykład wygenerować nową zmienną o nazwie income_BIN4.

Rozszerzenie N-tyla użytkownika. Należy określić rozszerzenie, jakie będzie używane dla niestandardowego przedziału N-tyli. Wartość domyślna to _TILEN. Należy pamiętać, że N w tym przypadku nie jest zastępowane wartością niestandardową.

Dostępne p-tyle to:

  • Kwartyl. Generuje 4 przedziały, każdy składający się z 25% obserwacji.
  • Kwintyl. Generuje 5 przedziałów, każdy składający się z 20% obserwacji.
  • Decyl. Generuje 10 przedziałów, każdy składający się z 10% obserwacji.
  • Vingtyl. Generuje 20 przedziałów, każdy składający się z 5% obserwacji.
  • Percentyl. Generuje 100 przedziałów, każdy składający się z 1% obserwacji.
  • N użytkownika. Tę opcję należy wybrać, aby określić liczbę przedziałów. Przykładowo wartość 3 spowoduje utworzenie 3 kategorii podziału (2 punkty podziału), każda składająca się z 33,3% obserwacji.

Należy pamiętać, że jeśli w danych jest mniejsza liczba wartości dyskretnych niż liczba określonych N-tyli, nie wszystkie N-tyle zostaną użyte. W takich sytuacjach nowy rozkład prawdopodobnie będzie odzwierciedlał oryginalny rozkład danych.

Metoda tworzenia N-tyli. Określa metodę używaną do przypisywania rekordów do przedziałów.

  • Liczebność rekordów. Stara się przypisać jednakową liczbę rekordów do każdego przedziału.
  • Suma wartości. Stara się przypisać rekordy do przedziałów, tak aby suma wartości w każdym przedziale była jednakowa. Na przykład w przypadku konkretnego ukierunkowania działań sprzedażowych ta metoda może być zastosowana w celu przypisania potencjalnych klientów do grup decylowych na podstawie wartości dla rekordu, umieszczając potencjalnych klientów o najwyższej wartości w górnej części przedziału. Przykładowo firma farmaceutyczna może dokonać rangowania lekarzy w postaci grup decylowych w oparciu o liczbę wypisanych recept. Każdy decyl będzie zawierał w przybliżeniu taką samą liczbę recept, jednak liczba osób wystawiających te recepty będzie różna, przy czym osoby, które wypisały najwięcej recept, będą skupione w decylu 10. Należy pamiętać, że przy takim rozwiązaniu zakłada się, że wszystkie wartości są większe od zera; w przeciwnym wypadku może dojść do uzyskania nieoczekiwanych wyników.

Wiązania. Warunek wiązania występuje, kiedy wartości po obu stronach punktu podziału są identyczne. Przykładowo, jeśli przypisywane są decyle i więcej niż 10% rekordów zawiera tą samą wartość dla zmiennej poddanej podziałowi, wówczas nie ma możliwości dopasowania ich do tego samego przedziału bez wymuszenia wartości granicznej. Wiązania można przenieść w górę do następnego przedziału lub mogą pozostać w bieżącym, ale konieczne będzie ich przetworzenie, dlatego wszystkie rekordy z identycznymi wartościami znajdą się w tym samym przedziale, nawet jeśli spowoduje to, że niektóre przedziały będą zawierały więcej rekordów niż oczekiwano. W wyniku tego wartości graniczne kolejnych przedziałów również mogą być skorygowane, co spowoduje różne przypisanie wartości dla tego samego zbioru liczb z użyciem metody zastosowanej do przetworzenia wiązań.

  • Dodaj do następnej. Tę opcję należy wybrać, aby przenieść wartości wiązania w górę do następnej kategorii.
  • Pozostaw w bieżącej. Zachowuje wartości w bieżącej (niższej) kategorii. Zastosowanie tej metody może skutkować utworzeniem mniejszej liczby przedziałów.
  • Przydziel losowo. Tę opcję należy wybrać, aby przydzielać wartości wiązania do przedziału w sposób losowy. Podejmowana będzie próba zachowania w każdym przedziale takiej samej liczby rekordów.

Przykład: tworzenie N-tyli na podstawie liczebności rekordów

W poniższej tabeli przedstawiono sposób rangowania uproszczonych wartości zmiennych jako kwartyle przy zastosowaniu metody tworzenia N-tyli na podstawie liczebności rekordów. Należy pamiętać, że wyniki będą różniły się w zależności od wybranej opcji N-tyli.

Tabela 1. Przykład tworzenia N-tyli na podstawie liczebności rekordów
Wartości Dodaj do następnej Pozostaw w bieżącej
10 1 1
13 2 1
15 3 2
15 3 2
20 4 3

Liczba pozycji w każdej kategorii jest obliczana w następujący sposób:

łączna liczba wartości/liczba N-tyli

W uproszczonym przykładzie przedstawionym powyżej żądana liczba pozycji w danej kategorii wynosi 1,25 (5 wartości/4 kwartyle). Wartość 13 (wartość numer 2) przekracza 1,25 żądanej wartości granicznej liczebności i dlatego jest traktowana w różny sposób, w zależności od wybranej opcji wiązania. W trybie Dodaj do następnej jest dodawana do kategorii 2. W trybie Zachowaj w bieżącej pozostaje w kategorii 1, przesuwając zakres wartości dla kategorii 4 poza istniejące wartości danych. W wyniku tego utworzone zostają tylko trzy kategorie, a wartości graniczne dla każdej kategorii zostają odpowiednio skorygowane, co przedstawiono w następującej tabeli.

Tabela 2. Wynik przykładowej kategoryzacji
Kategoria Dolna Górna
1 >=10 <15
2 >=15 <20
3 >=20 <=20

Uwaga: Szybkość kategoryzacji wg wiązań może zostać zwiększona poprzez aktywowanie przetwarzania równoległego.