Metoda bootstrap

Metoda bootstrap to metoda uzyskiwania mocnych oszacowań błędów standardowych i przedziałów ufności dla ocen, takich jak średnia, mediana, proporcja, iloraz szans, współczynnik korelacji albo współczynnik regresji. Może być także używana do opracowywania testów hipotez. Metoda bootstrap jest najbardziej użyteczna jako alternatywa dla oszacowań parametrycznych, gdy występują wątpliwości dotyczące założeń tych metod (np. w przypadku modeli regresji, w których reszty heteroskedastyczne pasują do małych prób) albo gdy wnioskowanie parametryczne jest niemożliwe albo wymaga bardzo skomplikowanych formuł w celu obliczenia błędów standardowych (jak w przypadku obliczania przedziałów ufności dla mediany, kwartyli lub innych percentyli).

Przykłady

Przedsiębiorstwo telekomunikacyjne każdego miesiąca traci około 27% dotychczasowych klientów z powodu odejść. Aby prawidłowo ukierunkować działania ograniczające odejścia, zarząd firmy chce dowiedzieć się, czy odsetek ten jest różny w poszczególnych predefiniowanych grupach klientów. Korzystając z metody bootstrap, można określić, czy jeden poziom odejść wystarczająco dobrze opisuje cztery główne typy klientów.

Analizując akta pracownicze, zarząd chce uzyskać informacje o dotychczasowym doświadczeniu zawodowym pracowników. Doświadczenie ma skośność prawostronną, dlatego średnia jest mniej pożądanym oszacowaniem „typowego” doświadczenia pracowników. Lepszym oszacowaniem będzie w tym przypadku mediana. Jednak w programie nie są dostępne parametryczne przedziały ufności dla mediany.

Zarząd jest także zainteresowany określeniem, które czynniki są związane z podwyżkami wynagrodzeń pracowników. W tym celu chce dopasować model liniowy do różnic między obecnymi a początkowymi wartościami wynagrodzenia. Stosując metodę bootstrap do modelu liniowego, można używać specjalnych metod ponownego próbkowania (boostrap reszt i dziki bootstrap) w celu uzyskania bardziej dokładnych wyników.

Wiele procedur umożliwia próby bootstrapowe i łączenie wyników analizy prób bootstrapowych. Elementy sterujące służące do definiowania analiz boostrapowych są wbudowane w procedury obsługujące bootstrapping bezpośrednio jako wspólne podrzędne okno dialogowe. Ustawienia wybrane w oknie dialogowym Bootstrap są zachowywane między procedurami, zatem uruchomienie analizy częstości z bootstrappingiem za pośrednictwem okna dialogowego spowoduje, że bootstrapping będzie domyślnie włączony także dla pozostałych procedur obsługujących tę metodę.

Uzyskiwanie analizy bootstrap

Z meny wybierz procedurę obsługującą bootstrapping i kliknij opcję Bootstrap.
Wybierz opcję Realizacja metody bootstrapowej.

Opcjonalnie można określić ustawienie następujących opcji:

Liczba prób. Ze względu na wyznaczane percentyle i przedziały BCa zaleca się użycie co najmniej 1000 prób bootstrapowych. Określ dodatnią liczbę całkowitą.

Wartość startowa generatora Mersenne Twister. Ustawienie wartości startowej umożliwia powielenie analizy. Używanie tego elementu jest podobne do ustawiania generatora Mersenne Twister jako aktywnego generatora oraz określenia stałego punktu startowego w oknie dialogowym Generator liczb losowych. Przy czym istnieje tu istotna różnica polegająca na tym, że ustawienie wartości startowej w tym oknie dialogowym zachowa bieżący stan generatora liczb pseudolosowych i przywróci stan po skończeniu analizy. Więcej informacji można znaleźć w temacie Losowe generatory liczb .

Przedziały ufności. Określa poziom ufności większy niż 50 i mniejszy niż 100. Przedziały percentylowe wyznaczane są po prostu na podstawie uporządkowanych wartości bootstrapowych odpowiadających percentylom przedziału ufności. Na przykład 95% percentylowy przedział ufności ma dolną i górną granicę wyznaczoną przez 2,5 i 97,5 percentyl wartości bootstrapowych (w razie potrzeby wartości bootstrapowe są interpolowane). Przedziały BCa (Bias Corrected and Accelerated) są przedziałami skorygowanymi, które charakteryzują się większą dokładnością, ale kosztem dłuższego czasu obliczeń.

Próbkowanie. Metoda Prosta polega na ponownym próbkowaniu obserwacji poprzez zastępowanie ich z pierwotnego zbioru danych. Metoda Warstwowe polega na zastępowaniu obserwacji z pierwotnego zbioru danych, ale w obrębie warstw zdefiniowanych przez klasyfikację krzyżową zmiennych warstw. Dobór próby bootstrapowej z podziałem na warstwy bywa przydatny, gdy jednostki w warstwie są względnie jednorodne, a jednostki w różnych warstwach istotnie się różnią.

Uwaga: Wykresy nie są generowane w danych wyjściowych, gdy jest włączone ładowanie bootstrapowa.

Wykonanie komendy bootstrapping wkleja składnię komendy BOOTSTRAP .