Pliki przykładowe

Przykładowe pliki zainstalowane wraz z produktem można znaleźć w podkatalogu Samples w katalogu instalacyjnym. W podkatalogu Samples znajdują się osobne foldery dla każdego z następujących języków: angielskiego, francuskiego, niemieckiego, włoskiego, japońskiego, koreańskiego, polskiego, rosyjskiego, chińskiego uproszczonego, hiszpańskiego i chińskiego tradycyjnego.

Nie wszystkie przykładowe pliki są dostępne we wszystkich językach. Jeżeli przykładowy plik nie jest dostępny w danym języku, ten folder językowy zawiera angielską wersję przykładowego pliku.

Opisy

Poniżej znajdują się krótkie opisy przykładowych plików wykorzystywanych w różnych przykładach zamieszczonych w dokumentacji.

  • accidents.sav. Jest to plik danych hipotetycznych dotyczący przedsiębiorstwa ubezpieczeniowego, które analizuje związane z wiekiem i płcią czynniki ryzyka wypadków samochodowych w danym regionie. Każda obserwacja odpowiada klasyfikacji krzyżowej kategorii wieku i płci.
  • adl.sav. Jest to plik danych hipotetycznych dotyczący starań służących określeniu korzyści płynących z proponowanego typu terapii dla pacjentów po udarze. Lekarze losowo przypisali pacjentów po udarze do jednej z dwóch grup. W pierwszej grupie przeprowadzono standardową fizjoterapię, w drugiej zaś także dodatkową terapię psychologiczną. Trzy miesiące po leczeniu zdolności każdego pacjenta do wykonywania codziennych czynności zostały ocenione jako zmienne porządkowe.
  • advert.sav. Jest to plik danych hipotetycznych dotyczący badań firmy handlowej nad relacją między nakładami finansowymi na reklamę a wynikami sprzedaży. W tym celu zgromadzono wyniki sprzedaży z przeszłości i powiązane z nimi koszty reklamy.
  • aflatoxin.sav. Jest to plik danych hipotetycznych dotyczący badań nasion kukurydzy pod kątem obecności aflatoksyny, trucizny, której stężenie różni się znacznie między plonami zbóż i w ich obrębie. Zakład przetwórstwa zbóż otrzymał 16 próbek z każdego z 8 plonów i zmierzył poziom aflatoksyny w cząsteczkach na miliard (PPB).
  • anorectic.sav. Badacze 1 , pracując w kierunku standaryzowanej symptomatologii zachowania anorektyzmu/bulimii, dokonali badania 55 nastolatków ze znanymi zaburzeniami odżywiania. Każdy pacjent był badany cztery razy w ciągu czterech lat, co dało łącznie 220 obserwacji. W każdej obserwacji u pacjentów oceniano każdy z 16 symptomów. Brakuje ocen symptomów pacjenta 71 przy 2. badaniu, pacjenta 76 przy 2. badaniu i pacjenta 47 przy 3. badaniu, co daje 217 ważnych obserwacji.
  • bankloan.sav. Ten plik danych hipotetycznych dotyczy dążeń banku do zmniejszenia wskaźnika niespłaconych kredytów. Plik zawiera informacje finansowe i demograficzne dotyczące 850 przeszłych i obecnych klientów. Pierwsze 700 obserwacji to klienci, którym przyznano już kredyty. Ostatnie 150 obserwacji to przyszli, potencjalni klienci, których bank musi sklasyfikować jako mających dobrą lub złą sytuację kredytową.
  • bankloan_binning.sav. Jest to plik danych hipotetycznych, zawierający informacje finansowe i demograficzne o 5000 byłych klientów.
  • behavior.sav. W klasycznym przykładzie 2, 52 studentów poproszono o współczynnik kombinacji 15 sytuacji i 15 zachowań w skali 10-punktowej, od 0 = "skrajnie właściwe" do 9 = "skrajnie nieodpowiednie". Wartości zostały uśrednione i zarejestrowane jako niepodobieństwa.
  • behavior_ini.sav. Ten plik danych zawiera konfigurację początkową dwuwymiarowego rozwiązania zagadnienia z pliku behavior.sav.
  • brakes.sav. Jest to plik danych hipotetycznych, który dotyczy kontroli jakości w zakładzie produkującym hamulce tarczowe dla samochodów wysokiej klasy. Plik danych zawiera wyniki pomiarów średnicy 16 tarcz hamulcowych pochodzących z każdej z 8 maszyn produkcyjnych. Docelowa średnica tarcz wynosi 322 milimetry.
  • breakfast.sav. W klasycznym badaniu 3, 21 studentów MBA Wharton School oraz ich małżonkowie zostali poproszeni o ocenę 15 pozycji śniadaniowych w kolejności od 1 = "najbardziej preferowane" do 15 = "najmniej preferowane". Preferencje zarejestrowano w ramach sześciu różnych scenariuszy, od „Preferencji ogólnej” do „Przekąska, tylko z napojem”.
  • breakfast-overall.sav. Ten plik danych zawiera preferencje dotyczące artykułów śniadaniowych tylko dla pierwszego scenariusza, „Preferencja ogólna”.
  • broadband_1.sav. Jest to plik danych hipotetycznych, zawierający liczbę abonentów (według regionu) krajowej stacji telewizyjnej. Plik danych zawiera miesięczne liczby abonentów z 85 regionów w okresie czterech lat.
  • broadband_2.sav. Ten plik danych jest taki sam jak plik broadband_1.sav, ale zawiera dane za trzy dodatkowe miesiące.
  • car_insurance_claims.sav. Zbiór danych przedstawiony i przeanalizowany w innym miejscu 4 dotyczy roszczeń o szkody dla samochodów. Średnią kwotę roszczenia można zamodelować jako zmienną o rozkładzie gamma, używając odwróconej funkcji łączenia w celu powiązania średniej zmiennej zależnej z liniową kombinacją wieku ubezpieczonego, typu pojazdu i jego wieku. Liczba wniesionych roszczeń może być wykorzystana jako waga skalująca.
  • car_sales.sav. Ten plik danych zawiera hipotetyczne oszacowania sprzedaży, ceny i specyfikacje fizyczne różnych marek i modeli pojazdów. Ceny i specyfikacje fizyczne uzyskano naprzemiennie z witryny edmunds.com i z witryn producentów.
  • car_sales_uprepared.sav. Jest to zmodyfikowana wersja pliku car_sales.sav , która nie obejmuje żadnych przetransformowanych wersji tych pól.
  • carpet.sav. W popularnym przykładzie 5firma zainteresowana wprowadzeniem do obrotu nowego środka czyszczącego do dywanów chce zbadać wpływ pięciu czynników na preferencje konsumenta-projekt pakietu, nazwę marki, cenę, pieczęć Good Housekeeping oraz gwarancję zwrotu pieniędzy. Istnieją trzy poziomy czynników dotyczące konstrukcji opakowań (różniących się położeniem aplikatora), trzy marki (K2R, Glory i Bissell), trzy poziomy cen i dwa poziomy (tak lub nie) dla każdego z dwóch ostatnich czynników. Dziesięciu klientów ocenia 22 profile zdefiniowane przez te czynniki. Zmienna Preferencja zawiera rangę średnich ocen każdego profilu. Niskie rangi odpowiadają wysokiej preferencji. Zmienna ta odzwierciedla ogólną miarę preferencji każdego z profili.
  • carpet_prefs.sav. Ten plik danych bazuje na przykładzie omówionym w opisie pliku carpet.sav, ale zawiera rzeczywiste rangowanie uzyskane od każdego z 10 klientów. Klientów poproszono o uszeregowanie 22 profili produktów, od najbardziej do najmniej preferowanego. Zmienne od PREF1 do PREF22 zawierają identyfikatory powiązanych profili, zgodnie z definicją w pliku carpet_plan.sav.
  • catalog.sav. Ten plik danych zawiera hipotetyczne miesięczne wielkości sprzedaży trzech produktów oferowanych przez firmę wydającą katalogi. Uwzględniono także dane pięciu możliwych predyktorów.
  • catalog_seasfac.sav. Ten plik danych jest taki sam jak plik catalog.sav, ale dodano w nim zestaw czynników sezonowych obliczonych za pomocą procedury Dekompozycja sezonowa oraz towarzyszące im zmienne daty.
  • cellular.sav. Jest to plik danych hipotetycznych dotyczący dążeń operatora telefonii komórkowej do zmniejszenia poziomu odejścia klientów. Do klientów przypisywane są oceny skłonności do odejścia z zakresu od 0 do 100. Klienci z oceną 50 lub wyższą prawdopodobnie rozważają zmianę dostawcy.
  • ceramics.sav. Jest to plik danych hipotetycznych dotyczący dążeń producenta do określenia, czy nowy stop wysokiej klasy ma większą odporność termiczną niż stop standardowy. Każda obserwacja odpowiada odrębnemu testowi jednego ze stopów i zawiera wartość temperatury, przy której łożysko uległo awarii.
  • cereal.sav. Jest to plik danych hipotetycznych, który dotyczy badania 880 osób w zakresie ich preferencji śniadaniowych, rejestrującego także ich wiek, płeć, stan cywilny i informacje o aktywnym stylu życia (w zależności od tego, czy co najmniej dwa razy w tygodniu uprawiają sport). Każda obserwacja reprezentuje jednego respondenta.
  • clothing_defects.sav. Jest to plik danych hipotetycznych, który dotyczy procesu kontroli jakości w fabryce odzieży. Z każdej partii produkowanej w zakładzie inspektorzy pobierają próbę odzieży i liczą, ile sztuk odzieży jest nie do przyjęcia.
  • coffee.sav. Ten plik danych odnosi się do postrzeganych obrazów sześciu marek kawy mrożonej 6 . Dla każdego z 23 atrybutów kawy mrożonej respondenci wybierali wszystkie marki, które były opisywane przez dany atrybut. Sześć marek oznaczono symbolami AA, BB, CC, DD, EE i FF, aby zachować poufność.
  • contacts.sav. Jest to plik danych hipotetycznych, który dotyczy list kontaktowych dla grupy przedstawicieli handlowych sprzedających komputery dla firm. Każdy kontakt jest przydzielony do kategorii według działu firmy, w którym pracuje dany przedstawiciel, oraz jego pozycji w firmie. Zarejestrowano także kwotę ostatniej zawartej transakcji sprzedaży, czas, jaki upłynął od ostatniej transakcji, oraz wielkość firmy osoby kontaktowej.
  • creditpromo.sav. Jest to plik danych hipotetycznych, który dotyczy dążeń domu towarowego do oszacowania skuteczności ostatniej promocji kart kredytowych. W tym celu wybrano losowo 500 posiadaczy kart. Połowa z nich otrzymała reklamę promującą obniżoną stopę procentową na zakupy dokonane w ciągu trzech następnych miesięcy. Druga połowa otrzymała standardową sezonową reklamę.
  • customer_dbase.sav. Jest to plik danych hipotetycznych, dotyczący dążeń firmy do wykorzystania informacji znajdujących się w jej magazynie danych w celu złożenia specjalnych ofert klientom, w których przypadku prawdopodobieństwo odpowiedzi jest największe. Losowo wybrano podzbiór klientów z bazy klientów firmy, skierowano do nich oferty specjalne i zarejestrowano ich reakcje.
  • customer_information.sav. Plik z hipotetycznymi danymi, zawierający informacje mailingowe klientów, takie jak nazwy i adresy.
  • customer_subset.sav. Podzbiór 80 obserwacji z customer_dbase.sav.
  • debate.sav. Jest to plik danych hipotetycznych, który dotyczy par odpowiedzi na ankietę przeprowadzaną wśród uczestników debaty politycznej przed debatą i po niej. Każda obserwacja odpowiada jednemu respondentowi.
  • debate_aggregate.sav. Jest to plik danych hipotetycznych, w którym zagregowano odpowiedzi z pliku debate.sav. Każda obserwacja odpowiada klasyfikacji krzyżowej preferencji przed debatą i po niej.
  • demo.sav. Jest to plik danych hipotetycznych, który dotyczy bazy danych klientów zakupionej do celów wysyłania comiesięcznych ofert. Zarejestrowano fakt, czy dany klient zareagował na ofertę, oraz różne informacje demograficzne.
  • demo_cs_1.sav. Jest to plik danych hipotetycznych, który dotyczy pierwszego etapu dążeń pewnej firmy do skompilowania bazy danych informacji uzyskanych w ankiecie. Każda obserwacja odpowiada innemu miastu. Rejestrowane są region, prowincja, okręg i identyfikator miasta.
  • demo_cs_2.sav. Jest to plik danych hipotetycznych, który dotyczy drugiego etapu dążeń pewnej firmy do skompilowania bazy danych informacji uzyskanych w ankiecie. Każda obserwacja odpowiada różnym jednostkom gospodarstw domowych z miast wybranych w pierwszym etapie; rejestrowane są region, prowincja, okręg, miasto, oddział i identyfikator jednostki. Uwzględniono także informacje na temat doboru próby z pierwszych dwóch etapów konstruowania bazy.
  • demo_cs.sav. Jest to plik danych hipotetycznych, który zawiera wyniki ankiety zgromadzone przy użyciu złożonego modelu planu losowania. Każda obserwacja odpowiada innej jednostce gospodarstwa domowego; rejestrowane są różne informacje demograficzne i dotyczące doboru próby.
  • diabetes_costs.sav. Ten plik danych hipotetycznych zawiera informacje towarzystwa ubezpieczeniowego na temat osób ubezpieczonych chorych na cukrzycę. Każda obserwacja odpowiada jednemu ubezpieczonemu.
  • dietstudy.sav. Ten hipotetyczny plik danych zawiera wyniki badania "dieta Stillmana" 7. Każda obserwacja odpowiada odrębnemu badanemu i zawiera jego wagę w funtach przed dietą i po niej oraz poziom trójglicerydów we krwi w mg/100 ml.
  • dmdata.sav. Jest to plik danych hipotetycznych, który zawiera informacje demograficzne i informacje dotyczące zakupów firmy zajmującej się marketingiem bezpośrednim. dmdata2.sav zawiera informacje o podzbiorze kontaktów, które otrzymały wiadomości testowe, a dmdata3.sav zawiera informacje o pozostałych kontaktach, które nie otrzymały wiadomości testowych.
  • dvdplayer.sav. Jest to plik danych hipotetycznych dotyczący prac nad nowym odtwarzaczem płyt DVD. Używając prototypu urządzenia, dział marketingu zgromadził dane z grupy fokusowej. Każda obserwacja odpowiada jednemu badanemu użytkownikowi i zawiera pewne dane demograficzne o badanych oraz ich odpowiedzi na pytania dotyczące prototypu.
  • german_credit.sav. Ten plik danych jest przyjmowany z zestawu danych "Niemiecki kredyt" w repozytorium baz danych Machine Learning 8 na Uniwersytecie Kalifornijskim w Irvine.
  • grocery_1month.sav. Ten plik danych hipotetyczny to plik danych grocery_coupons.sav, w którym tygodniowe wielkości zakupów zostały zagregowane tak, aby każda obserwacja odpowiadała jednemu klientowi. W rezultacie pewne zmienne, które zmieniały się w skali tygodnia, zniknęły, a zarejestrowana kwota wydatków jest teraz sumą wydatków w ciągu czterech tygodni badania.
  • grocery_coupons.sav. Jest to plik danych hipotetycznych, który zawiera dane zebrane w ankiecie prowadzonej przez sieć sklepów spożywczych, zainteresowaną nawykami zakupowymi swoich klientów. Każdy klient jest badany przez cztery tygodnie, a każda obserwacja odpowiada odrębnemu tygodniowi tego klienta i zawiera obserwacje o tym, gdzie i kiedy dana osoba robi zakupy oraz ile wydała na artykuły spożywcze w danym tygodniu.
  • guttman.sav. Bell 9 zaprezentował tabelę ilustrujące możliwe grupy społeczne. Guttmana 10 wykorzystała część tej tabeli, w której pięć zmiennych opisujących takie rzeczy jak interakcja społeczna, uczucia przynależności do grupy, fizyczna bliskość członków oraz formalność relacji krzyżowano się z siedmioma teoretycznymi grupami społecznymi, w tym tłumami (na przykład ludźmi w grze w piłkę nożną), publicznością (na przykład ludźmi w teatrze lub wykładem sali lekcyjnej), publicznością (na przykład, gazetą czy odbiorcami telewizyjnymi), mobów (jak tłum, ale o wiele bardziej intensywne współdziałanie), grup podstawowych (intymnych), grup wtórnych (dobrowolnych), oraz współczesnej społeczności (luźna konfederacja wynikała z bliskiej odległości fizycznej i potrzeby wyspecjalizowanych służb).
  • health_funding.sav. Jest to plik danych hipotetycznych, który zawiera dane na temat finansowania opieki zdrowotnej (kwoty na 100 członków populacji), wskaźników zachorowań (wskaźnik na 10 000 członków populacji) i wizyt w zakładach opieki zdrowotnej (wskaźnik na 10 000 członków populacji). Każda obserwacja reprezentuje inne miasto.
  • hivassay.sav. Jest to plik danych hipotetycznych, który dotyczy dążeń laboratorium farmaceutycznego do opracowania szybkiej metody oznaczania próbek w celu wykrywania zakażenia wirusem HIV. Wyniki oznaczania to osiem ciemniejących odcieni czerwieni, gdzie ciemniejsze odcienie oznaczają większe prawdopodobieństwo zachorowania. Próba laboratoryjna została przeprowadzona na 2000 próbek krwi, z których połowa była zainfekowana wirusem HIV, druga połowa zaś wolna od wirusa.
  • hourlywagedata.sav. Jest to plik danych hipotetycznych, który dotyczy wynagrodzeń godzinowych pielęgniarek zatrudnionych w przychodniach i szpitalach i mających różne poziomy doświadczenia.
  • insurance_claims.sav. To jest plik hipotetycznych danych, które dotyczą firmy ubezpieczeniowej chcącej zbudować model wykrywania podejrzanych, potencjalnie oszukańczych, roszczeń. Każda obserwacja reprezentuje jedno roszczenie.
  • insure.sav. Jest to plik danych hipotetycznych, który dotyczy firmy ubezpieczeniowej badającej czynniki ryzyka, wskazujących, czy klient będzie musiał wnieść roszczenie w ramach 10-letniej umowy ubezpieczenia na życie. Każda obserwacja w pliku danych reprezentuje parę umów, z których w jednej nastąpiło roszczenie, dopasowanych według wieku i płci.
  • judges.sav. Jest to plik danych hipotetycznych, który dotyczy ocen przyznawanych przez wykwalifikowanych sędziów (i jednego ochotnika) 300 występom gimnastycznym. Każdy wiersz reprezentuje jeden występ; sędziowie oglądali te same występy.
  • kinship_dat.sav. Rosenberg i Kim 11 postawili na analizę 15 warunków pokrewień-kinowych (ciotka, brat, kuzyn, córka, ojciec, wnuczka, dziadek, babcia, wnuk, matka, bratanek, siostrzenica, siostra, syn, wujek). Poprosili cztery grupy studentów (dwie męskie i dwie żeńskie) o posortowanie tych terminów na podstawie podobieństw. Dwie grupy (jedną męską i jedną żeńską) poproszono o posortowanie terminów dwa razy, przy czym drugie sortowanie miało być oparte na innym kryterium niż pierwsze. W ten sposób uzyskano łącznie sześć „źródeł”. Każde źródło odpowiada macierzy odległości 15 x 15, której komórki odpowiadają liczbie osób w źródle pomniejszonej o liczbę określającą, ile razy zmienne w tym źródle były łączone w podzbiory.
  • kinship_ini.sav. Ten plik danych zawiera konfigurację początkową trójwymiarowego rozwiązania zagadnienia z pliku kinship_dat.sav.
  • kinship_var.sav. Ten plik danych zawiera zmienne niezależne gender [płeć], gener(ation) [pokolenie] i degree (of separation) [stopień oddzielenia], które można wykorzystać do interpretacji wymiarów rozwiązania zagadnienia z pliku kinship_dat.sav. W szczególności można je wykorzystać do ograniczenia przestrzeni rozwiązania do liniowej kombinacji tych zmiennych.
  • marketvalues.sav. Ten plik danych dotyczy sprzedaży domu w nowym rozwoju budownictwa mieszkaniowego w Algonquin, Ill., w latach 1999-2000. Dane o tej sprzedaży są ogólnodostępne.
  • nhis2000_subset.sav. National Health Interview Survey (NHIS) to duże, oparte na całej populacji badanie stanu zdrowia ludności cywilnej w USA. Wywiady są przeprowadzane osobiście w reprezentatywnej w skali kraju próbie gospodarstw domowych. Dla każdego członka rodziny gromadzi się informacje i spostrzeżenia o zachowaniach dotyczących zdrowia i stanie zdrowia. Ten plik danych zawiera podzbiór informacji z badania przeprowadzonego w 2000 r. National Center for Health Statistics. National Health Interview Survey, 2000. Public-use data file and documentation. ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NHIS/2000/. Dostęp uzyskano w 2003 r.
  • ozone.sav. Dane uwzględniają 330 obserwacji sześciu zmiennych meteorologicznych, służących do przewidywania koncentracji ozonu na podstawie pozostałych zmiennych. Poprzedni badacze 12, 13, znaleźli między innymi nieliniowości wśród tych zmiennych, co utrudniło standardowe podejście regresyjne.
  • pain_medication.sav. Ten plik danych hipotetycznych zawiera wyniki badań klinicznych leku przeciwzapalnego służącego do leczenia chronicznego bólu stawów. Przedmiotem szczególnego zainteresowania jest czas, jaki potrzebny jest do działania leku, oraz jego porównanie z istniejącymi lekami.
  • patient_los.sav. Ten plik danych hipotetycznych zawiera dane leczenia pacjentów przyjętych do szpitala z podejrzeniem zawału mięśnia sercowego („ataku serca”). Każda obserwacja odpowiada jednemu pacjentowi i zawiera wiele zmiennych związanych z jego pobytem w szpitalu.
  • patlos_sample.sav. Ten plik danych hipotetycznych zawiera dane leczenia próby pacjentów, u których podczas leczenia zawału mięśnia sercowego („ataku serca”) podawano leki trombolityczne (rozpuszczające skrzepy krwi). Każda obserwacja odpowiada jednemu pacjentowi i zawiera wiele zmiennych związanych z jego pobytem w szpitalu.
  • poll_cs.sav. Jest to plik danych hipotetycznych, który dotyczy dążeń ankieterów państwowych do określenia poziomu wsparcia publicznego dla ustawy przed jej przyjéem przez zgromadzenie ustawodawcze. Obserwacje odpowiadają zarejestrowanym osobom głosującym. Każda obserwacja zawiera dane o okręgu, okręgu miejskim i osiedlu, w których dana osoba głosująca mieszka.
  • poll_cs_sample.sav. Ten plik danych hipotetycznych zawiera próbę osób głosujących w wymienionych w pliku poll_cs.sav. Próbę dobrano zgodnie z wzorcem określonym w pliku poll.csplan, a w pliku danych zarejestrowano prawdopodobieństwo uwzględnienia i przykładowe wagi. Należy jednak pamiętać, że ponieważ plan dobierania próby wykorzystuje metodę prawdopodobieństwa proporcjonalnego do rozmiaru (PPS), istnieje także plik zawierający prawdopodobieństwa dla łącznego wyboru (poll_jointprob.sav). Dodatkowe zmienne odpowiadające danym demograficznym osób głosujących i ich opiniom o proponowanej ustawie zostały zebrane i dodane do pliku danych po doborze próby.
  • property_assess.sav. Jest to plik danych hipotetycznych, które dotyczą dążeń asesora okręgu do utrzymania aktualności wycen wartości nieruchomości przy ograniczonych zasobach. Obserwacje odpowiadają nieruchomościom sprzedanym w obrębie hrabstwa w ostatnim roku. W każdej obserwacji w pliku danych zarejestrowano okręg miejski, w którym znajduje się nieruchomość, nazwisko asesora, który ostatnio odwiedzał nieruchomość, czas, jaki upłynął od tej wyceny, dokonaną wówczas wycenę wartości oraz wartość sprzedaży nieruchomości.
  • property_assess_cs.sav. Jest to plik danych hipotetycznych, które dotyczą dążeń urzędnika stanu do utrzymania aktualności wycen wartości nieruchomości przy ograniczonych zasobach. Obserwacja odpowiadają nieruchomościom w obrębie stanu. W każdej obserwacji w pliku danych zarejestrowano okręg, okręg miejski i dzielnicę, w której znajduje się nieruchomość, czas, jaki upłynął od ostatniej wyceny, oraz dokonaną wówczas wycenę wartości.
  • property_assess_cs_sample.sav. Ten plik danych hipotetycznych zawiera próbę nieruchomości wymienionych w pliku property_assess_cs.sav. Próbę dobrano zgodnie z wzorcem określonym w pliku property_assess.csplan, a w pliku danych zarejestrowano prawdopodobieństwo uwzględnienia i przykładowe wagi. Po dobraniu próby do pliku danych dodano nowo zgromadzoną zmienną, Current value (Wartość bieżąca).
  • recidivism.sav. Jest to plik danych hipotetycznych, które dotyczą dążeń rządowej agencji organów ścigania do zrozumienia wskaźników recydywy w jej obszarze jurysdykcji. Każda obserwacja odpowiada jednej osobie, która wcześniej złamała prawo, i zawiera informacje demograficzne, pewne szczegóły pierwszego przestępstwa oraz czas, jaki upłynął do drugiego aresztowania, jeśli miało ono miejsce w ciągu dwóch lat od pierwszego aresztowania.
  • recidivism_cs_sample.sav. Jest to plik danych hipotetycznych, które dotyczą dążeń rządowej agencji organów ścigania do zrozumienia wskaźników recydywy w jej obszarze jurysdykcji. Każda obserwacja odnosi się do poprzedniego sprawcy, zwolnionego w czerwcu 2003 r. po odbyciu pierwszej kary pozbawienia wolności. Wraz z obserwacją zapisane są dane demograficzne, niektóre informacje o pierwszym przestępstwie, a także dane dotyczące drugiego aresztowania, jeśli miało ono miejsce przed końcem czerwca 2006 r. Przestępcy zostali wybrani z departamentów zgodnie z planem losowania określonym w pliku recdivism_cs.csplan. Ponieważ wykorzystywana jest metoda prawdopodobieństwa proporcjonalnego do wielkości (PPS), istnieje również plik zawierający prawdopodobieństwa wspólnego wyboru (recidivism_cs_jointprob.sav).
  • rfm_transactions.sav. Plik z danymi hipotetycznymi, który zawiera dane dotyczące transakcji zamówień, w tym datę zamówienia, elementy zamawiane i wartość pieniężną każdej transakcji.
  • salesperformance.sav. Jest to plik danych hipotetycznych dotyczący oceny dwóch nowych kursów dla sprzedawców. Sześćdziesięciu pracowników podzielonych na trzy grupy otrzymuje szkolenie standardowe. Dodatkowo grupa 2 uczestniczy w szkoleniu technicznym, a grupa 3 w kursie praktycznym. Na zakończenie kursu przetestowano wszystkich pracowników i zarejestrowano ich oceny. Każda obserwacja w pliku danych odpowiada jednemu kursantowi i zawiera informacje o grupie, do której dany kursant został przydzielony, oraz ocenę, jaką uzyskał na egzaminie.
  • satisf.sav. Jest to plik danych hipotetycznych, który dotyczy badania zadowolenia klientów przeprowadzonego przez firmę handlową w 4 sklepach. Przebadano łącznie 582 klientów, a każda obserwacja reprezentuje odpowiedzi jednego klienta.
  • screws.sav. Ten plik danych zawiera informacje na temat parametrów wkrętów, śrub, nakrętek i kranów 14.
  • shampoo_ph.sav. Jest to plik danych hipotetycznych, który dotyczy procesu kontroli jakości w fabryce produktów do pielęgnacji włosów. W regularnych odstępach czasu dokonywane są pomiary sześciu odrębnych partii produktów i rejestrowane jest ich pH. Docelowy zakres wartości to 4,5–5,5.
  • ships.sav. Zbiór danych zaprezentowany i przeanalizowany w innym miejscu 15 , który dotyczy uszkodzeń statków towarowych spowodowanych przez fale. Liczebność wypadków można zamodelować jako zmienną o rozkładzie Poissona, mając dany typ statku, okres jego budowy i serwisowania. Łączna liczba miesięcy pracy dla każdej komórki tabeli utworzonej przez klasyfikację krzyżową czynników stanowi wartość narażenia na ryzyko.
  • site.sav. Jest to plik danych hipotetycznych, który dotyczy dążeń firmy do wybrania nowych obszarów rozwijania działalności. Firma zatrudniła dwóch konsultantów, aby odrębnie ocenili te lokalizacje. Oprócz rozszerzonego raportu, każdej lokalizacji przyznali oni sumaryczną ocenę, uznając ją za „dobrą”. „średnią” lub „kiepską” możliwość.
  • smokers.sav. Ten plik danych pochodzi z przeprowadzonego w USA w 1998 r. krajowego badania gospodarstw domowych dotyczącego stosowania używek i stanowi prawdopodobną próbę amerykańskich gospodarstw domowych. (http://dx.doi.org/10.3886/ICPSR02934) W związku z tym pierwszym krokiem analizy tego pliku danych powinno być odchudzanie danych w celu odzwierciedlenia trendów populacyjnych.
  • stocks.sav Ten plik danych hipotetycznych zawiera ceny akcji i ich ilość dla jednego roku.
  • stroke_clean.sav. Ten plik danych hipotetycznych zawiera stan bazy danych medycznych po jej wyczyszczeniu za pomocą procedur z opcji Przygotowanie danych.
  • stroke_invalid.sav. Ten plik danych hipotetycznych zawiera początkowy stan bazy danych medycznych, w tym kilka błędów we wprowadzaniu danych.
  • stroke_survival. Ten plik danych hipotetycznych zawiera dane o czasie przeżycia pacjentów kończących program rehabilitacji pacjentów po udarze niedokrwiennym, stających przed różnymi wyzwaniami. Notowane są takie zdarzenia, jak udar wtórny, zawał serca, udar niedokrwienny lub krwotoczny, oraz czas ich wystąpienia. Próba jest obcięta z lewej strony, ponieważ obejmuje tylko pacjentów, którzy dożyli do końca programu rehabilitacji zaleconego po udarze.
  • stroke_valid.sav. Ten plik danych hipotetycznych zawiera stan bazy danych medycznych po sprawdzeniu wartości za pomocą procedury Walidacja danych. Nadal zawiera obserwacje, które mogą być anomaliami.
  • survey_sample.sav. Ten plik danych zawiera wyniki badania obejmujące dane demograficzne i różne miary poglądów. Bazuje on na podzbiorze zmiennych z ogólnych badań opinii społecznej, przeprowadzonych w 1998 roku przez NORC (amerykański ośrodek badania opinii społecznej), mimo to niektóre wartości danych zostały zmodyfikowane i dodatkowe, fikcyjne zmienne zostały dodane do celów demonstracyjnych.
  • tcm_kpi.sav. Jest to plik danych hipotetycznych zawierający wartości kluczowych wskaźników wydajności (KPI) przedsiębiorstwa za poszczególne tygodnie. Zawiera także dane różnych metryk podlegających kontroli — z poszczególnych tygodni w tym samym okresie, którego dotyczą dane o wskaźnikach wydajności.
  • tcm_kpi_upd.sav. Ten plik danych jest taki sam jak plik tcm_kpi.sav.sav, ale zawiera dane za cztery dodatkowe tygodnie.
  • telco.sav. Ten plik danych hipotetycznych dotyczy dążeń firmy telekomunikacyjnej do zmniejszenia poziomu odejścia w bazie klientów. Każda obserwacja odpowiada jednemu klientowi i zawiera różne informacje demograficzne oraz dane o wykorzystaniu usług.
  • telco_extra.sav. Ten plik danych jest podobny do pliku danych telco.sav, ale usunięto z niego zmienne „tenure” (tytuł użytkowania) i dane wydatków przedstawione na przekształconej skali logarytmicznej, zastąpione ustandaryzowanymi zmiennymi wydatków klientów, przedstawionymi na przekształconej skali logarytmicznej.
  • telco_missing.sav. Ten plik danych jest taki sam jak plik danych telco.sav, ale niektóre dane demograficzne zastąpiono w nim brakami danych.
  • testmarket.sav. Ten plik danych hipotetycznych dotyczy planów sieci barów szybkiej obsługi co do wprowadzenia nowej pozycji w menu. Istnieją trzy możliwe kampanie promujące nowy produkt, nowa pozycja jest więc wprowadzana w oddziałach na kilku losowo wybranych rynkach. W każdym oddziale wykorzystuje się inną kampanię promocyjną i rejestruje się tygodniową wielkość sprzedaży nowego produktu. Każda obserwacja odpowiada jednemu tygodniowi w określonej lokalizacji.
  • testmarket_1month.sav. Ten plik danych hipotetycznych to plik danych testmarket.sav, w którym tygodniowe wielkości sprzedaży zostały zagregowane tak, aby każda obserwacja odpowiadała jednej lokalizacji. W rezultacie niektóre zmienne, zmieniające się w skali tygodnia, zniknęły, a zarejestrowana wielkość sprzedaży jest teraz sumą sprzedaży w ciągu czterech tygodni badania.
  • tree_car.sav. Jest to plik danych hipotetycznych zawierający dane demograficzne i informacje o cenie zakupu pojazdu.
  • tree_credit.sav. Jest to plik danych hipotetycznych zawierający dane demograficzne i informacje o historii kredytowej.
  • tree_missing_data.sav Jest to plik danych hipotetycznych zawierający dane demograficzne i informacje o historii kredytowej, z dużą liczbą braków danych.
  • tree_score_car.sav. Jest to plik danych hipotetycznych zawierający dane demograficzne i informacje o cenie zakupu pojazdu.
  • tree_textdata.sav. Prosty plik danych, zawierający tylko dwie zmienne, których pierwotnym przeznaczeniem było pokazanie domyślnego stanu zmiennych przed przypisaniem poziomu pomiaru oraz etykiet wartości.
  • tv-survey.sav. Jest to plik danych hipotetycznych dotyczący badania przeprowadzonego przez studio telewizyjne, które rozważa przedłużenie emisji cieszącego się powodzeniem programu. 906 respondentów zapytano, czy oglądaliby ten program w różnych sytuacjach. Każdy wiersz reprezentuje jednego respondenta, a każda kolumna — jedną sytuację.
  • ulcer_recurrence.sav. Ten plik zawiera częściowe informacje pochodzące z badania, którego celem było porównanie skuteczności dwóch terapii zapobiegających nawrotom wrzodów. Stanowi on dobry przykład danych ocenzurowanych interwałami, który został zaprezentowany i przeanalizowany w innym miejscu 16.
  • ulcer_recurrence_recoded.sav. Ten plik zawiera zreorganizowane dane z pliku ulcer_recurrence.sav, aby umożliwić modelowanie prawdopodobieństwa zdarzeń dla każdego interwału badania, zamiast po prostu prawdopodobieństwa zdarzenia na zakończenie badania. Został on zaprezentowany i przeanalizowany w innym miejscu 17.
  • verd1985.sav. Ten plik danych dotyczy ankiety 18. Zarejestrowano w nim odpowiedzi 15 badanych na 8 zmiennych. Interesujące nas zmienne podzielono na trzy zestawy. Zestaw 1 obejmuje wiek i stan cywilny, zestaw drugi zwierzę domowe i wiadomości, a zestaw trzeci muzykę i na żywo. Zmienna zwierzę jest typu wielokrotnego nominalnego, a wiek typu porządkowego. Wszystkie pozostałe zmienne są typu jednokrotnego nominalnego.
  • virus.sav. Jest to plik danych hipotetycznych, który dotyczy dążenia dostawcy usług internetowych (ISP) do określenia wpływu wirusów na jego sieci. Prześledzono (szacowany) udział procentowy ruchu zainfekowanych wiadomości e-mail w sieci dostawcy w pewnym okresie, od momentu wykrycia wirusa do powstrzymania zagrożenia.
  • wheeze_steubenville.sav. Jest to podzestaw z wzdłużnego badania wpływu zanieczyszczenia powietrza na zdrowie dzieci 19. Dane zawierają binarne pomiary sapania dzieci w wieku 7, 8, 9 i 10 lat z miejscowości Steubenville w stanie Ohio, a także stałe informacje o tym, czy matka dziecka paliła papierosy w pierwszym roku badania.
  • workprog.sav. Jest to plik danych hipotetycznych, który dotyczy programu prac rządowych mającego na celu ułatwienie osobom niepełnosprawnym zdobycia lepszych miejsc pracy. Prześledzono próbę potencjalnych uczestników programu; niektórzy zostali losowo wybrani do udziału w programie, inni zaś nie. Każda obserwacja reprezentuje jednego uczestnika programu.
  • worldsales.sav Ten plik danych hipotetycznych zawiera przychód ze sprzedaży według kontynentu i produktu.
1 Van der Ham, T., J. J. Meulman, D. C. Van Strien, and H. Van Engeland. 1997. Empirically based subgrouping of eating disorders in adolescents: A longitudinal perspective. British Journal of Psychiatry, 170, 363-368.
2 Cena, R. H., and D. L. Bouffard. 1974. Behavioral appropriateness and situational constraints as dimensions of social behavior. Journal of Personality and Social Psychology, 30, 579-586.
3 Zielony, P. E., and V. Rao. 1972. Zastosowane skalowanie wielowymiarowe. Hinsdale, Ill.: Dryden Press.
4 McCullagh, P., and J. A. Nelder. 1989. Generalized Linear Models, 2nd ed. London: Chapman & Hall.
5 Zielony, P. E., and Y. Wind. 1973. Decyzje w wielu atrybutach w marketingu: podejście pomiarowe. Hinsdale, Ill.: Dryden Press.
6 Kennedy, R., C. Riquier i B. Sharp. 1996. Practical applications of correspondence analysis to categorical data in market research. Journal of Targeting, Measurement, and Analysis for Marketing, 5, 56-70.
7 Rickman, R., N. Mitchell, J. Dingman, and J. E. Dalen. 1974. Changes in serum cholesterol during the Stillman Diet. Journal of the American Medical Association, 228:, 54-58.
8 Blake, C. L., and C. J. Merz. 1998. "UCI Repository of machine learning databases." Dostępne pod adresem http://www.ics.uci.edu/~mlearn/MLRepository.html.
9 Bell, E. H. 1961. Social foundations of human behavior: Introduction to the study of sociology. Nowy Jork: Harper & Row.
10 Guttmana, L. 1968. A general nonmetric technique for finding the smallest coordinate space for configurations of points. Psychometrika, 33, 469-506.
11 Rosenberg, S., and M. P. Kim. 1975. The method of sorting as a data-gathering procedure in multivariate research. Multivariate Behavioral Research, 10, 489-502.
12 Breiman, L., and J. H. Friedman. 1985. Estimating optimal transformations for multiple regression and correlation. Journal of the American Statistical Association, 80, 580-598.
13 Hastie, T., and R. Tibshirani. 1990. Uogólnione modele dodatków. London: Chapman and Hall.
14 Hartigan, J. A. 1975. Algorytmy klastrowe. New York: John Wiley and Sons.
15 McCullagh, P., and J. A. Nelder. 1989. Generalized Linear Models, 2nd ed. London: Chapman & Hall.
16 Collett, D. 2003. Modelling survival data in medical research, wyd. 2. Boca Raton: Chapman & Hall/CRC.
17 Collett, D. 2003. Modelling survival data in medical research, wyd. 2. Boca Raton: Chapman & Hall/CRC.
18 Verdegaal, R. 1985. Meer sets analyse voor kwalitatieve gegevens (w jęz. niderlandzkim). Leiden: Department of Data Theory, University of Leiden.
19 Ware, J. H., D. W. Dockery, A. Spiro III, F. E. Speizer, and B. G. Ferris Jr.. 1984. Passive smoking, gas cooking, and respiratory health of children living in six cities. American Review of Respiratory Diseases, 129, 366-374.