표본 파일

제품과 함께 설치되는 표본 파일은 설치 디렉토리의 Samples 하위 디렉토리에서 찾을 수 있습니다. 샘플 하위 디렉터리에는 다음 언어별로 별도의 폴더가 있습니다: 영어, 프랑스어, 독일어, 이탈리아어, 일본어, 한국어, 폴란드어, 중국어(간체), 스페인어, 중국어(번체).

모든 언어에서 모든 표본 파일을 사용할 수 있는 것은 아닙니다. 특정 언어로 표본 파일을 사용할 수 없는 경우 해당 언어 폴더에 영어 버전의 표본 파일이 들어 있습니다.

설명

이것은 문서 전반에서 다양한 예제에 사용된 표본 파일에 대한 요약 설명입니다.

  • accidents.sav. 주어진 지역에서 자동차 사고에 대한 연령 및 성별 위험 요인을 연구하는 보험회사와 관련이 있는 가설 데이터 파일입니다. 각 케이스는 연령 범주 및 성별의 교차 분류에 대응합니다.
  • adl.sav. 뇌졸중 환자에 대해 제시된 치료 유형의 장점을 판단하려는 노력과 관련이 있는 가설 데이터 파일입니다. 의사는 여성 뇌졸중 환자를 두 그룹 중 하나에 무작위 할당합니다. 첫 번째 그룹은 표준 물리치료를 받았고, 두 번째 그룹은 정서적 치료를 추가로 받았습니다. 치료 후 석 달 동안 각 환자가 일상생활에서 흔한 활동들을 수행하는 기능을 순서 변수로 점수를 매겼습니다.
  • advert.sav. 광고에 소비된 돈과 그 결과로써 판매에 소비된 돈 사이의 관계를 조사하려는 유통업체의 시도와 관련이 있는 가설 데이터 파일입니다. 이를 위해 과거 매출 수치와 관련 광고비를 수집했습니다.
  • aflatoxin.sav. 옥수수 작물에 대해서 농작물마다 농도가 크게 다른 독성 물질인 아플라톡신 검정과 관련이 있는 가설 데이터 파일입니다. 어느 곡물 가공업자가 8가지 농작물 중에서 16개 표본을 얻어 10억분의 1단위(PPB)로 아플라톡신 레벨을 측정했습니다.
  • anorectic.sav. 거식증/폭식증 행동의 표준화된 증상을 연구하는 동안, 연구자들은 1 섭식 장애가 알려진 55명의 청소년을 대상으로 연구를 진행했습니다. 각 환자를 4년 동안 네 차례 진찰하여 총 220개의 관측값을 얻었습니다. 환자들을 대상으로 관찰하는 동안 16개 증상 각각에 대해 점수를 매겼습니다. 환자 71번의 2회차, 환자 76번의 2회차, 환자 47번의 3회차 진료에 대한 증상 점수가 누락되었으며 나머지 217개 관측값은 유효합니다.
  • bankloan.sav. 은행이 기본 대부율을 낮추려는 시도와 관련이 있는 가설 데이터 파일입니다. 파일에는 과거 및 장래 전망 있는 850명의 고객에 대한 금융 정보 및 인구 통계학 정보가 들어 있습니다. 처음 700개의 케이스는 이전에 대출을 받은 고객입니다. 마지막 150 케이스는 은행이 신용 위험이 낮거나 높은 것으로 분류할 필요가 있는 장래 전망 있는 고객들입니다.
  • bankloan_binning.sav. 과거 5,000명의 고객들에 관한 금융 정보 및 인구 통계학 정보가 들어있는 가설 데이터 파일입니다.
  • behavior.sav. 대표적인 예로 2에서 52명의 학생에게 15가지 상황과 15가지 행동의 조합을 0="매우 적절함"에서 9="매우 부적절함"까지 10점 척도로 평가하도록 요청했습니다 각 응답자에 대해 평균을 구한 값은 상이도로 간주됩니다.
  • behavior_ini.sav. 이 데이터 파일에는 behavior.sav에 대한 2차원적 솔루션의 초기 설정이 들어 있습니다.
  • brakes.sav. 성능이 높은 자동차용 디스크 브레이크 생산 공장의 품질 관리와 관련이 있는 가설 데이터 파일입니다. 데이터 파일에는 생산 기계 8대 각각의 16개 디스크에 대한 지름 치수가 들어 있습니다. 브레이크의 목표 지름은 322mm입니다.
  • breakfast.sav. 대표적인 연구 3에서 21명의 와튼스쿨 MBA 학생과 배우자에게 15가지 아침 식사 메뉴의 선호도를 1="가장 선호"에서 15="가장 선호하지 않음"으로 표시해 순위를 매기도록 했습니다 "전반적인 선호"에서 "음료수만 포함된 가벼운 식사"에 이르는 서로 다른 여섯 가지 시나리오에 따라 응답자들의 선호도를 기록했습니다.
  • breakfast-overall.sav. 이 데이터 파일에는 최초의 시나리오 "전반적인 선호도"에 대한 아침 식사 메뉴 중 좋아하는 음식이 들어 있습니다.
  • broadband_1.sav. 지역별 국가 광대역 서비스 가입자 수가 포함된 가설 데이터 파일입니다. 데이터 파일에는 4년 동안 85개 지역에 대한 매달 가입자 수가 들어 있습니다.
  • broadband_2.sav. 이 데이터 파일은 broadband_1.sav와 동일하나 추가 3달에 대한 데이터가 들어 있습니다.
  • car_insurance_claims.sav. 다른 곳에서 제시되고 분석된 데이터 세트 4는 자동차에 대한 손해 배상 청구에 관한 것입니다. 평균 청구 금액은 평균 종속 변수를 보험 계약자의 연령, 차종 및 차량 연식과 관련시켜 설명하는 역 연결 함수를 사용하여 감마 분포로 모델링할 수 있습니다. 기록에 남긴 청구 개수는 척도 가중값으로 사용될 수 있습니다.
  • car_sales.sav. 이 데이터 파일에는 다양한 메이커와 차량 모형에 대한 예상 판매량, 정가 및 물리적 지정 사항을 포함합니다. 정가와 물리적 지정 사항은 edmunds.com과 제조업체 사이트에서 번갈아 입수했습니다.
  • car_sales_uprepared.sav. car_sales.sav의 수정된 버전으로서 변환된 버전의 필드가 포함되지 않습니다.
  • carpet.sav. 인기 있는 예시 5에서는 새로운 카펫 청소기를 마케팅하려는 회사가 패키지 디자인, 브랜드 이름, 가격, 굿 하우스키핑 씰, 환불 보장 등 다섯 가지 요소가 소비자 선호도에 미치는 영향을 조사하고자 합니다. 패키지 계획에는 세 가지 요인 수준이 있고 그 각각은 세척용 솔의 위치에서 차이가 납니다. 그밖에도 세 가지 브랜드 이름(K2R, Glory, Bissell)이 있으며, 값 수준도 세 가지이고, 마지막 두 요인에 대해서는 각각 두 가지 수준(예 또는 아니오)이 있습니다. 이들 요인으로 정의된 22개의 프로파일에 대해 10명의 고객이 순위를 매겼습니다. 변수 선호도에는 각 프로파일의 평균 순위가 포함되어 있습니다. 낮은 순위는 선호도가 높음을 의미합니다. 이 변수는 각 프로파일에 대한 선호도의 전반적인 측도를 반영합니다.
  • carpet_prefs.sav. 이 데이터 파일은 carpet.sav에 설명된 것과 동일한 예제를 기반으로 하지만 10명의 고객 각각으로부터 수집한 실제 순위를 포함합니다. 고객들에게 가장 선호하는 제품부터 가장 덜 선호하는 제품에 이르기까지 22개 제품 프로파일에 순위를 매기도록 요청했습니다. 변수 PREF1부터 PREF22까지는 carpet_plan.sav에 정의된 관련 프로파일의 식별자를 포함합니다.
  • catalog.sav. 이 데이터 파일에는 카탈로그 회사에서 판매한 세 가지 제품의 가설적인 월별 판매 수치가 들어 있습니다. 가능한 5 가지 예측자 변수에 대한 데이터도 포함되어 있습니다.
  • catalog_seasfac.sav. 이 데이터 파일은 부수적인 날짜 변수와 함께 계절 분해 프로시저에서 계산한 계절 요인 그룹을 추가한 것을 제외하고는 catalog.sav와 동일합니다.
  • cellular.sav. 서비스 제공 사업자 이탈을 줄이려는 이동전화 회사의 시도와 관련이 있는 가설 데이터 파일입니다. 서비스 제공 사업자 이탈 성향 점수가 0 ~ 100 범위로 계정에 적용됩니다. 점수가 50이상인 계정은 서비스 제공업체를 변경할 것을 기대할 수 있습니다.
  • ceramics.sav. 새로운 프리미엄급 합금이 표준 합금보다 내열성이 훨씬 큰지 여부를 판단하기 위한 제조업체의 시도와 관련이 있는 가설 데이터 파일입니다. 각 케이스는 합금 중 한 가지에 대한 별도의 검정을 나타냅니다. 베어링이 파손되는 온도가 기록되어 있습니다.
  • cereal.sav. 880명의 사람들을 대상으로 연령, 성별, 결혼상태 및 활동적인 라이프스타일을 갖고 있는지 여부(1주에 적어도 두 번은 운동을 하고 있는지)와 함께 아침 식사 메뉴 선호도를 조사한 여론조사와 관련이 있는 가설 데이터 파일입니다. 각 케이스는 개별 응답자를 나타냅니다.
  • clothing_defects.sav. 의류 공장에서 품질 관리 프로세스와 관련이 있는 가설 데이터 파일입니다. 공장에서 생산된 각 로트로부터 검사자들은 의복 표본을 선택하고 채택이 불가능한 의복 개수를 셉니다.
  • coffee.sav. 이 데이터 파일은 6개의 아이스커피 브랜드에 대한 인지된 이미지에 관한 6 데이터 파일입니다. 23개의 아이스커피 이미지 속성 각각에 대해 해당 속성으로 설명할 수 있는 브랜드를 모두 선택하도록 사람들에게 요청했습니다. 브랜드 이름이 노출되지 않도록 여섯 개의 브랜드에는 AA, BB, CC, DD, EE 및 FF라고 이름을 붙였습니다.
  • contacts.sav. 기업 컴퓨터 판매 대리점 그룹의 담당자 목록과 관련이 있는 가설 데이터 파일입니다. 각 담당자는 자신이 근무하는 회사의 부서 및 회사 내 지위별로 범주가 나누어졌습니다. 또한 마지막 판매량, 최종 판매 이후 경과 시간 및 담당자 회사의 규모를 기록했습니다.
  • creditpromo.sav. 최근 신용카드 판촉의 효과를 평가하기 위한 백화점의 시도와 관련이 있는 가설 데이터 파일입니다. 이러한 목적을 위해 500명의 카드 보유자를 무작위로 선택했습니다. 이 중 절반은 다음 세 달 동안 구매에 대한 이자율을 줄여 주겠다는 판촉 광고물을 받았습니다. 절반은 표준적인 시즌 광고물을 받았습니다.
  • customer_dbase.sav. 데이터 웨어하우스의 정보를 사용하여 답변할 가능성이 가장 높은 고객들에게 특가 제공을 지원하려는 회사의 시도와 관련 있는 가설 데이터 파일입니다. 고객 층의 서브세트를 무작위로 선택하여 특가 제공을 지원하고 그들의 반응을 기록했습니다.
  • customer_information.sav. 이름 및 주소와 같은 고객 메일링 정보가 포함된 가설 데이터 파일입니다.
  • customer_subset.sav. customer_dbase.sav의 80개 케이스의 서브세트입니다.
  • debate.sav. 정치 토론 참가자들을 대상으로 한 토론 전후 설문조사에서 대응반응과 관련 있는 가설 데이터 파일입니다. 각 케이스는 개별 응답자에 대응됩니다.
  • debate_aggregate.sav. 이것은 debate.sav의 반응을 통합하는 가설 데이터 파일입니다. 각 케이스는 토론 전후 선호도에 대한 교차 분류에 대응됩니다.
  • demo.sav. 매달 메일을 발송할 목적으로 구매 고객 데이터베이스와 관련 있는 가설 데이터 파일입니다. 다양한 인구 통계학 정보와 함께 고객이 제공에 반응했는지 여부가 기록됩니다.
  • demo_cs_1.sav. 설문조사 정보 데이터베이스를 컴파일하려는 회사의 시도 중 첫 단계와 관련 있는 가설 데이터 파일입니다. 각 케이스는 서로 다른 도시에 대응되며 지역, 지방, 구 및 도시 ID가 기록됩니다.
  • demo_cs_2.sav. 설문조사 정보 데이터베이스를 컴파일하려는 회사의 시도 중 두 번째 단계와 관련 있는 가설 데이터 파일입니다. 각 케이스는 첫 번째 단계에서 선정된 도시의 서로 다른 가구 단위에 대응되며 지역, 지방, 구, 도시, 구역 및 단위 ID가 기록됩니다. 계획 중 처음 두 단계의 표본 추출 정보도 포함됩니다.
  • demo_cs.sav. 복잡한 표본추출 계획을 사용하여 수집한 설문조사 정보가 포함된 가설 데이터 파일입니다. 각 케이스는 서로 다른 가구 단위에 대응되며 다양한 인구 통계학적 정보와 표본 추출 정보가 기록됩니다.
  • diabetes_costs.sav. 당뇨병이 있는 보험계약자에 대해 보험 회사가 유지하는 정보가 포함된 가설 데이터 파일입니다. 각 케이스는 서로 다른 보험계약자에 대응됩니다.
  • dietstudy.sav. 이 가상 데이터 파일에는 '스틸만 다이어트'에 대한 연구 결과가 포함되어 있습니다. 7. 각 케이스는 별도의 개체에 대응되며 다이어트 전후 체중을 파운드 단위로 기록하고 나무글리세이드 레벨을 mg/100 ml 단위로 기록합니다.
  • dmdata.sav. 다이렉트 마케팅 회사의 인구 통계학 및 구매 정보가 포함된 가설 데이터 파일입니다. dmdata2.sav에는 검정 메일링을 수신한 연락처 서브세트에 대한 정보가 들어 있으며, dmdata3.sav에는 검정 메일을 수신하지 않은 나머지 연락처에 대한 정보가 들어 있습니다.
  • dvdplayer.sav. 새 DVD 플레이어 개발과 관련 있는 가설 데이터 파일입니다. 마케팅 팀은 프로토타입을 사용하여 집중 그룹 데이터를 수집했습니다. 각 케이스는 설문조사에 응한 각 사용자에 대응되며 이들에 관한 몇 가지 인구 통계학적 정보와 프로토타입에 관한 앙케이트 반응을 기록합니다.
  • german_credit.sav. 이 데이터 파일은 캘리포니아 대학교 어바인 캠퍼스의 Machine Learning 데이터베이스 8 리포지토리에 있는 "독일 학점" 데이터 집합에서 가져온 것입니다.
  • grocery_1month.sav. 이것은 매주 "종합" 구매에 대한 grocery_coupons.sav 데이터 파일내의 가설 데이터 파일입니다. 따라서 각 케이스는 각 고객에 해당합니다. 매주 변하는 변수 중 일부는 사라지므로 기록된 소비 금액은 이제 4주의 연구기간 중 소비한 금액의 합계가 됩니다.
  • grocery_coupons.sav. 고객의 구매 습관에 관심 있는 식료품 체인점에서 수집한 설문조사 데이터가 포함된 가설 데이터 파일입니다. 각 고객을 4주 동안 추적하며 각 케이스는 각각의 고객-주에 해당합니다. 고객이 그 주 동안 식료품 상점에서 소비한 금액을 포함하여 어디서 어떻게 쇼핑했는지에 관한 정보를 기록합니다.
  • guttman.sav. Bell 9는 가능한 사회 집단을 설명하기 위해 표를 제시했습니다. Guttman 10는 사회적 상호작용, 집단에 대한 소속감, 구성원들의 물리적 근접성, 관계의 형식성 등을 설명하는 5가지 변수를 군중(예: 축구 경기장의 사람들)을 포함한 7가지 이론적 사회 집단과 교차시킨 이 표의 일부를 사용했습니다, 관객(예: 극장이나 강의실 청중), 대중(예: 신문이나 텔레비전 청중), 폭도(군중과 비슷하지만 훨씬 더 격렬한 상호작용을 하는 집단), 1차 집단(친밀한), 2차 집단(자발적), 현대 공동체(가까운 물리적 근접성과 전문 서비스의 필요성으로 인한 느슨한 연합).
  • health_funding.sav. 의료보험 기금(모집단 100명당 금액), 발병율(모집단 10000명당 비율), 의료보험 제공업체 방문자(모집단 10000명당 비율)에 대한 데이터가 포함된 가설 데이터 파일입니다. 각 케이스는 서로 다른 도시를 나타냅니다.
  • hivassay.sav. HIV 감염 여부를 발견하기 위한 신속한 검사 분석표를 개발하기 위한 제약 실험실의 시도와 관련 있는 가설 데이터 파일입니다. 검사 분석표 결과는 적색의 8단계 농도로 표시됩니다. 농도가 짙을수록 감염 가능성이 더 높음을 나타냅니다. 실험실에서 2000명의 혈액 표본에 대해 시험한 결과 이 중 절반이 HIV에 감염되었으며 절반은 감염되지 않았습니다.
  • hourlywagedata.sav. 다양한 경력을 갖춘 진료실 및 병원의 간호사의 시간당 급료에 관한 가설 데이터 파일입니다.
  • insurance_claims.sav. 의심스럽고 잠재적인 사기 청구에 플래그를 지정하기 위한 모델을 작성하려는 보험 회사와 관련된 가설 데이터 파일입니다. 각 케이스는 개별 청구를 나타냅니다.
  • insure.sav. 고객이 10년 만기 생명보험 계약에서 보험료를 청구할지 여부를 나타내는 위험 요인을 연구하는 보험 회사에 관한 가설 데이터 파일입니다. 데이터 파일의 각 케이스는 대응하는 계약을 나타내며, 그 중 한 계약은 연령과 성별에 따라 보험료 청구를 기록했으며 다른 한 계약은 기록하지 않았습니다.
  • judges.sav. 300개 체조 연기에 대해 훈련된 심판(+ 1명의 팬)이 매긴 점수에 관한 가설 데이터 파일입니다. 각 행은 각각의 연기를 나타내며, 심판은 동일한 연기를 보았습니다.
  • kinship_dat.sav. Rosenberg와 Kim 11는 15개의 친족 관계 용어(이모, 형제, 사촌, 딸, 아버지, 손녀, 할아버지, 할머니, 손자, 어머니, 조카, 조카, 자매, 아들, 삼촌)를 분석하기 시작했습니다. 조사자는 네 개의 대학생 그룹(여학생 두 그룹, 남학생 두 그룹)에 부탁하여 유사성을 기준으로 이들 단어를 정렬하도록 요청했습니다. 두 그룹(여학생 한 그룹, 남학생 한 그룹)에는 단어를 두 차례에 걸쳐 정렬하되 두 번째 정렬 기준은 첫 번째 경우와 다른 기준을 사용하도록 했습니다. 이런 식으로 6개 \"소스\"의 총계를 얻었습니다. 각 소스는 15 x 15 근접 행렬에 대응됩니다. 이 행렬의 셀은 소스에 포함된 사람 수에서 개체가 해당 소스에서 함께 분할된 횟수를 뺀 값과 같습니다.
  • kinship_ini.sav. 이 데이터 파일에는 kinship_dat.sav에 대한 3차원적 솔루션의 초기 설정이 들어 있습니다.
  • kinship_var.sav. 이 데이터 파일에는 kinship_dat.sav의 해법 차수를 해석하는 데 사용될 수 있는 독립변수 gender(성별), gener(세대) 및 degree (촌수)가 포함되어 있습니다. 특히, 이들 독립변수는 이러한 변수의 선형 조합으로 해법 공간을 제한하는 데 사용할 수 있습니다.
  • marketvalues.sav. 이 데이터 파일은 일리노이주 알곤퀸에 위치한 신규 주택 개발의 주택 판매에 관한 것입니다, 1999-2000년 동안 이 판매량은 공식 레코드에 남아 있는 사항입니다.
  • nhis2000_subset.sav. NHIS(National Health Interview Survey)는 미국 일반 시민을 대상으로 한 대규모의 인구 기반 설문조사입니다. 인터뷰는 국가 전역에서 뽑은 대표적인 표본 세대를 직접 대면하는 방식으로 진행합니다. 각 세대 멤버와의 인터뷰를 통해 각자의 생활 습관 및 건강 상태에 대한 관측값과 인구 통계학적 정보를 수집합니다. 이 데이터 파일은 2000년 설문조사의 정보 서브세트를 포함합니다. 국립 건강 통계 센터. 2000년 국민 건강 설문조사. 공용 데이터 파일 및 문서자료. ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NHIS/2000/. 2003년 액세스됨.
  • ozone.sav. 이 데이터에는 남은 변수로부터 오존 농도를 예측하기 위해 6가지 기상학적 변수에 관한 330개 관측값이 포함되어 있습니다. 이전 연구 12, 13 등에서는 이러한 변수들 사이에 비선형성이 존재하여 표준 회귀 접근법을 방해하는 것을 발견했습니다.
  • pain_medication.sav. 만성 관절염 통증 치료를 위한 항염증제 임상 시험 결과가 포함된 가설 데이터 파일입니다. 특히 관심을 받는 것은 약물이 효능을 발휘하는 데 소요되는 시간이며 기존의 약제와 비교하는 방법입니다.
  • patient_los.sav. 이것은 심근경색(MI, 또는 심장마비)이 의심되어 병원에 내원한 환자들을 대상으로 한 치료 레코드가 포함된 가설 데이터 파일입니다. 각 케이스는 각 환자에 대응되며 환자의 입원에 관한 수많은 변수를 기록합니다.
  • patlos_sample.sav. 이것은 심근경색(MI, 또는 심장마비)을 치료하는 동안 혈전 용해제를 투여받은 환자 표본에 대한 치료 레코드가 포함된 가설 데이터 파일입니다. 각 케이스는 각 환자에 대응되며 환자의 입원에 관한 수많은 변수를 기록합니다.
  • poll_cs.sav. 이것은 입법 전 법안에 대한 공공 지지도를 판단하려는 여론 설문조사원의 시도에 관한 가설 데이터 파일입니다. 케이스는 등록된 유권자에 해당합니다. 각 케이스는 유권자가 살고 있는 군, 읍, 지구를 기록합니다.
  • poll_cs_sample.sav. 이 가설 데이터 파일에는 poll_cs.sav에 등록된 유권자 표본이 들어 있습니다. 표본은 poll.csplan 계획 파일에 지정된 계획에 따라 선택되었으며 포함 확률 및 표본 가중치를 기록합니다. 그러나 표본추출 계획은 PPS(크기 비례) 방법을 사용하기 때문에 결합 선택 확률을 포함한 파일도 있음을 유의하십시오(poll_jointprob.sav). 유권자 인구 통계학 정보에 해당하는 추가 변수 및 제안된 법안에 관한 그들의 의견을 수집했으며 표본을 추출한 후 데이터 파일에 추가했습니다.
  • property_assess.sav. 제한된 자원에 대해 현재까지의 자산 가치를 평가하려는 카운티 평가자의 시도와 관련 있는 가설 데이터 파일입니다. 케이스는 작년 카운티에서 판매된 자산에 대응됩니다. 데이터 파일의 각 케이스는 자산이 있는 군/구, 자산을 최종 방문한 평가자, 평가 후 경과 시간, 그 당시 감정 결과, 자산에 대한 판매 가치를 기록합니다.
  • property_assess_cs.sav. 제한된 자원에 대해 현재까지의 자산 가치를 평가하려는 주(州) 평가자의 시도와 관련 있는 가설 데이터 파일입니다. 케이스는 주의 자산에 대응됩니다. 데이터 파일의 각 케이스는 자산이 있는 군, 읍, 지구와 최종 평가 이후 경과된 시간, 그 당시 감정 결과를 기록합니다.
  • property_assess_cs_sample.sav. 이 가설 데이터 파일에는 property_assess_cs.sav에 등록된 자산 표본이 들어 있습니다. 표본은 property_assess.csplan 계획 파일에 지정된 계획에 따라 선택되었으며 포함 확률 및 표본 가중치를 기록합니다. 추가 변수 현재 값이 수집되었으며 표본을 선택한 후 데이터 파일에 추가되었습니다.
  • recidivism.sav. 관할 영역에서 전과자 비율을 파악하려는 정부 법률 집행 기관의 시도와 관련 있는 가설 데이터 파일입니다. 각 케이스는 이전의 범죄자에 대응며 이들의 인구 통계학 정보, 첫 번째 범죄 상세 내용, 첫 번째 구속 후 2년 내에 범죄가 재발한 경우 두 번째 구속까지 경과된 시간을 기록합니다.
  • recidivism_cs_sample.sav. 관할 영역에서 전과자 비율을 파악하려는 정부 법률 집행 기관의 시도와 관련 있는 가설 데이터 파일입니다. 각 케이스는 2003년 6월 동안 처음 구속된 후 출감한 이전의 범죄자에 대응되며 그들의 인구 통계학 정보, 첫 번째 범죄 상세 내용, 2006년 6월 말까지 범죄가 재발한 경우 두 번째 구속까지 경과된 시간을 기록합니다. 범죄자들은 recidivism_cs.csplan에 지정된 표본추출 계획에 따라 표본으로 추출된 부서에서 선택되었습니다. PPS(probability-proportional-to-size) 방법을 사용하기 때문에 결합 선택 확률이 포함된 파일(recidivism_cs_jointprob.sav)도 있습니다.
  • rfm_transactions.sav. 구매 날짜, 구매한 항목 및 각 트랜잭션 금액이 포함된 구매 트랜잭션 데이터가 있는 가설 데이터 파일입니다.
  • salesperformance.sav. 두 가지 새 영업 교육 강의 평가와 관련 있는 가설 데이터 파일입니다. 60명의 직원들을 세 그룹으로 구분했고 모두에게 표준 교육을 받게 했습니다. 또한 그룹 2에는 기술 교육을, 그룹 3에는 실무 자습서를 제공합니다. 교육 강의가 끝나면 각 직원을 검정하여 점수를 기록합니다. 데이터 파일의 각 케이스는 개별 훈련생을 나타내며 할당된 그룹과 시험 성적을 기록합니다.
  • satisf.sav. 4군데 상점에 입점한 유통업체에서 실시간 고객 만족도 설문조사에 관한 가설 데이터 파일입니다. 582명의 고객 모두에 대해 설문조사를 실시했으며 각 케이스는 한 명의 고객으로부터 받은 반응을 나타냅니다.
  • screws.sav. 이 데이터 파일에는 나사, 볼트, 너트 및 압정의 특성에 대한 정보가 포함되어 있습니다 14.
  • shampoo_ph.sav. 모발 관리 제품 공장의 품질 관리 프로세스와 관련이 있는 가설 데이터 파일입니다. 정기적인 시간 간격으로 6벌의 서로 다른 제품을 측정하여 pH를 기록했습니다. 대상 범위는 4.5 – 5.5입니다.
  • ships.sav. 파도로 인한 화물선 피해에 관한 데이터 세트 15에서 제시 및 분석된 내용입니다. 사고 건수는 선박의 종류, 건조 기간, 서비스 기간을 가정한 포아송 비율에서 발생하는 것으로 모델링할 수 있습니다. 요인의 교차 분류에 의해 형성된 각 표 셀의 총 서비스 개월 수는 위험에 대한 노출 값을 제공합니다.
  • site.sav. 사업 확장을 위해 새 부지를 선택하려는 회사의 시도와 관련 있는 가설 데이터 파일입니다. 이 회사는 두 명의 컨설턴트를 고용하여 부지에 대한 전망을 따로따로 평가하게 했고 확장 보고서에서는 각 부지를 "우수", "양호" 또는 "불량"으로 요약했습니다.
  • smokers.sav. 이 데이터 파일은 1998년 전국 마약 남용에 관한 가정 설문조사에서 추출한 것으로 미국 가정의 확률 표본입니다. (http://dx.doi.org/10.3886/ICPSR02934) 따라서 이 데이터 파일 분석의 첫 번째 단계는 인구 추세를 반영하여 데이터에 가중치를 부여하는 것입니다.
  • stocks.sav 이 가설 데이터 파일에는 일 년 동안의 주가와 거래량이 들어 있습니다.
  • stroke_clean.sav. 이것은 Data Preparation 옵션의 절차를 사용하여 삭제한 의료 데이터베이스의 상태를 포함한 가설 데이터 파일입니다.
  • stroke_invalid.sav. 이 가설 데이터 파일에는 의료 데이터베이스의 초기 상태와 여러 데이터 입력 오류가 포함되어 있습니다.
  • 뇌졸중_생존. 이 가설 데이터 파일은 허혈성 뇌졸증 발생 후 수많은 도전과제에 직면하고 있는 재활 프로그램을 종료한 환자들의 생존 시간과 관련 있습니다. 뇌졸증, 심장마비의 발생, 허혈성 뇌졸증 또는 출혈성 뇌졸증으로 구분되며 이벤트 발생 시간이 기록됩니다. 표본은 현재까지 살아남은 사람들에 대한 데이터입니다. 왜냐하면 뇌졸증 후 시행한 재활 프로그램 마지막에 생존한 환자만 포함하기 때문입니다.
  • stroke_valid.sav. 이 가설 데이터 파일에는 데이터 검증 절차를 사용하여 값을 점검한 이후의 의료 데이터베이스 상태가 포함되어 있습니다. 여기에는 여전히 잠재적인 이상항목 케이스가 포함되어 있습니다.
  • survey_sample.sav. 이 데이터 파일에는 인구 통계학 데이터 및 다양한 태도 측도 등 설문조사 데이터가 포함되어 있습니다. 이 데이터 파일은 1998 NORC General Social Survey의 변수 서브세트를 기준으로 하지만, 설명을 목적으로 일부 데이터 값이 수정되었으며 추가 가상 변수가 추가되었습니다.
  • tcm_kpi.sav. 비즈니스에 대한 주간 핵심성과지표(KPI)의 값이 포함된 가설 데이터 파일입니다. 여기에는 동일 기간 중에 제어 가능한 메트릭의 수에 대한 주간 데이터도 포함됩니다.
  • tcm_kpi_upd.sav. 이 데이터 파일은 tcm_kpi.sav와 동일하지만 추가로 4주에 대한 데이터가 포함됩니다.
  • telco.sav. 고객층에서 서비스 제공 사업자 이탈을 줄이려는 통신 회사의 시도와 관련이 있는 가설 데이터 파일입니다. 각 케이스는 개별 고객에 대응되며 다양한 인구 통계학 정보와 서비스 사용 정보가 기록됩니다.
  • telco_extra.sav. 이 데이터 파일은 telco.sav 데이터 파일과 유사하지만 "tenure"(보유 기간) 및 로그 변환된 고객 소비 변수는 제거되었고 표준화된 로그 변환된 고객 소비 변수로 대체되었습니다.
  • telco_missing.sav. 이 데이터 파일은 telco.sav 데이터 파일 서브세트지만 인구 통계학적 정보 데이터 값 중 일부는 결측값으로 대체되었습니다.
  • testmarket.sav. 이 가설 데이터 파일은 메뉴에 새로운 품목을 추가하려는 패스트푸드 체인점의 계획과 관련이 있습니다. 신제품을 판촉하는 세 가지 가능한 캠페인이 있습니다. 따라서 무작위로 선택된 여러 시장 위치에 새 품목이 도입됩니다. 각 위치에 서로 다른 판촉을 사용하며 처음 4주 동안 새 품목의 주간 판매량을 기록합니다. 각 케이스는 별도의 위치-주에 대응됩니다.
  • testmarket_1month.sav. 이것은 매주 "종합" 판매량에 대한 testmarket.sav 데이터 파일내의 가설 데이터 파일입니다. 따라서 각 케이스는 각 위치에 해당합니다. 매주 변하는 변수 중 일부는 사라지므로 기록된 판매량은 이제 4주의 연구기간 중 판매량의 합계가 됩니다.
  • tree_car.sav. 인구 통계학 및 차량 구매 가격 데이터가 포함된 가설 데이터 파일입니다.
  • tree_credit.sav. 인구 통계학 및 은행 대부 이력이 포함된 가설 데이터 파일입니다.
  • tree_missing_data.sav 이것은 수많은 결측값을 갖고 있는 인구 통계학 데이터 및 은행 대부 이력 데이터를 포함한 가설 데이터 파일입니다.
  • tree_score_car.sav. 인구 통계학 및 차량 구매 가격 데이터가 포함된 가설 데이터 파일입니다.
  • tree_textdata.sav. 측정 수준 및 값 레이블을 할당하기 전 주로 기본 변수 상태를 보여주기 위한 목적으로 사용되는 두 개의 변수로만 구성된 단순 데이터 파일입니다.
  • tv-survey.sav. 성공한 프로그램의 운영을 확대할지 여부를 고려하기 위해 텔레비전 스튜디오에서 실시한 여론설문조사에 관한 가설 데이터 파일입니다. 906명의 응답자에게 다양한 조건 하에서 프로그램을 시청할지 여부에 대해 질문했습니다. 각 행은 개별 응답자를 나타내며 각 열은 개별 조건을 나타냅니다.
  • ulcer_recurrence.sav. 이 파일에는 궤양의 재발 방지를 위한 두 가지 치료법의 효능을 비교하도록 계획된 연구의 정보 일부가 들어 있습니다. 이는 구간 검열 데이터의 좋은 예를 제공하며 다른 곳에서 제시 및 분석된 바 있습니다 16.
  • ulcer_recurrence_recoded.sav. 이 파일은 ulcer_recurrence.sav의 정보를 재정리하므로 단순히 연구가 끝난 후의 이벤트 확률이 아닌 연구의 각 구간에 대한 이벤트 확률을 모델링할 수 있습니다. 다른 곳에서 제시되고 분석되었습니다 17.
  • verd1985.sav. 이 데이터 파일은 설문조사에 관한 18입니다. 15명의 사람들이 8개의 변수에 대해 반응한 내용을 기록했습니다. 관심 변수를 세 가지 세트로 구분했습니다. 변수 세트 1에는 agemarital이 포함되고, 변수 세트 2에는 petnews가 포함되며, 변수 세트 3에는 musiclive가 포함됩니다. pet은 다중 명목으로 척도화되고 age는 순서로 척도화됩니다. 다른 모든 변수는 단일 명목으로 척도화됩니다.
  • virus.sav. 바이러스가 네트워크에 미치는 영향을 판단하려는 인터넷 서비스 공급업체(ISP)의 시도와 관련 있는 가설 데이터 파일입니다. 발견 시점에서 위협이 제거된 시점까지의 시간 동안 자사의 네트워크에서 감염된 이메일 트래픽의 대략적인 퍼센트를 추적했습니다.
  • wheeze_steubenville.sav. 대기 오염이 어린이에게 미치는 건강 영향에 대한 종단 연구 19에서 발췌한 자료입니다. 데이터에는 오하이오주 Steubenville의 7~10세 어린이들을 대상으로 연구 첫해 동안은 어머니가 흡연자인지 여부에 관한 레코드를 포함, 호흡 시 천명에 대한 이원적 반복 측도 결과가 들어 있습니다.
  • workprog.sav. 불리한 조건을 가진 사람들을 더 나은 직업으로 배치하려는 정부 연구 프로그램에 관한 가설 데이터 파일입니다. 잠재적인 프로그램 참가자 표본을 추적했습니다. 이들 중 일부는 프로그램 영입을 위하여 무작위로 선택된 반면 다른 이들은 그렇지 않습니다. 각 케이스는 개별 프로그램 참가자를 나타냅니다.
  • worldsales.sav 이 가설 데이터 파일에는 대륙 및 제품별 판매 수입이 들어 있습니다.
1 반 데르 함, T., J. J. Meulman, D. C. Van Strien, 및 H. Van Engeland. 1997. Empirically based subgrouping of eating disorders in adolescents: A longitudinal perspective. 영국 정신의학 저널, 170, 363-368.
2 Price, R. H.., 그리고 D. L. 부파드. 1974. Behavioral appropriateness and situational constraints as dimensions of social behavior. 저널 오브 인성 및 사회 심리학, 30, 579-586.
3 그린, P. E., 및 V. 라오. 1972. 다차원 스케일링 적용. Hinsdale, Ill.: 드라이덴 프레스.
4 McCullagh, P., 그리고 J. A. 넬더. 1989. 일반화된 선형 모델, 2nd ed. London: 채프먼 & 홀.
5 그린, P. E., 및 Y. 바람. 1973. 마케팅의 다중 속성 의사 결정: 측정 접근 방식. Hinsdale, Ill.: 드라이덴 프레스.
6 케네디, R., C. Riquier, and B. 날카로운. 1996. Practical applications of correspondence analysis to categorical data in market research. 마케팅을 위한 타겟팅, 측정 및 분석 저널, 5, 56-70.
7 릭먼, R., N. 미첼, J. 딩먼, 및 J. E. 달렌. 1974. Changes in serum cholesterol during the Stillman Diet. 미국 의학 협회 저널, 228:, 54-58.
8 블레이크, C. L., 그리고 C. J. Merz. 1998. "UCI Repository of machine learning databases." http://www.ics.uci.edu/~mlearn/MLRepository.html에서 사용할 수 있습니다.
9 벨, E. H. 1961. 인간 행동의 사회적 기초: 사회학 연구 입문. 뉴욕: Harper & Row.
10 Guttman, L. 1968. A general nonmetric technique for finding the smallest coordinate space for configurations of points. 심리측정, 33, 469-506.
11 로젠버그, S., 그리고 M. P. Kim. 1975. The method of sorting as a data-gathering procedure in multivariate research. 다변량 행동 연구, 10, 489-502.
12 브라이먼, L., 그리고 J. H. 프리드먼. 1985. Estimating optimal transformations for multiple regression and correlation. 미국 통계학회지, 80, 580-598.
13 Hastie, T., 및 R. 티브시라니. 1990. 일반화된 애디티브 모델. London: 채프먼과 홀.
14 하티건, J. A. 1975. 클러스터링 알고리즘. New York: John Wiley and Sons.
15 McCullagh, P., 그리고 J. A. 넬더. 1989. 일반화된 선형 모델, 2nd ed. London: 채프먼 & 홀.
16 콜렛, D. 2003. 의학 연구에서의 생존 데이터 모델링, 2판. Boca Raton: Chapman & Hall/CRC.
17 Collett, D. 2003. 의학 연구에서의 생존 데이터 모델링, 2판. Boca Raton: Chapman & Hall/CRC.
18 Verdegaal, R. 1985. 더 많은 세트 분석 (네덜란드어). 라이덴: 라이덴 대학교 데이터 이론학과.
19 웨어, J. H., D. W. 도커리, A. 스피로 3세, F. E. 스피라이저, B. G. 페리스 주니어. 1984. Passive smoking, gas cooking, and respiratory health of children living in six cities. 아메리칸 리뷰 오브 호흡기 질환, 129, 366-374.