サンプル・ファイル
製品とともにインストールされるサンプル・ファイルは、インストール・ディレクトリーの Samples サブディレクトリーにあります。 Samplesサブディレクトリ内には、以下の言語ごとに別々のフォルダがあります:英語、フランス語、ドイツ語、イタリア語、日本語、韓国語、ポーランド語、簡体字中国語、スペイン語、繁体字中国語です。
すべてのサンプル・ファイルが、すべての言語で使用できるわけではありません。 あるサンプル・ファイルが特定の言語で使用できない場合、その言語のフォルダーには、サンプル・ファイルの英語バージョンが含まれています。
説明
このドキュメントのさまざまな例で使用されているサンプル・ファイルの簡単な説明を以下に示します。
- accidents.sav. これは、特定の地域における自動車事故の危険因子を年齢と性別ごとに調査している保険会社に関する架空のデータ・ファイルです。 各ケースが、年齢カテゴリーと性別のクロス分類に対応しています。
- adl.sav. これは、脳卒中患者に対して提案されるタイプの治療の効果を特定する取り組みに関する架空のデータ・ファイルです。 医師団は、女性の脳卒中患者たちを、2 つのグループのいずれかにランダムに割り当てました。 最初のグループは標準的な理学療法を受け、2 番目のグループはさらに心理療法を追加で受けました。 治療の 3 カ月後に、各患者が日常生活における一般的な活動をどの程度行うことができるかを、順序変数として得点付けしました。
- advert.sav. これは、広告費とその売上成果との関係を調べることを目的とした、小売業者の取り組みに関する架空のデータ・ファイルです。 この目的のために、過去の売上高の数値と、それに関係する広告費のデータが収集されています。
- aflatoxin.sav. これは、収穫物によって濃度が大きく異なる毒物であるアフラトキシンを、トウモロコシの収穫物で検定することに関する架空のデータ・ファイルです。 ある穀物加工業者は、8 つの収穫物から 16 のサンプルを受け取り、10 億分の 1 単位でアフラトキシン・レベルを測定しました。
- anorectic.sav. 拒食症/過食症の症状を示す標準化された症状に取り組む一方で、研究者 1 は、既知の摂食障害を持つ 55 人の青年の研究を行いました。 各患者が 4 年間で 4 回診察を受け、観察記録の合計は 220 件となっています。 毎回の観察では、16 種類の症状それぞれについて患者にスコアが付けられました。 患者 71 (2 回目)、患者 76 (2 回目)、患者 47 (3 回目) の症状のスコアは欠落しているため、有効な観察記録は 217 件ということになります。
- bankloan.sav. これは、債務不履行率を低減させるための銀行の取り組みに関する架空のデータ・ファイルです。 このファイルには、過去の顧客と見込み客 850 人に関する財務情報と人口統計情報が含まれています。 最初の 700 件のケースは、以前に貸付を行った顧客です。 残りの 150 件のケースは見込み顧客です。銀行は、これらの顧客に関して信用リスクの良し悪しを分類する必要があります。
- bankloan_binning.sav. これは、過去の 5,000 人の顧客に関する財務情報と人口統計情報が含まれている架空のデータ・ファイルです。
- behavior.sav. 典型的な例 2では、52 人の生徒が、15 の状況と 15 の行動の組み合わせを 0 =「非常に適切」から 9 =「極めて不適切」までの 10 段階で評価するよう求められました。 個人間で平均を取り、非類似度として値を取りました。
- behavior_ini.sav. このデータ・ファイルには、behavior.sav の 2 次元の解の初期構成が含まれています。
- brakes.sav. これは、高性能自動車のディスク・ブレーキを生産している工場における品質管理に関する架空のデータ・ファイルです。 このデータ・ファイルには、8 台の機械で生産した 16 個のディスクの直径測定値が含まれています。 ブレーキの目標の直径は 322 ミリメートルです。
- breakfast.sav. クラシック・スタディー 3では、21 人のウォートン・スクール MBA の学生とその配偶者に対し、15 の朝食項目を優先順に 1 =「最も優先度が高い」から 15 =「最も優先度が低い」の順にランク付けするよう依頼しました。 調査対象者の嗜好は、「全体的な好み」から「スナックとドリンクのみ」まで、6 つの異なるシナリオで記録されています。
- breakfast-overall.sav. このデータ・ファイルには、最初のシナリオ (「全体的な好み」) における朝食の品目についての好みだけが含まれています。
- broadband_1.sav. これは、全国規模のブロードバンド・サービスの地域ごとの加入者数が含まれている架空のデータ・ファイルです。 このデータ・ファイルには、85 地域の月々の加入者数が 4 年間分含まれています。
- broadband_2.sav. このデータ・ファイルは broadband_1.sav と同じですが、3 カ月分のデータが追加されています。
- car_insurance_claims.sav. 他の場所 4 で表示および分析されるデータ・セットは、自動車の損害請求に関するものです。 逆リンク関数を使用して、従属変数の平均値を保険契約者の年齢、車種、製造年の線型結合に関連付けることにより、平均請求数をガンマ分布としてモデル化することができます。 申請された請求の数は、尺度重み付けとして使用することができます。
- car_sales.sav. このデータ・ファイルには、自動車のさまざまな車種やモデルの架空の売上推定値、表示価格、物理的仕様が含まれています。 表示価格と物理的仕様は、それぞれ edmunds.com と製造元のサイトから入手したものです。
- car_sales_uprepared.sav. これは、フィールドの変換バージョンが含まれていない、car_sales.sav の修正バージョンです。
- carpet.sav. 一般的な例 5では、新しいカーペット・クリーナーのマーケティングに関心がある企業が、消費者の嗜好性に対する 5 つの要因 (パッケージ設計、ブランド名、価格、 Good Housekeeping シール、および返金保証) の影響を調べたいと考えています。 パッケージのデザインには 3 つの因子レベルがあり、それぞれのレベルによって塗布用ブラシの位置が異なります。また、3 つのブランド名 (K2R、Glory、Bissell) と 3 つの価格水準があり、残り 2 つの因子のそれぞれについて 2 つのレベル (「なし」と「あり」) があります。 10 人の消費者が、これらの因子によって定義された 22 個のプロファイルに順位を付けます。 「嗜好」という変数には、各プロファイルの平均順位のランキングが格納されます。 ランキングが低いほど、嗜好度は高くなります。 この変数は、各プロファイルの全体的な嗜好測定値を反映しています。
- carpet_prefs.sav. このデータ・ファイルは carpet.sav で説明したものと同じ例に基づいていますが、10 人の消費者それぞれから収集した実際のランキングが含まれています。 これらの消費者は、22 種類の製品プロファイルを、一番好きなものから一番嫌いなものまで順位付けすることを依頼されています。 変数 PREF1 から PREF22 には、carpet_plan.sav で定義された、関連するプロファイルの ID が格納されます。
- catalog.sav. このデータ・ファイルには、あるカタログ会社が販売した 3 つの製品の、架空の月間売上高の数値が含まれています。 また、5 つの予測変数のデータも含まれています。
- catalog_seasfac.sav. このデータ・ファイルは catalog.sav と同じですが、季節性の分解プロシージャーとそれに付随する日付変数から計算した一連の季節因子が追加されています。
- cellular.sav. これは、チャーン (契約/解約を繰り返す顧客の流動現象) を削減するための携帯電話会社の取り組みに関する架空のデータ・ファイルです。 チャーンの傾向スコアは、0 から 100 の範囲でアカウントに適用されます。 スコアリングが 50 以上のアカウントは、プロバイダーを変更しようとしていると考えられます。
- ceramics.sav. これは、新しい上質の合金は、標準的な合金より高い耐熱性を持っているかどうかを判別するための、ある製造業者の取り組みに関する架空のデータ・ファイルです。 各ケースが 1 つの合金の個別のテストを表し、耐熱性の限界温度が記録されます。
- cereal.sav. これは、880 人を対象に、朝食の好みについて、年齢、性別、婚姻状況、ライフスタイルが活動的かどうか (週 2 回以上運動するか) を含めて調査した、架空のデータ・ファイルです。 各ケースが個別の回答者を表しています。
- clothing_defects.sav. これは、ある衣料品工場での品質管理工程に関する架空のデータ・ファイルです。 工場で生産される各ロットから、検査官が衣料品のサンプルを取り出し、不良品の数を数えます。
- coffee.sav. このデータ・ファイルは、6 つのアイス・コーヒー・ブランド 6 の知覚イメージに関連しています。 回答者は、アイス・コーヒーに関する 23 の各印象属性について、その属性が表現していると思われるすべてのブランドを選択しました。 機密保持のため、6 つのブランドを AA、BB、CC、DD、EE、FF で表しています。
- contacts.sav. これは、企業のコンピューター営業担当者グループの連絡先リストに関する架空のデータ・ファイルです。 それぞれの連絡先は、所属する会社の部門と会社のランクによって分類されています。 また、最後に販売した金額、最後の販売以降の経過時間、連絡先の会社の規模も記録されています。
- creditpromo.sav. これは、最近のクレジット・カード・プロモーションの有効性を評価することを目的とした、あるデパートの取り組みに関する架空のデータ・ファイルです。 この目的のために、500 人のカード所有者がランダムに選択されました。 そのうちの半分に対して、今後 3 カ月間の買い物に関して利率を下げることを知らせる広告を送付しました。 残りの半分には、通常どおりの定期的な広告を送付しました。
- customer_dbase.sav. これは、自社のデータウェアハウスにある情報を使用して、最も反応がありそうな顧客に対して特典を提供するための、ある会社の取り組みに関する架空のデータ・ファイルです。 顧客ベースのサブセットをランダムに選択して特典を提供し、それに対する顧客の反応が記録されています。
- customer_information.sav. これは、名前や住所など、顧客の連絡先情報が含まれている架空のデータ・ファイルです。
- customer_subset.sav. これは、customer_dbase.sav の 80 件のケースのサブセットです。
- debate.sav. これは、政治討論会の出席者から得た、討論前と討論後の調査に対する回答のペアに関する架空のデータ・ファイルです。 各ケースが個々の回答者に対応しています。
- debate_aggregate.sav. これは、debate.sav 内の回答が集計されている架空のデータ・ファイルです。 各ケースが、討論前後の好みのクロス分類に対応しています。
- demo.sav. これは、毎月の特典を送付することを目的とした、購入顧客のデータベースに関する架空のデータ・ファイルです。 顧客が特典に反応したかどうかが、さまざまな人口統計情報と共に記録されています。
- demo_cs_1.sav. これは、調査情報のデータベースを作成するための、ある会社の取り組みの最初のステップに関する架空のデータ・ファイルです。 各ケースが個別の都市に対応し、地域、地方、地区、および都市の ID が記録されています。
- demo_cs_2.sav. これは、調査情報のデータベースを作成するための、ある会社の取り組みの第 2 のステップに関する架空のデータ・ファイルです。 各ケースが、最初のステップで選択した都市の個別の世帯単位に対応し、地域、地方、地区、都市、区画、および単位の ID が記録されます。 計画の最初の 2 段階からのサンプリング情報も含まれています。
- demo_cs.sav. これは、複合サンプリング計画を使用して収集された調査情報を含む架空のデータ・ファイルです。 各ケースが個別の世帯単位に対応し、さまざまな人口統計情報と抽出情報が記録されています。
- diabetes_costs.sav. これは、糖尿病を持つ保険契約者に関して保険会社が保持する情報が含まれている架空のデータ・ファイルです。 各ケースが個々の保険契約者に対応しています。
- dietstudy.sav. この架空のデータ・ファイルには、「Stillman 栄養」 7の調査結果が含まれています。 各ケースが個々の被験者に対応し、被験者のダイエット前後の体重 (ポンド単位) と、トリグルセリド・レベル (mg/100 ml 単位) が記録されています。
- dmdata.sav. これは、ダイレクト・マーケティング企業の人口統計情報と購入情報が含まれている架空のデータ・ファイルです。 dmdata2.sav には、テスト・メールを受け取った連絡先のサブセットの情報が含まれ、dmdata3.sav には、テスト・メールを受け取らなかった残りの連絡先に関する情報が含まれています。
- dvdplayer.sav. これは、新しい DVD プレイヤーの開発に関する架空のデータ・ファイルです。 マーケティング・チームはプロトタイプを使用して、フォーカス・グループ・データを収集しました。 各ケースが個々の調査対象ユーザーに対応し、ユーザーの人口統計情報と、プロトタイプに関する質問への回答が記録されています。
- german_credit.sav. このデータ・ファイルは、カリフォルニア大学アーバイン校の Machine Learning データベース 8 のリポジトリーにある「ドイツ語のクレジット」データ・セットから取得されます。
- grocery_1month.sav. これは、grocery_coupons.sav データ・ファイルの週ごとの購入を「ロールアップ」して、各ケースが個々の顧客に対応するようにした架空のデータ・ファイルです。 そのため、週ごとに変わっていた変数の一部が表示されなくなり、記録された購入額が、調査を行った 4 週間の購入額の合計になっています。
- grocery_coupons.sav. これは、顧客の購買習慣に関心を持っている食料雑貨店チェーンが収集した調査データが含まれている架空のデータ・ファイルです。 各顧客を 4 週間にわたって追跡し、各ケースが個々の顧客の週に対応しています。その週の食料品購入金額など、顧客がいつどこで買物をするかに関する情報が記録されています。
- guttman.sav. Bell 9 は、考えられるソーシャル・グループを示す表を提示しました。 Guttman 10 は、この表の一部を使用しました。この表では、社会的相互作用、グループへの帰属意識、メンバーの近接性、関係の形式などを説明する 5 つの変数が、7 つの理論的な社会グループ (群衆 (例えば、クラスルーム・ゲームの参加者)、読者 (例えば、テレビの講演者)、1 つのテレビの客席) と交差しています。 モブ (群衆のようなものだが、より強い相互作用を持つ)、一次グループ (親密)、二次グループ (任意)、および現代のコミュニティ (近接した物理的近接性と専門サービスの必要性から生じる緩い連合)。
- health_funding.sav. これは、医療用資金 (人口 100 人あたりの金額)、罹患率 (人口 10,000 人あたりの人数)、医療サービス機関の受診率 (人口 10,000 人あたりの人数) に関するデータが含まれている架空のデータ・ファイルです。 各ケースが、個別の都市を表しています。
- hivassay.sav. これは、HIV 感染を発見する迅速な分析方法を開発することを目的とした、ある製薬研究所の取り組みに関する架空のデータ・ファイルです。 分析の結果は 8 段階の濃さの赤で表現され、色が濃いほど感染の可能性が高くなります。 研究所では 2,000 件の血液サンプルに関して試験を行い、その半数が HIV に感染しており、残りの半分は感染していませんでした。
- hourlywagedata.sav. これは、さまざまな経験レベルを持つ管理職から現場担当までの看護師の時給に関する架空のデータ・ファイルです。
- insurance_claims.sav. : これは、不正請求の恐れがある疑わしい請求にフラグを立てるためのモデルを作成したいと考えているある保険会社に関する架空のデータ・ファイルです。 各ケースが個々の請求を表しています。
- insure.sav. これは、10 年満期の生命保険契約に対し、顧客が請求を行うかどうかを示す危険因子を調査している保険会社に関する架空のデータ・ファイルです。 データ・ファイルの各ケースは、年齢と性別が一致する、請求が記録された契約と記録されなかった契約のペアを表しています。
- judges.sav. これは、訓練を受けた審判 (および 1 人の熱心なファン) が、300 件の体操の演技に対して付けた得点に関する架空のデータ・ファイルです。 各行が個々の演技を表しています。この審判たちは、同じ演技を見ました。
- kinship_dat.sav. Rosenberg と Kim 11 は、15 の親族関係用語 (叔母、兄弟、いとこ、娘、父、孫娘、祖父、祖母、孫、母、甥、姪、姉妹、息子、叔父) の分析を行いました。 Rosenberg と Kim は、大学生の 4 つのグループ (女性 2 組、男性 2 組) に、類似性に基づいて上記の用語を並べ替えるよう依頼しました。 2 つのグループ (女性 1 組、男性 1 組) には、この最初の条件とは異なる条件に基づいて、2 回目の並べ替えをするように依頼しました。 したがって、合計で 6 つの「ソース」が取得されたことになります。 各ソースは、15×15 の近傍行列に対応しています。この近傍行列のセルの数は、ソース内の人数から、ソース内でオブジェクトを分割した回数を引いたものと同じになります。
- kinship_ini.sav. このデータ・ファイルには、kinship_dat.sav の 3 次元の解の初期布置が含まれています。
- kinship_var.sav. このデータ・ファイルには、gender (性別)、gener (世代)、degree (親等) という独立変数が含まれています。これらの変数を使用して、kinship_dat.sav の解のディメンションを解釈することができます。 具体的には、これらの変数を使用して、解の空間をこれらの変数の線型結合に制限することができます。
- marketvalues.sav. このデータ・ファイルは、イリノイ州アルゴンキンの新しい住宅開発における住宅販売に関するものです。 1999 年から 2000 年の間に これらの売上は、公開レコードの対象となっています。
- nhis2000_subset.sav. National Health Interview Survey (NHIS) は、米国国民を対象とした人口ベースの大規模な調査です。 全国の代表的な世帯サンプルで、対面式の調査が行われます。 各世帯のメンバーについて、人口統計情報と、健康に関する行動と状態の観測値が収集されます。 このデータ・ファイルには、2000 年の調査から取得された情報のサブセットが含まれています (National Center for Health Statistics。 National Health Interview Survey, 2000。 一般使用のデータ・ファイルとドキュメント。 ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NHIS/2000/. 2003 年にアクセス)。
- ozone.sav. このデータには、残りの変数からオゾン濃度を予測するための、6 つの気象変数に対する 330 の観測値が含まれています。 以前の研究者 12、 13などでは、これらの変数の間に非線形性が見つかり、標準的な回帰手法の妨げとなっています。
- pain_medication.sav. この架空のデータ・ファイルには、慢性関節炎を治療する抗炎症薬の臨床試験の結果が含まれています。 特に重要なのは、薬の効果が出るまでの時間と、既存の薬剤との比較です。
- patient_los.sav. この架空のデータ・ファイルには、心筋梗塞 (MI、または「心臓発作」) の疑いで入院した患者の治療記録が含まれています。 各ケースは個々の患者に対応し、入院に関連する多くの変数が記録されています。
- patlos_sample.sav. この架空のデータ・ファイルには、心筋梗塞 (MI、または「心臓発作」) の治療中に血栓溶解剤を投薬された患者のサンプルの治療記録が含まれています。 各ケースは個々の患者に対応し、入院に関連する多くの変数が記録されています。
- poll_cs.sav. これは、市民の法案支持率を議会開会前に特定するための、世論調査員の取り組みに関する架空のデータ・ファイルです。 各ケースは、登録されている有権者に対応しています。 ケースごとに、有権者が居住している郡、町、区域が記録されています。
- poll_cs_sample.sav. この架空のデータ・ファイルには、poll_cs.sav の有権者のサンプルが含まれています。 このサンプルは、poll.csplan 計画ファイルで指定されている計画に従って抽出され、このデータ・ファイルには包含確率とサンプル重み付けが記録されています。 ただし、サンプリング計画では確率比例 (PPS) 法が使用されるため、結合選択確率が含まれているファイル (poll_jointprob.sav) もあります。 サンプルの抽出後、有権者の人口統計と法案に関する意見に対応する追加の変数が収集され、データ・ファイルに追加されました。
- property_assess.sav. これは、限られたリソースで資産価値の評価を最新に保つための、郡の評価担当者の取り組みに関する架空のデータ・ファイルです。 各ケースは、前年に郡内で売却された資産に対応しています。 データ・ファイル内の各ケースには、その資産が存在する町、最後にその資産を訪問した評価担当者、その評価からの経過時間、そのときに行われた評価、その資産の売却価値が記録されています。
- property_assess_cs.sav. これは、限られたリソースで資産価値の評価を最新に保つための、州の評価担当者の取り組みに関する架空のデータ・ファイルです。 各ケースは、州内の資産に対応しています。 データ・ファイル内の各ケースには、その資産が存在する郡、町、区域、最後の評価からの経過時間、そのときに行われた評価が記録されています。
- property_assess_cs_sample.sav. この架空のデータ・ファイルには、property_assess_cs.sav にリストされている資産のサンプルが含まれています。 このサンプルは、property_assess.csplan 計画ファイルで指定されている計画に従って抽出され、このデータ・ファイルには包含確率とサンプル重み付けが記録されています。 サンプルの抽出後、現在の価値 変数が収集され、データ・ファイルに追加されました。
- recidivism.sav. これは、管轄地域での累犯率を把握するための、政府の法執行機関の取り組みに関する架空のデータ・ファイルです。 各ケースは元犯罪者に対応し、この犯罪者の人口統計情報、最初の犯罪の詳細、2 回目の逮捕までの期間 (初犯から 2 年以内の場合) が記録されています。
- recidivism_cs_sample.sav. これは、管轄地域での累犯率を把握するための、政府の法執行機関の取り組みに関する架空のデータ・ファイルです。 各ケースは、2003 年の 7 月中に最初の逮捕から釈放された元犯罪者に対応し、この犯罪者の人口統計情報、最初の犯罪の詳細、2 回目の逮捕のデータ (2006 年 6 月末日までに逮捕された場合) が記録されています。 犯罪者は、recidivism_cs.csplan で指定されたサンプリング計画に従って抽出された部門から選択されています。サンプリング計画では確率比例 (PPS) 法が使用されるため、結合選択確率が含まれているファイル (recidivism_cs_jointprob.sav) もあります。
- rfm_transactions.sav. これは、購入日、購入品目、各取引の金額など、購買取引データが含まれている架空のデータ・ファイルです。
- salesperformance.sav. これは、2 つの新しい販売トレーニング・コースの評価に関する架空のデータ・ファイルです。 60 人の従業員を 3 つのグループに分け、全員が標準のトレーニングを受けます。 さらに、グループ 2 は技術的なトレーニングを受け、グループ 3 は実践的なチュートリアルを受けます。 トレーニング・コースの最後にすべての従業員がテストを受け、そのスコアが記録されました。 データ・ファイルの各ケースは個々の受講生を表し、その受講生が割り当てられたグループと、テストのスコアが記録されています。
- satisf.sav. これは、ある小売業者が 4 箇所の店舗で行った満足度調査に関する架空のデータ・ファイルです。 合計で 582 人の顧客について調査が行われ、各ケースは 1 人の顧客からの回答を表しています。
- screws.sav. このデータ・ファイルには、ねじ、ボルト、ナット、およびタックの特性に関する情報が含まれています 14。
- shampoo_ph.sav. これは、あるヘアケア製品工場での品質管理に関する架空のデータ・ファイルです。 定期的に、6 つの異なる生産バッチが測定され、その pH が記録されます。 目標の範囲は 4.5 から 5.5 です。
- ships.sav. 他の場所 15 で表示および分析される、波による貨物船の損傷に関するデータ・セット。 事故カウントは、船舶の種類、建造期間、サービス期間により、ポワゾン率で発生するものとしてモデル化することができます。 各因子のクロス分類によって形成されたテーブルの各セルのサービス月数の集計により、危険にさらされる確率の値が得られます。
- site.sav. これは、業務拡大に向けて新たな敷地を選定することを目的とした、ある会社の取り組みに関する架空のデータ・ファイルです。 2 人のコンサルタントを雇い、敷地を別々に評価させました。これらのコンサルタントは、詳細なレポートのほかに、各敷地を「良い」、「普通」、「悪い」のいずれかで集計しました。
- smokers.sav. このデータ・ファイルは、1998 年の National Household Survey of Drug Abuse から抽出した、アメリカの世帯の確率サンプルです (http://dx.doi.org/10.3886/ICPSR02934) そのため、このデータ・ファイルの分析の最初のステップは、母集団の傾向を反映するようにデータに重みを付けることです。
- stocks.sav: この架空のデータ・ファイルには、1 年分の在庫の価格と量が含まれています。
- stroke_clean.sav. この架空のデータ・ファイルには、Data Preparation オプションのプロシージャーを使用して整理した後の、医療データベースの状態が含まれています。
- stroke_invalid.sav. この架空のデータ・ファイルには、医療データベースの初期状態と、いくつかのデータ入力エラーが含まれています。
- stroke_survival。 これは、虚血性脳卒中後のリハビリ・プログラムを終えた後に数回の困難に直面した患者の生存時間に関する架空のデータ・ファイルです。 脳卒中後の心筋梗塞、虚血性脳卒中、または出血性脳卒中の発症と、その発症時刻が記録されています。 このサンプルには、脳卒中後に実施されたリハビリ・プログラムの最後まで生存した患者だけが含まれているため、サンプルの左側は切り捨てられています。
- stroke_valid.sav. この架空のデータ・ファイルには、データの検証プロシージャーによる確認後の、医療データベースの状態が含まれています。 異常ケースの可能性があるケースも含まれています。
- survey_sample.sav. このデータ・ファイルには、人口統計データや各種の態度指標などの調査データが含まれています。 これは「1998 NORC General Social Survey」の変数のサブセットに基づいていますが、一部のデータ値が変更され、いくつかの架空の変数がデモの目的で追加されています。
- tcm_kpi.sav. これは、ビジネスの週次重要業績評価指標の値が含まれている架空のデータ・ファイルです。 同じ期間のいくつかの制御可能メトリックの週次データも含まれます。
- tcm_kpi_upd.sav. このデータ・ファイルは tcm_kpi.sav と同様ですが、さらに 4 週間分の追加データが含まれています。
- telco.sav. これは、顧客ベースにおけるチャーン (契約/解約を繰り返す顧客の流動現象) を削減するための電気通信会社の取り組みに関する架空のデータ・ファイルです。 各ケースが個々の顧客に対応し、人口統計やサービス利用状況などのさまざまな情報が記録されています。
- telco_extra.sav. このデータ・ファイルは telco.sav データ・ファイルと似ていますが、「期間」変数と対数変換された顧客支出変数が削除され、標準化された対数変換後の顧客支出変数に置き換えられています。
- telco_missing.sav. このデータ・ファイルは telco.sav データ・ファイルのサブセットですが、一部の人口統計データ値が欠損値で置き換えられています。
- testmarket.sav. この架空のデータ・ファイルは、ファースト・フード・チェーンでの新しいメニューの追加計画に関連しています。 新製品をプロモーションするためのキャンペーンには 3 つの候補があるため、新メニューは、ランダムに選択されたマーケットのいくつかの場所で導入されます。 場所ごとに別々のプロモーションを展開し、最初の 4 週間について、新メニューの週間売上高が記録されます。 各ケースが、個々の場所と週に対応しています。
- testmarket_1month.sav. この架空のデータ・ファイルは、testmarket.sav データ・ファイルの週ごとの売上を「ロールアップ」して、各ケースを個々の場所に対応させたものです。 そのため、週ごとに変わっていた変数の一部が表示されなくなり、記録された売上高が、調査を行った 4 週間の売上高の合計になっています。
- tree_car.sav. これは、人口統計と自動車購入価格のデータが含まれている架空のデータ・ファイルです。
- tree_credit.sav. これは、人口統計と銀行ローン履歴のデータが含まれている架空のデータ・ファイルです。
- tree_missing_data.sav: これは、多数の欠損値とともに、人口統計と銀行ローン履歴のデータが含まれている架空のデータ・ファイルです。
- tree_score_car.sav. これは、人口統計と自動車購入価格のデータが含まれている架空のデータ・ファイルです。
- tree_textdata.sav. これは、測定レベルと値ラベルを割り当てる前の変数のデフォルトの状態を示すことを主な目的とする変数が 2 つだけ含まれている単純なデータ・ファイルです。
- tv-survey.sav. これは、テレビ・スタジオで実施された、ヒットした番組の放送期間を延長するかどうかを検討する調査に関する架空のデータ・ファイルです。 906 人の回答者に対して、さまざまな条件下でこの番組を視聴するかどうかを質問しました。 各行は個々の回答者を表し、各列は個々の条件を表しています。
- ulcer_recurrence.sav. このファイルには、潰瘍の再発を防ぐための 2 つの治療の有効性を比較するための調査から得られた情報の一部が含まれています。 これは、区間打ち切りデータの良い例であり、他の場所 16で提示および分析されています。
- ulcer_recurrence_recoded.sav. このファイルでは、単に調査終了時のイベント確率ではなく調査の間隔ごとのイベント確率をモデル化できるように、ulcer_recurrence.sav の情報が再編成されています。 これは、他の場所 ( 17) で表示および分析されています。
- verd1985.sav. このデータ・ファイルは、調査 18に関するものです。 8 つの変数に対する 15 人の被験者の回答が記録されています。 対象となる変数は 3 つのグループに分類されています。 グループ 1 には「年齢」と「婚姻」、グループ 2 には「ペット」と「ニュース」、グループ 3 には「音楽」と「居住地域」がそれぞれ含まれています。 「ペット」は多重名義として尺度化され、「年齢」は順序として尺度化されます。他のすべての変数は、単一名義として尺度化されます。
- virus.sav. これは、自社のネットワーク上のウィルスの影響を特定するための、インターネット・サービス・プロバイダー (ISP) の取り組みに関する架空のデータ・ファイルです。 ネットワーク上の感染した E メール・トラフィックの (およその) パーセンテージが、検出時点から脅威が阻止されるまでの間、追跡されています。
- wheeze_steubenville.sav. これは、子供に対する大気汚染の健康上の影響に関する経年調査 19のサブセットです。 このデータには、オハイオ州スチューベンビルに住む 7 歳、8 歳、9 歳、10 歳の子供を対象に行った喘鳴の状態の反復 2 値測定と、調査の初年に母親が喫煙していたかどうかの固定的な記録が含まれています。
- workprog.sav. これは、体の不自由な人をより条件のよい仕事に就かせようとする政府の事業プログラムに関する架空のデータ・ファイルです。 このプログラムの参加候補者のサンプルが追跡され、その中には、ランダムに選択されてプログラムに参加した人と、そうでない人がいます。 各ケースが、個々のプログラム参加者を表しています。
- worldsales.sav: この架空のデータ・ファイルには、大陸別と製品別の販売収益が含まれています。
1 ヴァン・デル・ハム、T、 J. J. Meulman、D. C. Van Strien、H. Van Engランド。 1997. Empirically based subgrouping
of eating disorders in adolescents: A longitudinal perspective. British Journal of サイキートリー 170, 363-368
2 Price、R. H.、 D. L. ブーファード 1974. Behavioral appropriateness and situational constraints as dimensions
of social behavior. Journal of Personality and Social 心理学、 30, 579-586.
3 緑、P. E、 および V. ラオ 1972. 「適用された多次元尺度法」。 ヒンズデール、イルズ: ドライデン・プレス
4 McCullagh, P、 J ・ A ・ネルダー 1989. 一般化線形モデル, 第2版.London:Chapman & Hall.
5 緑、P. E、 および Y。 風 1973. マーケティングにおける複数属性の意思決定: 測定方法。 ヒンズデール、イルズ: ドライデン・プレス
6 ケネディ、R、 C。 リキエ B シャープ 1996. Practical applications of correspondence analysis to categorical
data in market research. Journal of -6, Measurement, and Analysis for Marketing, 5, 56-70.
7 Rickman、R.、 N。 ミッチェル、J ・ディングマン、J ・ E ・ダレン 1974. Changes in serum cholesterol during the Stillman
Diet. Journal of the American Medical Association ( 228:, 54-58)。
8 ブレイク、C. L.、 C ・ J ・メルツです 1998. "UCI Repository of machine learning databases." http://www.ics.uci.edu/~mlearn/MLRepository.htmlから入手できます。
9 Bell、E. H 1961. 人間の行動の社会的基盤: 社会学の研究の紹介。 ニューヨーク: ハーパー & 行。
10 Guttman、L. 1968。 A general nonmetric technique
for finding the smallest coordinate space for configurations of points. パーカー ( 33、469-506)
11 ローゼンバーグ、S、 M ・ P ・キムです 1975. The method of sorting as a data-gathering procedure in multivariate
research. 多変量行動調査 (Multivariate Behavioral Research) 10、489-502。
12 ブライマン、L、 J ・ H ・フリードマンです 1985. Estimating optimal transformations for multiple regression and
correlation. Journal of the American Statistical Association, 80, 580-598
13 Hastie、T.、 および R。 ティビシラーニ 1990. 一般化加法モデル: ロンドン: チャップマンとホール。
14 Hartigan、J. A 1975. クラスタリング・アルゴリズム。 ニューヨーク: John Wiley と Sons。
15 McCullagh, P、 J ・ A ・ネルダー 1989. 一般化線形モデル, 第2版.London:Chapman & Hall.
16 Collett、D. 2003。 医療研究における生存データのモデル化、2 ed. ボカラトン: チャップマン & ホール /CRC。
17 Collett、D. 2003。 医療研究における生存データのモデル化、2 ed. ボカラトン: チャップマン & ホール /CRC。
18 Verdegaal、R. 1985。 Meer sets analyse voor kwalitatieve gegevens (in オランダ語)。 ライデン: 米国ライデン大学のデータ理論学科。
19 Ware、J. H.、 D ・ W ・ドッカリー、A ・スピロ 3 世、F ・ E ・スピーザー、B ・ G ・フェリス・ジュニア 1984. Passive smoking, gas cooking,
and respiratory health of children living in six cities. 米国呼吸器疾患に関するレビュー、 129、366-374。