样本文件

随产品一起安装的样本文件可以在安装目录的 Samples 子目录中找到。对于以下每种语言在“样本”子目录中有单独的文件夹：英语、法语、德语、意大利语、日语、韩语、波兰语、俄语、简体中文、西班牙语和繁体中文。

并非所有样本文件均提供此处的全部语言版本。如果样本文件未提供某种语言的版本，则相应语言文件夹中包含该样本文件的英语版本。

描述

以下是对在整个文档的各种示例中使用的样本文件的简要描述。

accidents.sav。 该假设数据文件涉及某保险公司，该公司正在研究给定区域内汽车事故的年龄和性别风险因子。每个个案对应一个年龄类别和性别类别的交叉分类。
adl.sav。 该假设数据文件涉及在确定针对脑卒中患者的建议治疗类型的优点方面的举措。医师将女性脑卒中患者随机分配到两组中的一组。第一组患者接受标准的物理治疗，而第二组患者则接受附加的情绪治疗。在进行治疗的三个月时间里，将为每个患者进行一般日常生活行为的能力评分并作为原始变量。
advert.sav。 该假设数据文件涉及某零售商在检查广告支出与销售业绩之间的关系方面的举措。为此，他们收集了过去的销售数字以及相关的广告成本。
aflatoxin.sav。 该假设数据文件涉及对谷物的黄曲霉毒素的检测，该毒素的浓度会因谷物产量的不同（不同谷物之间及同种谷物之间）而有较大变化。谷物加工机从 8 个谷物产量的每一个中收到 16 个样本并以十亿分之几 (PPB) 为单位来测量黄曲霉毒素的水平。
anorectic.sav。 在研究厌食/暴食行为的标准症状参照时，研究人员¹对 55 名已知存在进食障碍的青少年进行了调查。其中每名患者每年都将进行四次检查，因此总观测数为 220。在每次观测期间，将对这些患者按 16 种症状逐项评分。但 71 号和 76 号患者的症状得分均在时间点 2 缺失，47 号患者的症状得分在时间点 3 缺失，因此有效观测数为 217。
bankloan.sav。 该假设数据文件涉及某银行在降低贷款拖欠率方面的举措。该文件包含 850 位过去和潜在客户的财务和人口统计信息。前 700 个个案是以前曾获得贷款的客户。剩下的 150 个个案是潜在客户，银行需要按高或低信用风险对他们进行分类。
bankloan_binning.sav。 该假设数据文件包含 5,000 位过去客户的财务和人口统计信息。
behavior.sav。 在一个经典示例中²，52 名学生被要求以 10 点的标度对 15 种情况和 15 种行为的组合进行评价，该 10 点的标度从 0 = “极得体”到 9 = “极不得体”。平均值在个人值之上，值被视为相异性。
behavior_ini.sav。 该数据文件包含 behavior.sav 的二维解的初始配置。
brakes.sav。 该假设数据文件涉及某生产高性能汽车盘式制动器的工厂的质量控制。该数据文件包含对 8 台专用机床中每一台的 16 个盘式制动器的直径测量。盘式制动器的目标直径为 322 毫米。
breakfast.sav。 在一项经典研究中³，21 名 Wharton School MBA 学生及其配偶被要求按照喜好程度顺序对 15 种早餐食品进行评价，从 1 =他们的喜好根据六种不同的情况加以记录，从“全部喜欢”到“只带饮料的快餐”。
breakfast-overall.sav。 该数据文件只包含早餐食品喜好的第一种情况，即“全部喜欢”。
broadband_1.sav。 该假设数据文件包含各地区订制了全国宽带服务的客户的数量。该数据文件包含 4 年期间 85 个地区每月的订户数量。
broadband_2.sav。 该数据文件和 broadband_1.sav 一样，但包含另外三个月的数据。
car_insurance_claims.sav。 在别处被提出和分析的⁴关于汽车损坏赔偿的数据集。平均理赔金额可以当作其具有伽玛分布来建模，通过使用逆关联函数将因变量的平均值与投保者年龄、车辆类型和车龄的线性组合关联。提出理赔的数量可以作为刻度权重。
car_sales.sav。 该数据文件包含假设销售估计值、订价以及各种品牌和型号的车辆的物理规格。订价和物理规格可以从 edmunds.com 和制造商处获得。
car_sales_uprepared.sav。 这是 car_sales.sav 的修改版本，不包含字段的任何已转换版本。
carpet.sav。 在一个常用示例 ⁵ 中，一家公司非常重视一种新型地毯清洁用品的市场营销，希望检验以下五种因素对消费者偏好的影响：包装设计、品牌名称、价格、优秀家用品标志和退货保证。包装设计有三个因子级别，每个因子级别因刷体位置而不同；有三个品牌名称（K2R、Glory 和 Bissell）；有三个价格水平；最后两个因素各有两个级别（有或无）。十名消费者对这些因素所定义的 22 个特征进行了排序。变量优选包含对每个概要文件的平均等级的排序。低等级与高偏好相对应。此变量反映了对每个概要文件的偏好的总体度量。
carpet_prefs.sav。 该数据文件所基于的示例和在 carpet.sav 中所描述的一样，但它还包含从 10 位消费者的每一位中收集到的实际排列顺序。消费者被要求按照从最喜欢到最不喜欢的顺序对 22 个产品概要文件进行排序。carpet_plan.sav 中定义了变量 PREF1 到 PREF22 包含相关特征的标识。
catalog.sav。 该数据文件包含某编目公司出售的三种产品的假设每月销售数据。同时还包括 5 个可能的预测变量的数据。
catalog_seasfac.sav。 除添加了一组从“季节性分解”过程中计算出来的季节性因素和附带的日期变量外，该数据文件和 catalog.sav 是相同的。
cellular.sav。 该假设数据文件涉及某便携式电话公司在减少客户流失方面的举措。客户流失倾向分被应用到帐户，分数范围从 0 到 100。得到 50 分或更高分数的帐户可能会更换提供商。
ceramics.sav。 该假设数据文件涉及某制造商在确定新型优质合金是否比标准合金具有更高的耐热性方面的举措。每个个案代表对一种合金的单独检验；个案中会记录合金的耐热极限。
cereal.sav。 该假设数据文件涉及一份 880 人参于的关于早餐喜好的民意调查，该调查记录了参与者的年龄、性别、婚姻状况以及生活方式是否积极（根据他们是否每周至少做两次运动）。每个个案代表一个单独的响应者。
clothing_defects.sav。 这是关于某服装厂的质量控制过程的假设数据文件。检验员要对工厂中每次大批量生产的服装进行抽样检测并清点不合格的服装的数量。
coffee.sav。 这是关于六种冰咖啡的认知品牌形象⁶的数据文件。对于 23 种冰咖啡特征属性中的每种属性，人们选择了由该属性所描述的所有品牌。为保密起见，六种品牌用 AA、BB、CC、DD、EE 和 FF 来表示。
contacts.sav。 该假设数据文件涉及一组公司计算机销售代表的联系方式列表。根据这些销售代表所在的公司部门及其公司的等级来对每个联系方式进行分类。同时还记录了最近一次的销售量、最近一次销售距今的时间和所联系公司的规模。
creditpromo.sav。 该假设数据文件涉及某百货公司在评价最新信用卡促销的效果方面的举措。为此，随机选择了 500 位持卡人。其中一半收到了宣传关于在接下来的三个月内降低消费利率的广告。另一半收到了标准的季节性广告。
customer_dbase.sav。 该假设数据文件涉及某公司在使用数据仓库中的信息来为最有可能回应的客户提供特惠商品方面的举措。随机选择客户群的子集并为其提供特惠商品，同时记录下他们的回应。
customer_information.sav。 该假设数据文件包含客户邮寄信息，如姓名和地址。
customer_subset.sav。 来自 customer_dbase.sav 的拥有 80 个个案的子集。
debate.sav。 该假设数据文件涉及在某政治辩论前后对该辩论的参与者所做的调查的成对回答。每个个案对应一个单独的响应者。
debate_aggregate.sav。 该假设数据文件汇总了 debate.sav 中的回答。每个个案对应一个辩论前后的偏好的交叉分类。
demo.sav。 这是关于购物客户数据库的假设数据文件，用于寄出每月的商品。将记录客户对商品是否有回应以及各种人口统计信息。
demo_cs_1.sav。 该假设数据文件涉及某公司在汇编调查信息数据库方面的举措的第一步。每个个案对应不同的城市，并记录地区、省、区和城市标识。
demo_cs_2.sav。 该假设数据文件涉及某公司在汇编调查信息数据库方面的举措的第二步。每个个案对应来自第一步中所选城市的不同的家庭单元格，并记录地区、省、区、市、子区和单元格标识。还包括设计前两个阶段的抽样信息。
demo_cs.sav。 该假设数据文件包含用复杂抽样设计收集的调查信息。每个个案对应不同的家庭单元格，并记录各种人口统计和抽样信息。
diabetes_costs.sav。这是假设数据文件，其中包含保险公司针对患有糖尿病的投保人保存的信息。每个个案对应一个不同的投保人。
dietstudy.sav。 该假设数据文件包含对 "Stillman diet" ⁷ 的研究结果。每个个案对应一个单独的主体，并记录其在实行饮食方案前后的体重（磅）以及甘油三酸酯的水平（毫克/100 毫升）。
dmdata.sav。 该假设数据文件包含直销公司的人口统计学和购买信息。dmdata2.sav 包含收到试验邮寄的联系人子集的信息，dmdata3.sav 包含未收到试验邮寄的其余联系人的信息。
dvdplayer.sav。 这是关于开发新的 DVD 播放器的假设数据文件。营销团队用原型收集了焦点小组数据。每个个案对应一个单独的被调查用户，并记录他们的人口统计信息及其对原型问题的回答。
german_credit.sav。 该数据文件取自加州大学欧文分校的 Repository of Machine Learning Databases ⁸中的 "German credit" 数据集。
grocery_1month.sav。 该假设数据文件是在数据文件 grocery_coupons.sav 的基础上加上了每周购物“累计”，所以每个个案对应一个单独的客户。所以，一些每周更改的变量消失了，而且现在记录的消费金额是为期四周的研究过程中的消费金额之和。
grocery_coupons.sav。 该假设数据文件包含由重视顾客购物习惯的杂货连锁店收集的调查数据。对每位顾客调查四周，每个个案对应一个单独的顾客周，并记录有关顾客购物地点和方式的信息（包括那一周里顾客在杂货上的消费金额）。
guttman.sav。 Bell ⁹创建了一个表，用来阐释可能的社会群体。Guttman ¹⁰引用了该表的一部分，其中包括五个变量，用于描述以下七个理论社会群体的社会交往、对群体的归属感、成员的物理亲近度以及关系正式性：观众（比如在足球比赛现场的人们）、听众（比如在剧院或听课堂讲座的人们）、公众（比如报纸或电视观众）、组织群体（与观众类似但具有紧密的关系）、初级群体（关系密切）、次级群体（自发组织）及现代社区（因在物理上亲近而导致关系松散并需要专业化服务）。
health_funding.sav。 该假设数据文件包含关于保健基金（每 100 人的金额）、发病率（每 10,000 人的比率）以及保健提供商拜访率（每 10,000 的比率）的数据。每个个案代表不同的城市。
hivassay.sav。 该假设数据文件涉及某药物实验室在开发用于检测 HIV 感染的快速化验方面的举措。化验结果为八个加深的红色阴影，如果有更深的阴影则表示感染的可能性很大。用 2,000 份血液样本来进行实验室试验，其中一半受到 HIV 感染而另一半没有受到感染。
hourlywagedata.sav。 该假设数据文件涉及在政府机关和医院工作的具有不同经验水平的护士的时薪。
insurance_claims.sav。此假设数据文件涉及某保险公司，该公司希望构建用于标记可疑的潜在欺诈性索赔的模型。每个个案代表一次单独的理赔。
insure.sav。 该假设数据文件涉及某保险公司，该公司正在研究指示客户是否会根据 10 年的人寿保险合同提出理赔的风险因子。数据文件中的每个个案代表一副根据年龄和性别进行匹配的合同，其中一份记录了一次理赔而另一份则没有。
judges.sav。 该假设数据文件涉及经过训练的裁判（加上一个体操爱好者）对 300 次体操表演给出的分数。每行代表一次单独的表演；裁判们观看相同的表演。
kinship_dat.sav。 Rosenberg 和 Kim ¹¹ 开始分析 15 个亲属关系项（伯母、兄弟、表兄妹、女儿、父亲、孙女、祖父、祖母、孙子、母亲、侄子或外甥、侄女或外甥女、姐妹、儿子和叔叔）。他们让四组大学生（两组女同学，两组男同学）根据相似程度将各项排序。他们让其中的两组同学（一组女同学，一组男同学）进行了两次排序，第二次排序和第一次排序采取的标准不同。这样，一共得到六组“源”。每个源对应一个 15 x 15 的近似值矩阵，其单元格中的值等于源中的人数减去此源中对象被划分的次数。
kinship_ini.sav。 该数据文件包含 kinship_dat.sav 的三维解的初始配置。
kinship_var.sav。 该数据文件包含自变量 gender、gener(ation) 和 degree (of separation)，这些变量可用于解释 kinship_dat.sav 的解的维数。具体而言，它们可用来将解的空间限制为这些变量的线性组合。
marketvalues.sav。 该数据文件涉及 1999–2000 年间 Algonquin，Ill. 地区新的房屋开发中的住房销售。这些销售仅仅来自公众记录。
nhis2000_subset.sav。 美国健康访问调查 (NHIS) 是针对美国全体公民的大型人口调查。该调查对美国的具有全国代表性的家庭样本进行了面对面的访问，并获取了每个家庭的成员的健康行为和健康状态的人口统计信息和观察数据。该数据文件包含取自 2000 年调查信息的子集。国家健康统计中心。2000 年美国健康访问调查。公用数据文件和文档。ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NHIS/2000/。2003 年发布。
ozone.sav。 这些数据包含了用来根据其余变量预测臭氧浓度的六个气象变量的 330 个观察值。在以前的研究人员中，¹² 和 ¹³ 发现了这些变量之间的非线性，这妨碍了标准回归方法。
pain_medication.sav。 该假设数据文件包含用于治疗慢性关节炎疼痛的抗炎药的临床试验结果。我们感兴趣的是该药见效的时间以及它和现有药物的比较。
patient_los.sav。 该假设数据文件包含被医院确诊为疑似心肌梗塞（即 MI 或“心脏病发作”）的患者的治疗记录。每个个案对应一位单独的患者，并记录与其住院期有关的一些变量。
patlos_sample.sav。 该假设数据文件包含在治疗心肌梗塞（即 MI 或“心脏病发作”）期间收到溶解血栓剂的患者的样本治疗记录。每个个案对应一位单独的患者，并记录与其住院期有关的一些变量。
poll_cs.sav。 该假设数据文件涉及民意测验专家在确定正式立法前公众对法案的支持水平方面的举措。个案对应注册的选民。每个个案记录选民居住的县、镇、区。
poll_cs_sample.sav。 该假设数据文件包含在 poll_cs.sav 中列出的选民的样本。该样本是根据 poll.csplan 中指定的设计来选取的，而且该数据文件记录包含概率和样本权重。请注意，由于该抽样计划使用与大小成正比 (PPS) 方法，因此，还有一个文件 (poll_jointprob.sav) 包含联合选择概率。在选取了样本之后，对应于选民人群统计信息及其对提交法案的意见的附加变量将被收集并添加到数据文件。
property_assess.sav。 该假设数据文件涉及某县资产评估员在利用有限的资源不断更新资产价值评估方面的举措。个案对应过去一年中县里所出售的资产。数据文件中的每个个案记录资产所在的镇、最后评估资产的评估员、该次评估距今的时间、当时的估价以及资产的出售价格。
property_assess_cs.sav。 该假设数据文件涉及某州资产评估员在利用有限的资源不断更新资产价值评估方面的举措。个案对应该州的资产。数据文件中的每个个案记录资产所在的县、镇和区，最后一次评估距今的时间以及当时的估价。
property_assess_cs_sample.sav。 该假设数据文件包含在 property_assess_cs.sav 中列出的资产的样本。该样本是根据 property_assess.csplan 中指定的设计来选取的，而且该数据文件记录包含概率和样本权重。在选取了样本之后，附加变量 Current value 将被收集并添加到数据文件。
recidivism.sav。 该假设数据文件涉及某政府执法机构在了解其管辖区域内的屡犯率方面的举措。每个个案对应先前的一名罪犯，并记录其人口统计信息和第一次犯罪的详细资料；如果在第一次被捕后两年内又第二次被捕，则还将记录两次被捕间隔的时间。
recidivism_cs_sample.sav。 该假设数据文件涉及某政府执法机构在了解其管辖区域内的屡犯率方面的举措。每个个案对应于 2003 年 6 月期间第一次被捕后释放的先前一名罪犯，并记录其人口统计信息、其第一次犯罪的一些详细信息以及第二次被捕的数据（如果在 2006 年 6 月底第二次被捕）。罪犯是根据 recidivism_cs.csplan 中指定的抽样计划从已抽样部门中选择的；由于使用了概率与大小成正比 (PPS) 方法，因此，另外有一个包含联合选择概率的文件 (recidivism_cs_jointprob.sav)。
rfm_transactions.sav。 此假设数据文件包含购买交易数据，即每笔交易的购买日期、购买商品和消费金额。
salesperformance.sav。 这是关于评估两个新的销售培训课程的假设数据文件。60 名员工被分成 3 组且都接受标准的培训。另外，组 2 接受技术培训；组 3 接受实践教程。在培训课程结束时，对每名员工进行测验并记录他们的分数。数据文件中的每个个案代表一名单独的受训者，并记录其被分配到的组以及测验的分数。
satisf.sav。 该假设数据文件涉及某零售公司在 4 个商店位置所进行的满意度调查。总共对 582 位客户进行了调查，每个个案代表一位单独客户的回答。
screws.sav。 该数据文件包含关于螺钉、螺栓、螺母和图钉的特征的信息¹⁴。
shampoo_ph.sav 这是关于某发制品厂的质量控制的假设数据文件。在规定的时间间隔对六批独立输出的产品进行检测并记录它们的 pH 值。目标范围是 4.5–5.5。
ships.sav。 在别处被提出和分析的¹⁵关于波浪对货船造成的损坏的数据集。在给定了船的类型、建造工期和服务期后，可以根据以泊松比率发生来为事件计数建模。在因子交叉分类构成的表格中，每个单元格的汇总服务月数提供遇到风险的值。
site.sav。 该假设数据文件涉及某公司在为扩展业务而选择新址方面的举措。该公司聘请了两名顾问分别对选址进行评估，除了提供长期报告外，他们还要以“前景颇佳”、“前景良好”或“前景不佳”来对每个选址进行总结。
smokers.sav。 该数据文件摘自 1998 年全国家庭药物滥用调查并且是美国家庭的概率样本。(http://dx.doi.org/10.3886/ICPSR02934) 因此，分析该数据文件的第一步应该是对数据进行加权以反映总体趋势。
stocks.sav 该假设数据文件包含某一年的股票价格和成交量。
stroke_clean.sav。 该假设数据文件包含某医学数据库在经过“数据准备”选项中的过程清理后的状态。
stroke_invalid.sav。 该假设数据文件包含某医学数据库的初始状态及一些数据输入错误。
stroke_survival。 此假设数据文件涉及正在研究结束缺血性中风后复元计划的患者存活时间的研究人员面临着很多挑战。中风后，记录心肌梗塞、缺血性中风或出血性中风的发生及其时间。样本为左侧截断，因为只包含在中风后管理的复元计划结束后存活的患者。
stroke_valid.sav。 该假设数据文件包含在使用“验证数据”过程检查值后，某医学数据库的状态。它仍包含潜在异常个案。
survey_sample.sav。 此数据文件包含调查数据，包括人口统计学数据和各种态度测量。它基于 1998 NORC 综合社会调查的变量子集，但某些数据值已经过修改，并添加了其他虚拟变量以供演示用途。
tcm_kpi.sav。这是假设数据文件，其中包含某个业务的每周关键绩效指标的值。还包含相同时间段大量可控度量的每周数据。
tcm_kpi_upd.sav。此数据文件与 tcm_kpi.sav 相同，但是包含额外四个周的数据。
telco.sav。 该假设数据文件涉及某电信公司在减少客户群中的客户流失方面的举措。每个个案对应一个单独的客户，并记录各类人口统计和服务用途信息。
telco_extra.sav。 该数据文件与 telco.sav 数据文件类似，但删除了 "tenure" 和经对数转换的客户消费变量，代替它们的是标准化的对数转换客户消费变量。
telco_missing.sav。 该数据文件是 telco.sav 数据文件的子集，但某些人口统计数据值已被缺失值替换。
testmarket.sav。 该假设数据文件涉及某快餐连锁店为其菜单添加新项目的计划。有三种可能的促销新产品的活动，所以会在多个随机选择的市场中的地点引入新的项目。在每个地点采用不同的促销方式，并记录新项目前四周的每周销售情况。每个个案对应单独地点的一周。
testmarket_1month.sav。 该假设数据文件是在数据文件 testmarket.sav 的基础上加上了每周销售“累计”，所以每个个案对应一个单独的地点。所以，一些每周更改的变量消失了，而且现在记录的销售是为期四周的研究过程中的销售之和。
tree_car.sav。 该假设数据文件包含人口统计和车辆购买价格数据。
tree_credit.sav。 该假设数据文件包含人口统计和银行贷款历史数据。
tree_missing_data.sav 该假设数据文件包含具有大量缺失值的人口统计和银行贷款历史数据。
tree_score_car.sav。 该假设数据文件包含人口统计和车辆购买价格数据。
tree_textdata.sav。 这是一个只有两个变量的样本数据文件，主要打算在指定测量级别和值标签之前显示变量的缺省状态。
tv-survey.sav。 该假设数据文件涉及由某电视演播室进行的一项关于是否要继续制作一档成功的节目的调查。906 位响应者被问及他们在各种情况下是否会收看该节目。每行代表一位单独的响应者；每列代表一种单独的情况。
ulcer_recurrence.sav。 此文件包含某项研究的部分信息，该研究旨在比较两种用来防止溃疡复发的治疗的功效。它提供了区间数据的优秀示例并且已在别处被提出和分析¹⁶。
ulcer_recurrence_recoded.sav。 该文件重新组织 ulcer_recurrence.sav 中的信息以允许为研究的每个区间的事件概率建模而不是简单地为研究结束事件概率建模。它已在别处被提出和分析¹⁷。
verd1985.sav。 该数据文件涉及某项调查¹⁸。该调查记录了 15 个主体对 8 个变量的响应。需要处理的变量被分成 3 个集。数据集 1 包含年龄和婚姻；数据集 2 包含宠物和新闻；数据集 3 包含音乐和居住。宠物被刻度化为多名义而年龄被刻度化为有序；所有其他变量都被刻度化为单名义。
virus.sav。 该假设数据文件涉及某因特网服务提供商 (ISP) 在确定病毒对其网络的影响方面的举措。他们从发现病毒到威胁得以遏制这段时间内跟踪其网络上受感染的电子邮件的流量的（近似）百分比。
wheeze_steubenville.sav。 这是关于空气污染对儿童健康影响的纵向研究的一个子集¹⁹。这些数据包含儿童的气喘状况的重复二分类测量（这些儿童来自 Steubenville，Ohio，年龄为 7 到 10 岁），以及母亲在研究的第一年中是否为吸烟者的固定记录。
workprog.sav。 该假设数据文件涉及一份尝试为弱势群体提供较好的工作的政府工作计划。文件后还有一个潜在计划参与者的样本，其中一些参与者是被随机选择来参加该计划的，而其他参与者则不是。每个个案代表一位单独的计划参与者。
worldsales.sav 该假设数据文件包含按不同大洲和产品列出的销售收入。

¹ Van der Ham, T., J. J. Meulman, D. C. Van Strien, and H. Van Engeland. 1997. Empirically based subgrouping of eating disorders in adolescents: A longitudinal perspective. British Journal of Psychiatry, 170, 363-368.

² Price, R. H., and D. L. Bouffard. 1974. Behavioral appropriateness and situational constraints as dimensions of social behavior. Journal of Personality and Social Psychology, 30, 579-586.

³ Green, P. E., and V. Rao. 1972. Applied multidimensional scaling. Hinsdale, Ill.: Dryden Press.

⁴ McCullagh, P., and J. A. Nelder. 1989. Generalized Linear Models, 2nd ed. London: Chapman & Hall.

⁵ Green, P. E., and Y. Wind. 1973. Multiattribute decisions in marketing: A measurement approach. Hinsdale, Ill.: Dryden Press.

⁶ Kennedy, R., C. Riquier, and B. Sharp. 1996. Practical applications of correspondence analysis to categorical data in market research. Journal of Targeting, Measurement, and Analysis for Marketing, 5, 56-70.

⁷ Rickman, R., N. Mitchell, J. Dingman, and J. E. Dalen. 1974. Changes in serum cholesterol during the Stillman Diet. Journal of the American Medical Association, 228:, 54-58.

⁸ Blake, C. L., and C. J. Merz. 1998. "UCI Repository of machine learning databases." Available at http://www.ics.uci.edu/~mlearn/MLRepository.html.

⁹ Bell, E. H. 1961. Social foundations of human behavior: Introduction to the study of sociology. New York: Harper & Row.

¹⁰ Guttman, L. 1968. A general nonmetric technique for finding the smallest coordinate space for configurations of points. Psychometrika, 33, 469-506.

¹¹ Rosenberg, S., and M. P. Kim. 1975. The method of sorting as a data-gathering procedure in multivariate research. Multivariate Behavioral Research, 10, 489-502.

¹² Breiman, L., and J. H. Friedman. 1985. Estimating optimal transformations for multiple regression and correlation. Journal of the American Statistical Association, 80, 580-598.

¹³ Hastie, T., and R. Tibshirani. 1990. Generalized additive models. London: Chapman and Hall.

¹⁴ Hartigan, J. A. 1975. Clustering algorithms. New York: John Wiley and Sons.

¹⁵ McCullagh, P., and J. A. Nelder. 1989. Generalized Linear Models, 2nd ed. London: Chapman & Hall.

¹⁶ Collett, D. 2003. Modelling survival data in medical research, 2 ed. Boca Raton: Chapman & Hall/CRC.

¹⁷ Collett, D. 2003. Modelling survival data in medical research, 2 ed. Boca Raton: Chapman & Hall/CRC.

¹⁸ Verdegaal, R. 1985. Meer sets analyse voor kwalitatieve gegevens (in Dutch). Leiden: Department of Data Theory, University of Leiden.

¹⁹ Ware, J. H., D. W. Dockery, A. Spiro III, F. E. Speizer, and B. G. Ferris Jr.. 1984. Passive smoking, gas cooking, and respiratory health of children living in six cities. American Review of Respiratory Diseases, 129, 366-374.