Archivos de muestra

Los archivos muestrales instalados con el producto se encuentran en el subdirectorio Samples del directorio de instalación. Hay una carpeta independiente dentro del subdirectorio Samples para cada uno de los siguientes idiomas: Inglés, francés, alemán, italiano, japonés, coreano, polaco, ruso, chino simplificado, español y chino tradicional.

No todos los archivos muestrales están disponibles en todos los idiomas. Si un archivo de muestra no está disponible en un idioma, esa carpeta de idioma contendrá una versión en inglés del archivo de muestra.

Descripciones

A continuación, se describen brevemente los archivos muestrales usados en varios ejemplos que aparecen a lo largo de la documentación.

accidents.sav. Archivo de datos hipotéticos sobre una compañía de seguros que estudia los factores de riesgo de edad y género que influyen en los accidentes de automóviles de una región determinada. Cada caso corresponde a una clasificación cruzada de categoría de edad y género.
adl.sav. Archivo de datos hipotéticos relativo a los esfuerzos para determinar las ventajas de un tipo propuesto de tratamiento para pacientes que han sufrido un derrame cerebral. Los médicos dividieron de manera aleatoria a pacientes (mujeres) que habían sufrido un derrame cerebral en dos grupos. El primer grupo recibió el tratamiento físico estándar y el segundo recibió un tratamiento emocional adicional. Tres meses después de los tratamientos, se puntuaron las capacidades de cada paciente para realizar actividades cotidianas como variables ordinales.
advert.sav. Archivo de datos hipotéticos sobre las iniciativas de un minorista para examinar la relación entre el dinero invertido en publicidad y las ventas resultantes. Para ello, se han recopilado cifras de ventas anteriores y los costes de publicidad asociados.
aflatoxin.sav. Archivo de datos hipotéticos sobre las pruebas realizadas en las cosechas de maíz con relación a la aflatoxina, un veneno cuya concentración varía ampliamente en los rendimientos de cultivo y entre los mismos. Un procesador de grano ha recibido 16 muestras de cada uno de los 8 rendimientos de cultivo y ha medido los niveles de aflatoxinas en partes por millón (PPM).
anorectic.sav. Mientras trabajaban en una sintomatología estandarizada del comportamiento anoréxico/bulímico, los investigadores ¹ realizaron un estudio de 55 adolescentes con trastornos de la alimentación conocidos. Cada paciente fue examinado cuatro veces durante cuatro años, lo que representa un total de 220 observaciones. En cada observación, se puntuó a los pacientes por cada uno de los 16 síntomas. Faltan las puntuaciones de los síntomas para el paciente 71 en el tiempo 2, el paciente 76 en el tiempo 2 y el paciente 47 en el tiempo 3, lo que nos deja 217 observaciones válidas.
anticonvulsants.sav. Los investigadores médicos pueden utilizar un modelo mezclado lineal generalizado para determinar si un nuevo fármaco anticonvulsivo puede reducir el índice de ataques epilépticos de un paciente. Las mediciones repetidas del mismo paciente se correlacionan positivamente de forma habitual, de modo que podría ser apropiado un modelo mixto con algunos efectos aleatorios. El campo objetivo, que es el número de ataques, recibe valores enteros positivos, de modo que es posible que sea apropiado un modelo mixto lineal generalizado con una distribución Poisson y un enlace de logaritmo.
bankloan.sav. Archivo de datos hipotéticos sobre las iniciativas de un banco para reducir la tasa de moras de créditos. El archivo contiene información financiera y demográfica de 850 clientes anteriores y posibles clientes. Los primeros 700 casos son clientes a los que anteriormente se les ha concedido un préstamo. Al menos 150 casos son posibles clientes cuyos riesgos de crédito el banco necesita clasificar como positivos o negativos.
bankloan_binning.sav. Archivo de datos hipotéticos que contiene información financiera y demográfica sobre 5.000 clientes anteriores.
bankloan_cs.sav. Este es un archivo de datos hipotéticos que se ocupa de los esfuerzo del banco para identificar características que son un indicativo de personas que, probablemente, pueden causar mora en los créditos y, después, utilizar estas características para identificar riesgos de crédito positivos y negativos.
bankloan_cs_noweights.sav. Este es un archivo de datos hipotéticos que se ocupa de los esfuerzo del banco para identificar características que son un indicativo de personas que, probablemente, pueden causar mora en los créditos y, después, utilizar estas características para identificar riesgos de crédito positivos y negativos. En el archivo no están incluidas las ponderaciones del muestreo.
behavior.sav. En un ejemplo clásico ², se pidió a 52 estudiantes que valoraran las combinaciones de 15 situaciones y 15 comportamientos en una escala de 10 puntos que oscila entre 0 = "extremadamente apropiado" y 9 = "extremadamente inapropiado". Los valores promediados respecto a los individuos se toman como disimilaridades.
behavior_ini.sav. Este archivo de datos contiene una configuración inicial para una solución bidimensional de behavior.sav.
brakes.sav. Archivo de datos hipotéticos sobre el control de calidad de una fábrica que produce frenos de disco para automóviles de alto rendimiento. El archivo de datos contiene las mediciones del diámetro de 16 discos de cada una de las 8 máquinas de producción. El diámetro objetivo para los frenos es de 322 milímetros.
breakfast.sav. En un estudio clásico ³, se pidió a 21 estudiantes de administración de empresas de la Wharton School y sus cónyuges que ordenaran 15 elementos de desayuno por orden de preferencia, de 1="más preferido" a 15="menos preferido". Sus preferencias se registraron en seis escenarios distintos, de "Preferencia global" a "Aperitivo, con bebida sólo".
breakfast-overall.sav. Este archivo de datos sólo contiene las preferencias de elementos de desayuno para el primer escenario, "Preferencia global".
broadband_1.sav Archivo de datos hipotéticos que contiene el número de suscriptores, por región, a un servicio de banda ancha nacional. El archivo de datos contiene números de suscriptores mensuales para 85 regiones durante un período de cuatro años.
broadband_2.sav Este archivo de datos es idéntico a broadband_1.sav pero contiene datos para tres meses adicionales.
cable_survey.sav. Los ejecutivos de un proveedor de cable de televisión, teléfono y servicios de Internet desean saber más sobre sus clientes potenciales. Realizan una encuesta a 2.000 personas en sus áreas de servicio y les preguntan (1) si no tienen el servicio; (2) si están suscritos al servicio con otros proveedores; o (3) si tienen el servicio con la empresa, para cada uno de los tres servicios. Además, la encuesta recopila alguna información demográfica como, por ejemplo, género, categoría de edad (4 niveles), categoría de formación (3 niveles), categoría de ingresos (3 niveles), categoría de tipo de residencia (4 niveles), categoría de años en la dirección actual (3 niveles), número de personas en el domicilio y, así, sucesivamente.
car_insurance_claims.sav. Un conjunto de datos presentados y analizados en otro lugar ⁴ estudia las reclamaciones por daños en vehículos. La cantidad de reclamaciones media se puede modelar como si tuviera una distribución Gamma, mediante una función de enlace inversa para relacionar la media de la variable dependiente con una combinación lineal de la edad del asegurado, el tipo de vehículo y la antigüedad del vehículo. El número de reclamaciones presentadas se puede utilizar como ponderación de escala.
car_sales.sav. Este archivo de datos contiene estimaciones de ventas, precios de lista y especificaciones físicas hipotéticas de varias marcas y modelos de vehículos. Los precios de lista y las especificaciones físicas se han obtenido de edmunds.com y de sitios de fabricantes.
car_sales_uprepared.sav. Ésta es una versión modificada de car_sales.sav que no incluye ninguna versión transformada de los campos.
carpet.sav En un ejemplo muy conocido, ⁵, una compañía interesada en sacar al mercado un nuevo limpiador de alfombras desea examinar la influencia de cinco factores sobre la preferencia del consumidor: diseño del producto, marca comercial, precio, sello de Buen producto para el hogar y garantía de devolución del importe. Hay tres niveles de factores para el diseño del producto, cada uno con una diferente colocación del cepillo del aplicador; tres nombres comerciales (K2R, Glory y Bissell); tres niveles de precios; y dos niveles (no o sí) para los dos últimos factores. Diez consumidores clasificaron 22 perfiles definidos por estos factores. La variable Preferencia contiene el rango de las clasificaciones medias de cada perfil. Las clasificaciones inferiores corresponden a preferencias elevadas. Esta variable refleja una medida global de la preferencia de cada perfil.
carpet_prefs.sav Este archivo de datos se basa en el mismo ejemplo que el descrito para carpet.sav, pero contiene las clasificaciones reales recogidas de cada uno de los 10 consumidores. Se pidió a los consumidores que clasificaran los 22 perfiles de los productos empezando por el menos preferido. Las variables desde PREF1 hasta PREF22 contienen los ID de los perfiles asociados, como se definen en carpet_plan.sav.
catalog.sav Este archivo de datos contiene cifras de ventas mensuales hipotéticas de tres productos vendidos por una compañía de venta por catálogo. También se incluyen datos para cinco variables predictoras posibles.
catalog_seasfac.sav Este archivo de datos es igual que catalog.sav, con la excepción de que incluye un conjunto de factores estacionales calculados a partir del procedimiento Descomposición estacional junto con las variables de fecha que lo acompañan.
cellular.sav. Archivo de datos hipotéticos sobre las iniciativas de una compañía de telefonía móvil para reducir el abandono de clientes. Las puntuaciones de propensión al abandono de clientes se aplican a las cuentas, oscilando de 0 a 100. Las cuentas con una puntuación de 50 o superior pueden estar buscando otros proveedores.
ceramics.sav. Archivo de datos hipotéticos sobre las iniciativas de un fabricante para determinar si una nueva aleación de calidad tiene una mayor resistencia al calor que una aleación estándar. Cada caso representa una prueba independiente de una de las aleaciones; la temperatura a la que registró el fallo del rodamiento.
cereal.sav. Archivo de datos hipotéticos sobre una encuesta realizada a 880 personas sobre sus preferencias en el desayuno, teniendo también en cuenta su edad, género, estado civil y si tienen un estilo de vida activo o no (en función de si practican ejercicio al menos dos veces a la semana). Cada caso representa un encuestado diferente.
clothing_defects.sav. Archivo de datos hipotéticos sobre el proceso de control de calidad en una fábrica de prendas. Los inspectores toman una muestra de prendas de cada lote producido en la fábrica, y cuentan el número de prendas que no son aceptables.
coffee.sav. Este archivo de datos pertenece a las imágenes percibidas de seis marcas de café helado ⁶. Para cada uno de los 23 atributos de imagen de café helado, los encuestados seleccionaron todas las marcas que quedaban descritas por el atributo. Las seis marcas se denotan AA, BB, CC, DD, EE y FF para mantener la confidencialidad.
contacts.sav. Archivo de datos hipotéticos sobre las listas de contactos de un grupo de representantes de ventas de ordenadores de empresa. Cada uno de los contactos está categorizado por el departamento de la compañía en el que trabaja y su categoría en la compañía. Además, también se registran los importes de la última venta realizada, el tiempo transcurrido desde la última venta y el tamaño de la compañía del contacto.
credit_card.sav. Un estudio hipotético del uso de la tarjeta de crédito sigue el gasto mensual de cada sujeto en su tarjeta principal durante dos años, con el gasto desglosado por el tipo de transacción (Alimentación, Minorista, Entretenimiento, Viajes y Otros). Cada registro del conjunto de datos corresponde al mes de gasto determinado y el tipo de transacción, así que los datos recopilados para cada sujeto requiere 2 años × 12 meses por año × 5 tipos de transacciones = 120 registros.
creditpromo.sav. Archivo de datos hipotéticos sobre las iniciativas de unos almacenes para evaluar la eficacia de una promoción de tarjetas de crédito reciente. Para este fin, se seleccionaron aleatoriamente 500 titulares. La mitad recibieron un anuncio promocionando una tasa de interés reducida sobre las ventas realizadas en los siguientes tres meses. La otra mitad recibió un anuncio estacional estándar.
cross_sell.sav. Una empresa de pedidos por correo tiene un club de lectura y un club de CD. Cada mes, ponen a disposición de los miembros del club ofertas especiales. La empresa desea crear un modelo para el total de compras de oferta especial del mes basándose en el total de compras de libros, compras de CD y el tipo de oferta proporcionado a los miembros del club. La regresión de mínimos cuadrados de 2 etapas es un enfoque apropiado para esta situación porque el dinero que se gasta en ofertas especiales es dinero que no se gasta en libros o CD; por lo tanto, existe una retroalimentación entre la respuesta y estos dos predictores.
customer_dbase.sav. Archivo de datos hipotéticos sobre las iniciativas de una compañía para usar la información de su almacén de datos para realizar ofertas especiales a los clientes con más probabilidades de responder. Se seleccionó un subconjunto de la base de clientes aleatoriamente a quienes se ofrecieron las ofertas especiales y sus respuestas se registraron.
customer_information.sav. Archivo de datos hipotéticos que contiene la información de correo del cliente, como el nombre y la dirección.
customer_subset.sav. Un subconjunto de 80 casos de customer_dbase.sav.
debate.sav. Archivos de datos hipotéticos sobre las respuestas emparejadas de una encuesta realizada a los asistentes a un debate político antes y después del debate. Cada caso corresponde a un encuestado diferente.
debate_aggregate.sav. Archivo de datos hipotéticos que agrega las respuestas de debate.sav. Cada caso corresponde a una clasificación cruzada de preferencias antes y después del debate.
demo.sav. Archivos de datos hipotéticos sobre una base de datos de clientes adquirida con el fin de enviar por correo ofertas mensuales. Se registra si el cliente respondió a la oferta, junto con información demográfica diversa.
demo_cs_1.sav. Archivo de datos hipotéticos sobre el primer paso de las iniciativas de una compañía para recopilar una base de datos de información de encuestas. Cada caso corresponde a una ciudad diferente, y se registra la identificación de la ciudad, la región, la provincia y el distrito.
demo_cs_2.sav. Archivo de datos hipotéticos sobre el segundo paso de las iniciativas de una compañía para recopilar una base de datos de información de encuestas. Cada caso corresponde a una unidad familiar diferente de las ciudades seleccionadas en el primer paso, y se registra la identificación de la unidad, la subdivisión, la ciudad, el distrito, la provincia y la región. También se incluye la información de muestreo de las primeras dos etapas del diseño.
demo_cs.sav. Archivo de datos hipotéticos que contiene información de encuestas recopilada mediante un diseño del muestreo complejo. Cada caso corresponde a una unidad familiar distinta, y se recopila información demográfica y de muestreo diversa.
diabetes_costs.sav. Es un archivo de datos hipotético que contiene información mantenida por una compañía de seguros acerca de los titulares de póliza que tienen diabetes. Cada caso corresponde a un titular de política diferente.
dietstudy.sav. Este archivo de datos hipotéticos contiene los resultados de un estudio sobre la "dieta Stillman" ⁷. Cada caso corresponde a un sujeto distinto y registra sus pesos antes y después de la dieta en libras y niveles de triglicéridos en mg/100 ml.
dmdata.sav. Es un archivo de datos hipotético que contiene información demográfica y de compra para una empresa de marketing directo. dmdata2.sav contiene información para un subconjunto de contactos que recibieron un envío de correos de prueba y dmdata3.sav contiene información sobre el resto de contactos que no recibieron el envío de correos de prueba.
dvdplayer.sav. Archivo de datos hipotéticos sobre el desarrollo de un nuevo reproductor de DVD. El equipo de marketing ha recopilado datos de grupo de enfoque mediante un prototipo. Cada caso corresponde a un usuario encuestado diferente y registra información demográfica sobre los encuestados y sus respuestas a preguntas acerca del prototipo.
Employee data.sav. Este es un archivo de datos hipotéticos que contiene información específica de empleado (nivel de formación, categoría de empleo, salario actual, experiencia anterior y, así, sucesivamente).
german_credit.sav. Este archivo de datos se toma del conjunto de datos "German credit" de las Repository of Machine Learning Databases ⁸ de la Universidad de California, Irvine.
grocery_1month.sav. Este archivo de datos hipotéticos es el archivo de datos grocery_coupons.sav con las compras semanales "acumuladas" para que cada caso corresponda a un cliente diferente. Algunas de las variables que cambiaban semanalmente desaparecen de los resultados, y la cantidad gastada registrada se convierte ahora en la suma de las cantidades gastadas durante las cuatro semanas del estudio.
grocery_coupons.sav. Archivo de datos hipotéticos que contiene datos de encuestas recopilados por una cadena de tiendas de alimentación interesada en los hábitos de compra de sus clientes. Se sigue a cada cliente durante cuatro semanas, y cada caso corresponde a un cliente-semana distinto y registra información sobre dónde y cómo compran los clientes, incluida la cantidad que invierten en comestibles durante esa semana.
guttman.sav. Bell ⁹ presentó una tabla para ilustrar posibles grupos sociales. Guttman ¹⁰ utilizó parte de esta tabla, en la que se cruzaron cinco variables que describían elementos como la interacción social, sentimientos de pertenencia a un grupo, proximidad física de los miembros y grado de formalización de la relación con siete grupos sociales teóricos, incluidos multitudes (por ejemplo, las personas que acuden a un partido de fútbol), espectadores (por ejemplo, las personas que acuden a un teatro o de una conferencia), públicos (por ejemplo, los lectores de periódicos o los espectadores de televisión), muchedumbres (como una multitud pero con una interacción mucho más intensa), grupos primarios (íntimos), grupos secundarios (voluntarios) y la comunidad moderna (confederación débil que resulta de la proximidad cercana física y de la necesidad de servicios especializados).
health_funding.sav. Archivo de datos hipotéticos que contiene datos sobre inversión en sanidad (cantidad por 100 personas), tasas de enfermedad (índice por 10.000 personas) y visitas a centros de salud (índice por 10.000 personas). Cada caso representa una ciudad diferente.
hivassay.sav. Archivo de datos hipotéticos sobre las iniciativas de un laboratorio farmacéutico para desarrollar un ensayo rápido para detectar la infección por VIH. Los resultados del ensayo son ocho tonos de rojo con diferentes intensidades, donde los tonos más oscuros indican una mayor probabilidad de infección. Se llevó a cabo una prueba de laboratorio de 2.000 muestras de sangre, de las cuales una mitad estaba infectada con el VIH y la otra estaba limpia.
hourlywagedata.sav. Archivo de datos hipotéticos sobre los salarios por horas de enfermeras de puestos de oficina y hospitales y con niveles distintos de experiencia.
insurance_claims.sav. Éste es un archivo de datos hipotéticos sobre una compañía de seguros que desee generar un modelo para señalar las reclamaciones sospechosas y potencialmente fraudulentas. Cada caso representa una reclamación diferente.
insure.sav. Archivo de datos hipotéticos sobre una compañía de seguros que estudia los factores de riesgo que indican si un cliente tendrá que hacer una reclamación a lo largo de un contrato de seguro de vida de 10 años. Cada caso del archivo de datos representa un par de contratos (de los que uno registró una reclamación y el otro no), agrupados por edad y género.
judges.sav. Archivo de datos hipotéticos sobre las puntuaciones concedidas por jueces cualificados (y un aficionado) a 300 actuaciones gimnásticas. Cada fila representa una actuación diferente; los jueces vieron las mismas actuaciones.
kinship_dat.sav. Rosenberg y Kim ¹¹ comenzaron a analizar 15 términos de parentesco (tía, hermano, primo, hija, padre, nieta, abuelo, abuela, nieto, madre, sobrino, sobrina, hermana, hijo, tío). Le pidieron a cuatro grupos de estudiantes universitarios (dos masculinos y dos femeninos) que ordenaran estos grupos según las similitudes. A dos grupos (uno masculino y otro femenino) se les pidió que realizaran la ordenación dos veces, pero que la segunda ordenación la hicieran según criterios distintos a los de la primera. Así, se obtuvo un total de seis “orígenes”. Cada origen se corresponde con una matriz de proximidades de 15 x 15 cuyas casillas son iguales al número de personas de un origen menos el número de veces que se particionaron los objetos en ese origen.
kinship_ini.sav. Este archivo de datos contiene una configuración inicial para una solución tridimensional de kinship_dat.sav.
kinship_var.sav. Este archivo de datos contiene variables independientes género, gener(ación), y grado (de separación) que se pueden usar para interpretar las dimensiones de una solución para kinship_dat.sav. Concretamente, se pueden usar para restringir el espacio de la solución a una combinación lineal de estas variables.
marketvalues.sav. Archivo de datos sobre las ventas de casas en una nueva urbanización de Algonquin, Ill., durante los años 1999–2000. Los datos de estas ventas son públicos.
MemoryTask.sav. Este archivo de datos contiene registros de experimentos de memoria que incluyen información de sujetos y mediciones repetidas. En el experimento de memoria se recopilaron cuatro mediciones para cada sujeto en base a cuatro tareas distintas bien diseñadas.
meps1.sav. El Medical Expenditure Panel Survey (MEPS) es un conjunto de encuestas a gran escala de familias e individuos, sus proveedores de servicios de salud y sus empleadores a lo largo se Estados Unidos. MEPS es la fuente de datos más completa sobre el coste y el uso de los servicios de salud y la cobertura de los seguros médicos.
nhis2000_subset.sav. La National Health Interview Survey (NHIS, encuesta del Centro Nacional de Estadísticas de Salud de EE.UU.) es una encuesta detallada realizada entre la población civil de Estados Unidos. Las encuestas se realizaron en persona a una muestra representativa de las unidades familiares del país. Se recogió tanto la información demográfica como las observaciones acerca del estado y los hábitos de salud de los integrantes de cada unidad familiar. Este archivo de datos contiene un subconjunto de información de la encuesta de 2000. National Center for Health Statistics. National Health Interview Survey, 2000. Archivo de datos y documentación de uso público. ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NHIS/2000/. Fecha de acceso: 2003.
ozono.sav. Los datos incluyen 330 observaciones de seis variables meteorológicas para pronosticar la concentración de ozono a partir del resto de variables. investigadores anteriores¹², ¹³ han encontrado que no hay linealidad entre estas variables, lo que dificulta los métodos de regresión estándar.
pain_medication.sav. Este archivo de datos hipotéticos contiene los resultados de una prueba clínica sobre medicación antiinflamatoria para tratar el dolor artrítico crónico. Resulta de particular interés el tiempo que tarda el fármaco en hacer efecto y cómo se compara con una medicación existente.
patient_los.sav. Este archivo de datos hipotéticos contiene los registros de tratamiento de pacientes que fueron admitidos en el hospital ante la posibilidad de sufrir un infarto de miocardio (IM o "ataque al corazón"). Cada caso corresponde a un paciente distinto y registra diversas variables relacionadas con su estancia hospitalaria.
patlos_sample.sav. Este archivo de datos hipotéticos contiene los registros de tratamiento de una muestra de pacientes que recibieron trombolíticos durante el tratamiento del infarto de miocardio (IM o "ataque al corazón"). Cada caso corresponde a un paciente distinto y registra diversas variables relacionadas con su estancia hospitalaria.
poll_cs.sav. Archivo de datos hipotéticos sobre las iniciativas de los encuestadores para determinar el nivel de apoyo público a una ley antes de una asamblea legislativa. Los casos corresponden a votantes registrados. Cada caso registra el condado, la población y el vecindario en el que vive el votante.
poll_cs_sample.sav. Este archivo de datos hipotéticos contiene una muestra de los votantes enumerados en poll_cs.sav. La muestra se tomó según el diseño especificado en el archivo de plan poll.csplan y este archivo de datos registra las probabilidades de inclusión y las ponderaciones muestrales. Sin embargo, tenga en cuenta que debido a que el plan muestral hace uso de un método de probabilidad proporcional al tamaño (PPS), también existe un archivo que contiene las probabilidades de selección conjunta (poll_jointprob.sav). Las variables adicionales que corresponden a los datos demográficos de los votantes y sus opiniones sobre la propuesta de ley se recopilaron y añadieron al archivo de datos después de tomar la muestra.
property_assess.sav. Archivo de datos hipotéticos sobre las iniciativas de un asesor del condado para mantener actualizada la evaluación de los valores de las propiedades utilizando recursos limitados. Los casos corresponden a las propiedades vendidas en el condado el año anterior. Cada caso del archivo de datos registra la población en que se encuentra la propiedad, el último asesor que visitó la propiedad, el tiempo transcurrido desde la última evaluación, la valoración realizada en ese momento y el valor de venta de la propiedad.
property_assess_cs.sav. Archivo de datos hipotéticos sobre las iniciativas de un asesor de un estado para mantener actualizada la evaluación de los valores de las propiedades utilizando recursos limitados. Los casos corresponden a propiedades del estado. Cada caso del archivo de datos registra el condado, la población y el vecindario en el que se encuentra la propiedad, el tiempo transcurrido desde la última evaluación y la valoración realizada en ese momento.
property_assess_cs_sample.sav Este archivo de datos hipotéticos contiene una muestra de las propiedades recogidas en property_assess_cs.sav. La muestra se tomó en función del diseño especificado en el archivo de plan property_assess.csplan, y este archivo de datos registra las probabilidades de inclusión y las ponderaciones muestrales. La variable adicional Valor actual se recopiló y añadió al archivo de datos después de tomar la muestra.
recidivism.sav. Archivo de datos hipotéticos sobre las iniciativas de una agencia de orden público para comprender los índices de reincidencia en su área de jurisdicción. Cada caso corresponde a un infractor anterior y registra su información demográfica, algunos detalles de su primer delito y, a continuación, el tiempo transcurrido desde su segundo arresto, si ocurrió en los dos años posteriores al primer arresto.
recidivism_cs_sample.sav. Archivo de datos hipotéticos sobre las iniciativas de una agencia de orden público para comprender los índices de reincidencia en su área de jurisdicción. Cada caso corresponde a un infractor anterior, liberado de su primer arresto durante el mes de junio de 2003, y registra información demográfica, algunos detalles de su primer delito y los datos de su segundo arresto, si se ha producido antes de finales de junio de 2006. Los acusados fueron seleccionados de un muestreo de departamentos en el plan de muestreo especificado en recidivism_cs.csplan; puesto que utiliza el método de probabilidad proporcional al tamaño (PPS), también es un archivo que contiene las probabilidades de selección conjunta (recidivism_cs_jointprob.sav).
rfm_transactions.sav. Archivo de datos hipotéticos que contiene datos de transacciones de compra, incluida la fecha de compra, los artículos adquiridos y el importe de cada transacción.
salesperformance.sav. Archivo de datos hipotéticos sobre la evaluación de dos nuevos cursos de formación de ventas. Sesenta empleados, divididos en tres grupos, reciben formación estándar. Además, el grupo 2 recibe formación técnica; el grupo 3, un tutorial práctico. Cada empleado se sometió a un examen al final del curso de formación y se registró su puntuación. Cada caso del archivo de datos representa a un alumno distinto y registra el grupo al que fue asignado y la puntuación que obtuvo en el examen.
satisf.sav. Archivo de datos hipotéticos sobre una encuesta de satisfacción llevada a cabo por una empresa minorista en cuatro tiendas. Se encuestó a 582 clientes en total y cada caso representa las respuestas de un único cliente.
screws.sav Este archivo de datos contiene información acerca de las características de tornillos, pernos, clavos y tacos ¹⁴.
shampoo_ph.sav. Archivo de datos hipotéticos sobre el control de calidad en una fábrica de productos para el cabello. Se midieron seis lotes de resultados distintos en intervalos regulares y se registró su pH. El intervalo objetivo es de 4,5 a 5,5.
ships.sav. Un conjunto de datos presentados y analizados en otro lugar ¹⁵ sobre los daños en los cargueros producidos por las olas. Los recuentos de incidentes se pueden modelar como si ocurrieran con una tasa de Poisson dado el tipo de barco, el período de construcción y el período de servicio. Los meses de servicio agregados para cada casilla de la tabla formados por la clasificación cruzada de factores proporcionan valores para la exposición al riesgo.
site.sav. Archivo de datos hipotéticos sobre las iniciativas de una compañía para seleccionar sitios nuevos para sus negocios en expansión. Se ha contratado a dos consultores para evaluar los sitios de forma independiente, quienes, además de un informe completo, han resumido cada sitio como una posibilidad "buena", "media" o "baja".
smokers.sav. Este archivo de datos es un resumen de la encuesta sobre toxicomanía 1998 National Household Survey of Drug Abuse y es una muestra de probabilidad de unidades familiares americanas. (http://dx.doi.org/10.3886/ICPSR02934) Así, el primer paso de un análisis de este archivo de datos debe ser ponderar los datos para reflejar las tendencias de población.
stocks.sav Este archivo de datos hipotéticos contiene precios de acciones y volumen de un año.
stroke_clean.sav. Este archivo de datos hipotéticos contiene el estado de una base de datos médica después de que se haya limpiado utilizando procedimientos en la edición Base de Statistics.
stroke_invalid.sav. Este archivo de datos hipotéticos contiene el estado inicial de una base de datos médica que incluye contiene varios errores de entrada de datos.
stroke_survival. Este archivo de datos hipotéticos registra los tiempos de supervivencia de los pacientes que finalizan un programa de rehabilitación tras un ataque isquémico. Tras el ataque, la ocurrencia de infarto de miocardio, ataque isquémico o ataque hemorrágico se anotan junto con el momento en el que se produce el evento registrado. La muestra está truncada a la izquierda ya que únicamente incluye a los pacientes que han sobrevivido al final del programa de rehabilitación administrado tras el ataque.
stroke_valid.sav. Este archivo de datos hipotéticos contiene el estado de una base de datos médica después de haber comprobado los valores mediante el procedimiento Validar datos. Sigue conteniendo casos potencialmente anómalos.
survey_sample.sav. Este archivo de datos contiene datos de encuestas, incluyendo datos demográficos y diferentes medidas de actitud. Se basa en un subconjunto de variables de NORC General Social Survey de 1998, aunque algunos valores de datos se han modificado y que existen variables ficticias adicionales se han añadido para demostraciones.
tcm_kpi.sav. Es un archivo de datos hipotético que contiene valores de indicadores clave de rendimiento semanales para una empresa. También contiene datos semanales para diversas métricas controlables durante el mismo periodo de tiempo.
tcm_kpi_upd.sav. Este archivo de datos es idéntico a tcm_kpi.sav pero contiene datos para cuatro semanas adicionales.
telco.sav. Archivo de datos hipotéticos sobre las iniciativas de una compañía de telecomunicaciones para reducir el abandono de clientes en su base de clientes. Cada caso corresponde a un cliente distinto y registra diversa información demográfica y de uso del servicio.
telco_extra.sav. Este archivo de datos es similar al archivo de datos telco.sav, pero las variables de meses con servicio y gasto de clientes transformadas logarítmicamente se han eliminado y sustituido por variables de gasto del cliente transformadas logarítmicamente estandarizadas.
telco_missing.sav. Este archivo de datos es un subconjunto del archivo de datos telco.sav, pero algunos valores de datos demográficos se han sustituido con valores perdidos.
testmarket.sav. Archivo de datos hipotéticos sobre los planes de una cadena de comida rápida para añadir un nuevo artículo a su menú. Hay tres campañas posibles para promocionar el nuevo producto, por lo que el artículo se presenta en ubicaciones de varios mercados seleccionados aleatoriamente. Se utiliza una promoción diferente en cada ubicación y se registran las ventas semanales del nuevo artículo durante las primeras cuatro semanas. Cada caso corresponde a una ubicación semanal diferente.
testmarket_1month.sav. Este archivo de datos hipotéticos es el archivo de datos testmarket.sav con las ventas semanales "acumuladas" para que cada caso corresponda a una ubicación diferente. Como resultado, algunas de las variables que cambiaban semanalmente desaparecen y las ventas registradas se convierten en la suma de las ventas realizadas durante las cuatro semanas del estudio.
tree_car.sav. Archivo de datos hipotéticos que contiene datos demográficos y de precios de compra de vehículos.
tree_credit.sav Archivo de datos hipotéticos que contiene datos demográficos y de historial de créditos bancarios.
tree_missing_data.sav Archivo de datos hipotéticos que contiene datos demográficos y de historial de créditos bancarios con un elevado número de valores perdidos.
tree_score_car.sav. Archivo de datos hipotéticos que contiene datos demográficos y de precios de compra de vehículos.
tree_textdata.sav. Archivo de datos sencillos con dos variables diseñadas principalmente para mostrar el estado predeterminado de las variables antes de realizar la asignación de nivel de medición y etiquetas de valor.
tv-survey.sav. Archivo de datos hipotéticos sobre una encuesta dirigida por un estudio de TV que está considerando la posibilidad de ampliar la emisión de un programa de éxito. Se preguntó a 906 encuestados si verían el programa en distintas condiciones. Cada fila representa un encuestado diferente; cada columna es una condición diferente.
ulcer_recurrence.sav. Este archivo contiene información parcial de un estudio diseñado para comparar la eficacia de dos tratamientos para prevenir la reaparición de úlceras. Constituye un buen ejemplo de datos censurados por intervalos y se ha presentado y analizado en otro lugar ¹⁶.
ulcer_recurrence_recoded.sav. Este archivo reorganiza la información de ulcer_recurrence.sav para permitir modelar la probabilidad de eventos de cada intervalo del estudio en lugar de sólo la probabilidad de eventos al final del estudio. Se ha presentado y analizado en otro lugar ¹⁷.
verd1985.sav. Archivo de datos sobre una encuesta ¹⁸. Se han registrado las respuestas de 15 sujetos a 8 variables. Se han dividido las variables de interés en tres grupos. El conjunto 1 incluye edad y ecivil, el conjunto 2 incluye mascota y noticia, mientras que el conjunto 3 incluye música y vivir. Se escala mascota como nominal múltiple y edad como ordinal; el resto de variables se escalan como nominal simple.
virus.sav. Archivo de datos hipotéticos sobre las iniciativas de un proveedor de servicios de Internet (ISP) para determinar los efectos de un virus en sus redes. Se ha realizado un seguimiento (aproximado) del porcentaje de tráfico de correos electrónicos infectados en sus redes a lo largo del tiempo, desde el momento en que se descubre hasta que la amenaza se contiene.
wheeze_steubenville.sav. Subconjunto de un estudio longitudinal de los efectos sobre la salud de la polución del aire en los niños ¹⁹. Los datos contienen medidas binarias repetidas del estado de las sibilancias en niños de Steubenville, Ohio, con edades de 7, 8, 9 y 10 años, junto con un registro fijo de si la madre era fumadora durante el primer año del estudio.
workprog.sav. Archivo de datos hipotéticos sobre un programa de obras del gobierno que intenta colocar a personas desfavorecidas en mejores trabajos. Se siguió una muestra de participantes potenciales del programa, algunos de los cuales se seleccionaron aleatoriamente para entrar en el programa, mientras que otros no siguieron esta selección aleatoria. Cada caso representa un participante del programa diferente.
worldsales.sav Este archivo de datos hipotéticos contiene ingresos por ventas por continente y producto.

¹ Van der Ham, T., J. J. Meulman, D. C. Van Strien, and H. Van Engeland. 1997. Empirically based subgrouping of eating disorders in adolescents: A longitudinal perspective. British Journal of Psychiatry, 170, 363-368.

² Price, R. H., and D. L. Bouffard. 1974. Behavioral appropriateness and situational constraints as dimensions of social behavior. Journal of Personality and Social Psychology, 30, 579-586.

³ Green, P. E., and V. Rao. 1972. Applied multidimensional scaling. Hinsdale, Ill.: Dryden Press.

⁴ McCullagh, P., and J. A. Nelder. 1989. Generalized Linear Models, 2nd ed. London: Chapman & Hall.

⁵ Green, P. E., and Y. Wind. 1973. Multiattribute decisions in marketing: A measurement approach. Hinsdale, Ill.: Dryden Press.

⁶ Kennedy, R., C. Riquier, and B. Sharp. 1996. Practical applications of correspondence analysis to categorical data in market research. Journal of Targeting, Measurement, and Analysis for Marketing, 5, 56-70.

⁷ Rickman, R., N. Mitchell, J. Dingman, and J. E. Dalen. 1974. Changes in serum cholesterol during the Stillman Diet. Journal of the American Medical Association, 228:, 54-58.

⁸ Blake, C. L., and C. J. Merz. 1998. "UCI Repository of machine learning databases." Available at http://www.ics.uci.edu/~mlearn/MLRepository.html.

⁹ Bell, E. H. 1961. Social foundations of human behavior: Introduction to the study of sociology. New York: Harper & Row.

¹⁰ Guttman, L. 1968. A general nonmetric technique for finding the smallest coordinate space for configurations of points. Psychometrika, 33, 469-506.

¹¹ Rosenberg, S., and M. P. Kim. 1975. The method of sorting as a data-gathering procedure in multivariate research. Multivariate Behavioral Research, 10, 489-502.

¹² Breiman, L., and J. H. Friedman. 1985. Estimating optimal transformations for multiple regression and correlation. Journal of the American Statistical Association, 80, 580-598.

¹³ Hastie, T., and R. Tibshirani. 1990. Generalized additive models. London: Chapman and Hall.

¹⁴ Hartigan, J. A. 1975. Clustering algorithms. New York: John Wiley and Sons.

¹⁵ McCullagh, P., and J. A. Nelder. 1989. Generalized Linear Models, 2nd ed. London: Chapman & Hall.

¹⁶ Collett, D. 2003. Modelling survival data in medical research, 2 ed. Boca Raton: Chapman & Hall/CRC.

¹⁷ Collett, D. 2003. Modelling survival data in medical research, 2 ed. Boca Raton: Chapman & Hall/CRC.

¹⁸ Verdegaal, R. 1985. Meer sets analyse voor kwalitatieve gegevens (in Dutch). Leiden: Department of Data Theory, University of Leiden.

¹⁹ Ware, J. H., D. W. Dockery, A. Spiro III, F. E. Speizer, and B. G. Ferris Jr.. 1984. Passive smoking, gas cooking, and respiratory health of children living in six cities. American Review of Respiratory Diseases, 129, 366-374.