Параметры кластеризации и стратификации
В диалоговом окне Кластеризовать и стратифицировать можно выбрать поля кластеризации, стратификации и взвешивания при построении сложной выборки.
Кластеры. Задает категориальное поле, используемое для кластеризации записей. Записи отбираются на основе принадлежности к кластерам, причем некоторые кластеры включаются, а другие - нет. Но если из данного кластера включается какая-либо запись, то включаются все записи. Например при анализе связей продуктов в покупательских корзинах можно кластеризовать позиции по ID транзакции, чтобы обеспечить поддержку всех позиций из выбранных транзакций. Вместо выборки записей (которая свела бы к нулю информацию о том, какие позиции продаются вместе) можно подготовить выборку транзакций, чтобы обеспечить сохранность всех записей для выбранных транзакций.
Стратифицировать по. Задает категориальное поле, используемое для стратификации записей, чтобы стратифицированная выборка включала в себя отбор элементов из независимых неперекрывающихся подгрупп совокупности (страт). В случае 50% выборки, стратифицированной, например, по полу, должны быть отобраны две 50% выборки: одна для мужчин и одна для женщин. Например, страты могут быть социоэкономическими группами, рабочими категориями, возрастными или этническими группами, что позволяет обеспечить адекватные размеры выборок для исследуемых подгрупп. Если в исходном наборе данных женщин в три раза больше, чем мужчин, это соотношение будет сохранено, благодаря подготовке выборки отдельно для каждой группы. Можно также задать несколько полей стратификации (например, подготовив выборку линеек продуктов в регионах или наоборот).
Примечание: Если выполняется стратификация по полю, в котором есть пропущенные значения (пустые или системные пропущенные значения, пробелы и пробельные или пользовательские пропущенные значения), то вы не сможете задать пользовательские размеры выборок для страт. Если вы хотите использовать пользовательские размеры выборок при стратификации по полю с пропущенными или пробельными значениями, их нужно будет заполнить в восходящем потоке.
Использовать входные веса. Задает полек, используемое для взвешивания перед выборкой. Например, если поле веса содержит значения, ранжируемые от 1 до 5, вероятность выбора записей с весом 5 будет в пять раз выше. Значения этого поля будут перезаписаны окончательными выходными весами, сгенерированными узлом (смотрите следующую тему).
Новый выходной вес. Задает имя поля, где записываются веса, если не задано поле входного веса. (Если поле входного веса задано, его значения заменяются окончательными весами, как замечено выше, и никакого отдельного поля выходного веса не создается.) Значения выходного веса указывают число записей, представляемых каждой записью выборки в исходных данных. Сумма значений весов дает оценку размера выборки. Например, при 10% выборке выходной вес составит 10 для всех записей, указывая, что каждая запись выборки представляет примерно десять записей в исходных данных. В стратифицированной или взвешенной выборке значения выходных весов могут отличаться, в зависимости от доли выборки для каждой страты.
Комментарии
- Кластеризованная выборка полезна, если невозможно получить полный список совокупности, выборку которой вы хотите подготовить, но можно получить полные списки для определенных групп кластеров. Она также используется, если случайная выборка сгенерировала бы список объектов исследования, обращение к которому оказалось бы практически невозможным. Например, проще было бы посетить фермеров в одном округе, чем в случае выбора фермеров, рассеянных по всем округам в стране.
- Можно задать и поля кластеризации, и поля стратификации для независимой выборки кластеров в каждой из страт. Например, можно подготовить выборку значений свойств, стратифицированных по округам, и кластеризацию по городам в каждом округе. Это гарантирует построение независимой выборки городов из каждого округа. Некоторые города будут включены, а другие - нет, но для каждого включенного города будут включены все его свойства.
- Для случайной выборки единиц из каждого кластера можно связать между собой два узла выборки. Например, сначала можно подготовить выборку по районам, стратифицированным по округам, как описано выше. Затем присоединить второй узел и выбрать город как поле стратификации, позволяющее подготовить выборку доли записей из каждого района.
- В случаях, где для уникальной идентификации кластеров требуется сочетание полей, можно сгенерировать новое поле при помощи узла извлечения. Например, если несколько магазинов используют одинаковую систему нумерации для транзакций, можно получить новое поле, соединяющее последовательно ID магазинов и транзакций.