Параметры процедуры Двухэтапный кластерный анализ

Обработка выбросов. Эта группа позволяет обрабатывать выбросы специальным образом во время кластеризации, если заполняется дерево свойств кластеров (СК). Дерево свойств кластеров (СК) является полным, если оно не может больше принимать наблюдения в терминальный узел и никакой терминальный узел не может быть разделен.

Выделение памяти. Эта группа позволяет задать максимальное количество памяти в мегабайтах (MB), которую должен использовать алгоритм кластеризации. Если процедура превысит этот максимум, то она использует диск для хранения информации, которая не умещается в памяти. Задайте число, большее или равное 4.

Стандартизация переменных. Алгоритм кластеризации работает со стандартизованными непрерывными переменными. Все непрерывные переменные, которые не стандартизованы, должны быть оставлены в списке Подлежат стандартизации. Чтобы несколько сэкономить время и снизить вычислительные затраты, можно поместить все непрерывные переменные, которые уже стандартизованы, в список Считаются стандартизованными.

Дополнительные опции

Критерии настройки дерева свойств кластеров (СК). Следующие установки алгоритма кластеризации относятся непосредственно к к дереву свойств кластеров (СК), и их следует изменять с осторожностью:

Обновление модели кластеров. Эта группа позволяет импортировать и обновлять модель кластеров, полученную в результате проведенного ранее анализа. Входной файл содержит дерево СК в формате XML. Позже эта модель будет обновлена с помощью данных, содержащихся в активном файле. В главном диалоговом окне имена переменных должны быть выбраны в том же порядке, в котором они были заданы во время проведенного ранее анализа. Файл XML остается неизменным до тех пор, пока вы не сохраните информацию о новой модели под тем же именем. Дополнительную информацию смотрите в разделе Вывод процедуры Двухэтапный кластерный анализ.

Если задано обновление модели кластеров, используются те параметры, относящиеся к формированию дерева СК, которые были заданы для исходной модели. Более конкретно, используются мера расстояния, выделение памяти и установки в критериях настройки дерева СК для сохраненной модели, а любые установки для этих параметров, заданные в диалоговых окнах, игнорируются.

Примечание: При выполнении обновления модели кластеров процедура предполагает, что никакие из выбранных в активном наборе данных наблюдений, не были использованы для создания исходной модели кластеров. Процедура также предполагает, что наблюдения, используемые при обновлении модели, извлечены из той же генеральной совокупности, что и наблюдения, использованные при создании исходной модели; т.е. средние значения и дисперсии непрерывных переменных и уровни категориальных переменных предполагаются одинаковыми по обоим наборам наблюдений. Если "новый" и "старый" наборы наблюдений извлечены из неоднородных генеральных совокупностей, то для получения наилучших результатов следует запустить процедуру Двухэтапный кластерный анализ для объединенного набора наблюдений.

Как установить параметры процедуры Двухэтапный кластерный анализ

Для этой функциональной возможности требуется Statistics Base Edition.

  1. Выберите в меню:

    Анализ > Классификация > Двухэтапный кластерный анализ...

  2. В диалоговом окне Двухэтапный кластерный анализ нажмите кнопку Параметры .
  3. Измените установки в случае необходимости.