Двухэтапный кластерный анализ

Процедура Двухэтапный кластерный анализ представляет собой средство разведочного анализа для выявления естественного разбиения набора данных на группы (или кластеры), которое без ее применения трудно обнаружить. Алгоритм, используемый этой процедурой, имеет несколько привлекательных особенностей, которые отличают его от традиционных методов кластерного анализа:

Пример. Компании производства потребительских товаров и розничной торговли регулярно применяют методы кластерного анализа к данным, описывающим покупательские привычки их клиентов, а также их пол, возраст, уровень доходов и т.д. Эти компании настраивают стратегии маркетинга и развития производства на каждую из групп потребителей, чтобы увеличить продажи и повысить приверженность потребителей маркам товаров.

Мера расстояния. Выбор в этой группе определяет, как вычисляется сходство между двумя кластерами.

Число кластеров. Выбор в этой группе позволяет задать, как будет определяться число классов.

Количество непрерывных переменных. Эта группа дает сводную информацию об установках, касающихся стандартизации непрерывных переменных, заданных в диалоговом окне Параметры. Дополнительную информацию смотрите в разделе Параметры процедуры Двухэтапный кластерный анализ.

Критерий кластеризации. Выбор в этой группе задает способ, которым автоматический алгоритм кластеризации определяет число кластеров. Можно задать либо Байесовский информационный критерий (BIC), либо Информационный критерий Акаике (AIC).

Данные для двухэтапного кластерного анализа

Данные. Данная процедура работает как с непрерывными, так и с категориальными переменными. Наблюдения представляют собой объекты кластеризации, а переменные являются атрибутами, на которых основывается кластеризация.

Порядок наблюдений. Обратите внимание на то, что дерево свойств кластеров и окончательное решение могут зависеть от порядка наблюдений. Чтобы минимизировать эффект порядка наблюдений, расположите их в случайном порядке. Возможно, что вы захотите получить несколько различных решений с наблюдениями, упорядоченными случайным образом, чтобы проверить стабильность данного решения. В ситуациях, когда это трудно сделать в силу чрезвычайно больших размеров файлов, можно в качестве альтернативы несколько раз выполнить процедуру с выборкой наблюдений, отсортировывая ее в случайном порядке.

Предположения. Мера расстояния, основанная на правдоподобии, предполагает, что переменные в кластерной модели являются независимыми. Кроме того предполагается, что каждая непрерывная переменная имеет нормальное (гауссово) распределение, а каждая категориальная переменная - полиномиальное распределение. Эмпирические исследования показывают, что эта процедура вполне устойчива к нарушениям предположений как о независимости, так и о распределениях, однако следует проверить, насколько эти предположения выполняются.

Для проверки независимости двух непрерывных переменных воспользуйтесь процедурой Парные корреляции. Для проверки независимости двух категориальных переменных воспользуйтесь процедурой Таблицы сопряженности. Для проверки независимости между непрерывной переменной и категориальной переменной воспользуйтесь процедурой Средние. Для проверки нормальности непрерывной переменной воспользуйтесь процедурой Исследовать. Для проверки того, что категориальная переменная имеет заданное полиномиальное распределение, воспользуйтесь процедурой Критерий хи-квадрат.

Как запустить процедуру Двухэтапный кластерный анализ

Для этой функциональной возможности требуется Statistics Base Edition.

  1. Выберите в меню:

    Анализ > Классификация > Двухэтапный кластерный анализ...

  2. Выберите одну или несколько категориальных или непрерывных переменных.

Дополнительно вы можете:

Эта процедура вставит синтаксис команды TWOSTEP CLUSTER.