Узел двухшаговой кластеризации

Узел двухшаговой кластеризации предоставляет одну из форм кластерного анализа. Он может использоваться для кластеризации набора данных в отдельные группы, когда вы не знаете, что эти группы представляют собой в начале. Как и узлы Коонена и узлы K-средних, двухшаговые модели кластеров не используют поле назначения. Вместо попытки предсказать выходные данные двухшаговая кластеризация пытается обнаружить структуры в наборе входных полей. Записи группируются таким образом, чтобы они были похожи друг на друга в группе (кластере), но различались в разных группах.

Двухшаговая кластеризация - это метод кластеризации в два этапа. На первом шаге проводится первый проход по данным, при котором необработанные входные данные сжимаются в управляемый набор подкластеров. На втором шаге используется способ иерархической кластеризации для все большего слияния подкластеров в крупные и еще более крупные кластеры, причем следующий проход по данным не требуется. У иерархической кластеризации есть то преимущество, что не требуется заранее выбирать нужное число кластеров. Многие способы иерархической кластеризации начинают с индивидуальных записей как начальных кластеров и рекурсивно объединяют их для получения все более крупных кластеров. Хотя такие подходы часто отказывают при работе с большим объемом данных, начальная предварительная кластеризация двухшагового метода обеспечивает быструю иерархическую кластеризацию даже для больших наборов данных.

Прим.: Полученная модель в определенной степени зависит от порядка обучающих данных. Переупорядочивание данных и повторное построение модели может привести к другой итоговой модели кластера.

Требования. Для обучения двухшаговой кластерной модели одно или несколько полей с заданным значением роли Вход. Поля с заданными ролями Назначение, Оба или Нет игнорируются. Двухшаговый алгоритм кластеризации не обрабатывает пропущенные значения. При построении модели будут игнорироваться все записи с пропусками любых входных полей.

Достоинства. Двухшаговая кластеризация может работать со смешанными типами полей и способна эффективно обрабатывать большие наборы данных. При этом есть возможность сравнивать несколько кластерных решений и выбирать лучшее, поэтому вам не нужно знать, сколько кластеров запрашивать для выходного набора. В двухшаговой кластеризации можно задать автоматическое исключение выбросов или особенно необычных наблюдений, которые могут испортить результаты.

У IBM® SPSS Modeler две различных версии узла двухшаговой кластеризации:

Узел кластеризации TwoStep - традиционный узел, работающий на IBM SPSS Modeler Server.
Узел Двухшаговая кластеризация-AS можно запустить при наличии соединения с IBM SPSS Analytic Server.