Анализ кластеров

В представлении Кластеры (Вид > Кластеры) можно построить и исследовать кластеры понятий. Кластер - это группировка связанных понятий, генерируемая алгоритмами кластеризации на основе того, как часто эти понятия встречаются в наборе документов/записей и как часто они встречаются совместно друг с другом в одном и том же документе (другое название - встречаемость). Каждое понятие в кластере встречается совместно хотя бы еще с одним понятием в кластере. Кластеры предназначены для того, чтобы сгруппировать те понятия, которые встречаются совместно, в то время как цель категорий - сгруппировать документы или записи с учетом того, как содержащийся в них текст соответствует дескрипторам (понятиям, правилам, паттернам) для каждого понятия.

Хороший кластер - это кластер с понятиями, прочно связанными и встречающимися часто, и с несколькими связями с понятиями в других кластерах. При работе с большими базами данных этот метод может привести к значительному увеличению времени обработки.

Кластеризация - это процесс, начинающийся анализом набора понятий и поиском часто встречающихся совместно понятий в документах. Два понятия, которые встречаются в документе совместно, считаются парой понятий. Далее процесс кластеризации оценивает значение подобия каждой пары понятий путем сравнения числа документов, в которых эта пара встречается совместно, с числом документов, в которых встречается каждое из этих понятий. Дополнительную информацию смотрите в разделе Вычисление значений связей подобия.

И наконец, процесс кластеризации группирует схожие понятия в кластеры посредством агрегирования и учитывает их значения связей и параметры, задаваемые в диалоговом окне Построить кластеры. Под агрегацией мы подразумеваем добавление понятий или слияние более мелких кластеров в более крупные кластеры, пока кластер не становится насыщенным. Кластер становится насыщенным, когда дополнительное слияние понятий или более мелких кластеров приводит к превышению этим кластером заданных значений параметров в диалоговом окне Построить кластеры (числа понятий, внутренних связей или внешних связей). Кластер принимает имя понятия в кластере, у которого самое большое общее число связей с другими понятиями в этом кластере.

В конечном счете не все пары понятий оказываются в одном и том же кластере вместе, поскольку может существовать более прочная связь в другом кластере либо насыщенность может воспрепятствовать слиянию кластеров, в которых они встречаются. По этой причине существуют и внутренние, и внешние связи.

  • Внутренние связи - это связи между парами понятий в кластере. Не все понятия в кластере связаны друг с другом. Однако каждое понятие связано хотя бы с одним другим понятием в кластере.
  • Внешние связи - это связи между парами понятий в раздельных кластерах (понятием в одном кластере и внешним понятием, находящимся в другом кластере).
Рис. 1. Вид представления Кластеры
Представление Кластеры

Представление Кластеры организовано в трёх панелях, каждую из которых можно скрыть или показать, выбрав ее имя в меню Вид:

  • Панель Кластеры На этой панели можно построить кластеры и управлять ими. Дополнительную информацию смотрите в разделе Исследование кластеров.
  • Панель Визуализация На этой панели можно визуально исследовать кластеры и их взаимодействия. Дополнительную информацию смотрите в разделе Диаграммы кластеров.
  • Панель Данные На этой панели можно исследовать и просмотреть текст, содержащийся в документах и записях, соответствующих выбранным вариантам в диалоговом окне Определения кластеров. Дополнительную информацию смотрите в разделе Определения кластеров.