Опции модели узла автоматической кластеризации

На вкладке Модель узла автокластеризации можно задать число сохраняемых моделей и критерии для сравнения моделей.

Имя модели. Можно сгенерировать имя модели автоматически на основе поля назначения или поля ID (либо типа модели в случае, если никакое из этих полей не задано) либо задать пользовательское имя.

Использовать разделенные данные. Если определено поле раздела, эта опция гарантирует, что для построения модели будут использоваться данные только из раздела обучения.

Ранжировать модели, используя. Задает критерии, используемые для сравнения и ранжирования моделей.

  • Силуэтная мера. Показатель одновременно сцепленности внутри кластеров и разделенности между кластерами. Дополнительную информацию смотрите ниже в разделе Силуэтная мера ранжирования.
  • Число кластеров. Число кластеров в модели.
  • Размер наименьшего кластера. Размер наименьшего кластера.
  • Размер наибольшего кластера. Размер наибольшего кластера.
  • Наименьший кластер к наибольшему. Отношение размера наименьшего кластера к размеру наибольшего кластера.
  • Важность. Важность поля Оценка на вкладке Поля. Обратите внимание на то, что это можно вычислить, только если задано поле Оценка.

Ранжировать модели, применив. Если используются разделы, можно задать, как именно ранжируются модели, на основании обучающего набора данных или набора тестирования. Для больших наборов данных использование раздела для предварительного просмотра моделей может существенно повысить производительность.

Число сохраняемых моделей. Задает максимальное количество моделей в слепке, созданном этим узлом. Высшие по рангу модели перечисляются в соответствии с критерием ранжирования. Обратите внимание на то, что увеличение этого ограничивающего значения может понизить производительность. Максимальное разрешенное значение - 100.

Силуэтная мера ранжирования

Мера ранжирования по умолчанию, Силуэт, имеет значение по умолчанию 0, поскольку при меньших значения (т.е. отрицательных) среднее расстояние между наблюдением и другими точками того же кластера больше, чем минимальное среднее расстояние до точек в других кластерах. Таким образом, модели с отрицательной силуэтной мерой заведомо должны быть отброшены.

По сути мера ранжирования - это модифицированный силуэтный коэффициент, сочетающий в себе понятия сцепленности внутри кластера (согласно которому предпочтение отдается моделям, содержащим тесно сцепленные кластеры) и разделенности между кластерами (согласно которому предпочтение отдается моделям, содержащим в высокой степени обособленные кластеры). Средний силуэтный коэффициент - это просто среднее по всем наблюдениям для следующей формулы, вычисляемой для каждого наблюдения:

(B - A) / max(A, B)

где A - расстояние от наблюдения до центроида того кластера, к которому отнесено данное наблюдение, а B - минимальное расстояние от этого наблюдения до центроидов остальных кластеров.

Силуэтный коэффициент, как и его среднее, может быть от -1 (показатель очень плохой модели) до 1 (показатель очень хорошей модели). Усреднение может выполняться как на уровне генеральной совокупности наблюдений (что дает генеральную силуэтную меру), так и на уровне кластеров (что дает силуэтную меру кластера). Для вычисления расстояний могут использоваться евклидовы расстояния.