Оптимальной подход к сегментации и ее применение

Кластеризация или классификационные деревья?

Это статья о методах кластеризации, классификации и сегментации, ориентированных на целенаправленный маркетинг, разработку продуктов и создание специализированных решений. В ней исследуются популярные подходы и алгоритмы сегментации, их преимущества и недостатки. Приведен случай из практики для иллюстрации процесса выбора алгоритма.

Кимберли Чалис, генеральный директор и соучредитель, Core Analytics, LLC

Фото автораКимберли Чалис (Kimberly Chulis) ― одна из основателей компании Core Analytics, LLC. Она обладает 18-летним опытом профессионального анализа, который продемонстрировала в ходе сложных аналитических проектов для ряда компаний и отраслей, включая WellPoint, HCSC, UHG, Great West, Accenture, Ogilvy, Microsoft, Sprint/Nextel, Commonwealth Edison, TXU, Eloyalty, SPSS, Allstate, Cendant и другие организации из сферы финансовой деятельности, связи, здравоохранения, энергетики, благотворительности, розничной торговли и образования. Для своей диссертации Кимберли провела исследование по программе "Особенности потребительского поведения в сфере здравоохранения и социальных услуг" в Университете Purdue и получила степень магистра экономики по специальности "экономика и эконометрика здравоохранения" в Университете штата Иллинойс в Чикаго.



18.03.2013

Термин сегментация стал вездесущим, но у него так много разных значений, зависящих от контекста, что это часто приводит к путанице. Нередко несколько подразделений крупного предприятия занимаются разными проектами сегментации одновременно. По мнению большинства специалистов, сегментация ― это общий термин, означающий деление целого на подмножества подобных частей. Тем не менее, этот вопрос может быть предметом яростных споров.

Предположим, что в некоторый момент времени в пределах одной и той же организации одновременно ведутся следующие проекты по сегментации.

  • Подразделение исследований и разработок занимается сегментацией клиентской базы, чтобы лучше выявить потребительские предпочтения и поведение покупателей для целенаправленного совершенствования продукции. Оно может также заниматься сегментацией продукции в целях изучения подобия продуктов и типов товаров, которые обычно покупают вместе.
  • Финансовый отдел определяет сегменты клиентской базы и изучает перспективы в целях прогнозирования доходов. В этом случае в качестве данных могут использоваться рентабельность, себестоимость, прибыль от потребителя, демография, расходы на удержание и рекламу и многое другое.
  • Сегментация в целях исследования рынка образует основу для понимания особенностей и качества услуг для развития стратегии бренда и дальнейших усилий по его рекламированию. Традиционно исследователи рынка выполняют сегментацию с помощью аналитических инструментов и данных обратной связи, поступающих от клиентов.
  • Отдел маркетинга ведет еще один проект сегментации, чтобы понять, кто реагирует на различные маркетинговые кампании партнеров по сбыту для уточнения их ориентации и повышения эффективности рекламных кампаний. В качестве основы для сегментации аналитики отдела маркетинга часто используют исходные данные о поведении покупателей и демографические данные.

Такой сценарий довольно распространен среди предприятий, в которых отсутствует общая стратегия сегментации, и разные подразделения проводят разрозненные (и зачастую противоречивые) проекты по сегментации с использованием различных методов. Подобная практика распространена во многих отраслях экономики, где используется сегментации. Чтобы получить представление о подходах к сегментации в различных отраслях, рассмотрим следующие примеры. Страховые фирмы используют сегментацию для выявления профилей риска и назначения уровней цен и премии. В электроэнергетике используют подход "снизу вверх" для прогнозирования нагрузки с последующим прогнозированием на уровне сегментов и общего спроса. В автомобильной промышленности сегментацию используют для изучения предпочтений целевого рынка в области дизайна и функций. Банки сегментируют потенциальных пользователей кредитных карт для проведения кампаний прямой рассылки. Биологи относятся к сегментации совсем иначе, подразделяя виды животных на категории в зависимости от строения тела и ареала. Фармацевтические фирмы используют сегментацию для ускорения разработки новой продукции. Обработка изображений (включая распознавание лиц) ― одна из самых сложных областей анализа ― опирается на сложнейшие программы сегментации с применением параметрических алгоритмов и алгоритмов разрастания областей и выделения границ. Независимо от отрасли, можно предположить, что каждое предприятие выиграет от перехода к более консолидированной и унифицированной общекорпоративной стратегии сегментации.

Сегментация в сфере маркетинга

Перечисленные выше различия иллюстрируют различные подходы и задачи проектов сегментации. Специалисты в области исследования рынка и маркетингового анализа обычно подходят к этому процессу с радикально противоположных позиций в отношении целей, входных данных и методологий. Рассмотрим стандартные подходы к маркетинговой сегментации немного подробнее.

Первым шагом любого проекта сегментации является определение цели и мотивации исследования. Кому нужна эта сегментация? Для чего она будет использоваться? Почему это необходимо? Какая новая информация о потребителях потребуется? Кто будет использовать результаты? Какие существуют данные для поддержки сегментации? Как будет проводиться и распространяться сегментация? Как будет измеряться степень успеха проекта? Ответы на все эти вопросы помогают определить наиболее подходящие методы, данные и алгоритмы, необходимые для решения этой задачи. В следующем разделе мы рассмотрим конкретный случай и отметим две важные особенности, а также обсудим сходства и различия между сегментацией клиентской базы и прогностическим моделированием (см. ссылку на дополнительные сведения в разделе Ресурсы.)

Входные данные и стандартные подходы к сегментации

Данные ― важнейшая составляющая любого проекта в области сегментации. Как правило, чем больше данных, тем лучше ― пока источник данных можно точно связать с отдельным лицом или семьей. Список доступных категорий данных почти бесконечен, но существует несколько ключевых категорий.

  • Данные опросов можно собирать у покупателей или потребителей, задавая вопросы касательно их предпочтений в отношении продукции и цен, качества обслуживания, удовлетворенности и рекомендаций по ее повышению.
  • Транзакционные данные традиционно хранятся в реляционных базах данных и охватывают покупки, случаи возврата товаров, скидки, способ оплаты, дату и время покупки, а также товары, приобретенные на предприятии розничной торговли вместе. В финансовой сфере эта информация переводится в депозиты; снятие средств; такие услуги, как чековое обслуживание, сбережения и ипотека; а также детали, связанные с каждым из видов услуг. В энергетике эта информация включает в себя использование электроэнергии, отключения, платежи, депозиты, установку счетчиков и многое другое.
  • К поведенческим данным относятся поведение в отношении Web-просмотра, перемещения по магазину, направление взгляда, голосовая информация, поиск, использование мобильных устройств и сведения об этих устройствах, геолокация, а также частота и количество взаимодействий с брендом. В эту обширную категорию данных попадает и деятельность в социальных сетях (liking, retweeting, following).
  • Демографические данные можно собирать непосредственно у потребителей или приобретать у поставщиков демографических данных, которые предлагают от 300 до 900 и более переменных на уровне отдельных лиц, семей и почтовых индексов. Многие из этих наборов данных извлекаются из результатов переписи населения США.
  • К другим категориям данных относятся данные call-центров, чат, поиск информации, сравнение цен, отзывы, участие в программах и сообществах, а также сведения о приобретаемых товарах.

После предварительной постановки задачи и сбора данных аналитики приступают к рассмотрению возможного подхода к сегментации. Можно выбирать из целого ряда традиционных подходов, каждый из которых имеет свои преимущества и недостатки. Например, многие из вариантов кластеризации приводят к кластерам одинакового размера; это хорошо с точки зрения развертывания, но обязательный размер кластеров может привести к пониженной степени подобия внутри кластеров.

При определении лучшего подхода к сегментации обычно рассматривают три основных варианта. Это методы, показанные на рисунке 1: неколичественная, взаимозависимая и зависимая сегментация.

Рисунок 1. Три основных способа сегментации
Три основных способа сегментации

Первый вариант ― это качественный, или неколичественный подход с использованием контрастных параметров, полученных в ходе опроса участников бизнеса и фокус-групп с целью сбора информации "из жизни". Эти параметры отражают эмпирические данные, связанные с потребительским поведением, и используются для выбора субъективных сегментов для определения целевой стратегии. Хотя они и полезны для определенных целей, эти неколичественные подходы, как правило, менее надежны, чем две других категории сегментации, управляемой данными, — взаимозависимая (interdependent) и зависимая (dependent).

Взаимозависимая сегментация относится к набору методов многофакторной сегментации, при использовании которых потребителей группируют по подобию признаков. Кластерный анализ ― один из наиболее популярных видов взаимозависимой сегментации, в котором все входные наборы данных рассматриваются одновременно, и нет никакого разделения между зависимыми и независимыми переменными. Неотъемлемой частью процесса кластеризации являются итеративное отображение и графическое построение сегментов для визуализации отношений и пространственной вариации кластеров до окончательного определения максимального соответствия.

Зависимая сегментация относится к подходам анализа по модели, таким как сети Кохонена, вывод правил методом индукции, автоматическое выявление взаимодействия на основе хи-квадрата (CHAID), C5.0, Iterative Dichotomiser 3 (ID3) и деревья классификации и регрессии (CART), которые обычно выбираются для выявления ключевых сегментов рынка. Большинство этих алгоритмов, а также подходы машинного обучения (нейронные сети) приводят к древовидному результату, который полезен тем, что обеспечивает визуальное графическое представление сегментов, помогающее проверить и объяснить их технически смысл неподготовленным участникам процесса. Одна важная особенность этих подходов заключается в том, что для модели требуются зависимые переменные, тогда как в модели взаимозависимой сегментации независимые переменные отсутствуют. Зависимая переменная ― это обычно переменная 0-1 типа флага, которая соответствует цели сегментации (например, отток клиентов для выявления сегментов клиентов, которые, скорее всего, выбраны неправильно; высокая стоимость для тех клиентов, которые, скорее всего, превысят желаемый порог расходов; или высокий риск для тех групп клиентов, которые, скорее всего, окажутся не в состоянии погасить задолженность по кредитным картам или займам). Кроме результирующего группирования в формате дерева, эти модели зависимости дают соответствующие значения параметров вероятности и склонности. По этой причине в отрасли ведутся широкие споры вокруг семантики сегментации с использованием подходов зависимостей.

Сторонники этого метода утверждают, что главным результатом сегментации на основе зависимости является группирование подобных клиентов, которое можно дополнительно профилировать и получать специализированные стратегии, направленные на сокращение оттока, поощрение повышенных расходов или введение стратегии рисковой интервенции перед надвигающимся дефолтом. Критики такого подхода утверждают, что на самом деле результирующая модель ― это, скорее, модель прогнозирования, чем модель сегментации, так как на выходе она дает вероятностный прогноз. Различие может заключаться и в использовании этой модели. Сегментация ― это классификация клиентской базы по отдельным группам на основе многомерных данных, которая используется в целях составления дополнительных планов действия для разработки соответствующих стратегий маркетинга и выпуска продуктов и услуг на уровне сегментов, которые ведут к желаемым коммерческим результатам. Прогностическое моделирование ― это прогнозирование конкретного потребительского поведения на индивидуальном уровне. Если считать это определение логичным, то из этого следует, что выбор сегментации или прогностической модели должен определяться характером использования результатов.

Последний подготовительный шаг перед началом процесса сегментации ― выбор наиболее подходящего для этого программного обеспечения. Существует масса алгоритмов кластеризации и классификации как в виде ПО с открытым исходным кодом, так и от коммерческих поставщиков. Некоторые, такие как условно-бесплатный продукт Rapid Miner, обеспечивают деревья принятия решений, управляемые векторные алгоритмы (SVM), и нейронные сети двух типов. Другие, такие как продукты IBM, предлагают ряд вариантов, включая IBM® SPSS® Advanced Statistics (см. раздел Ресурсы) в составе Kohonen, Two-step, K-Means и Decision Tree Module с четырьмя алгоритмами выращивания деревьев: CHAID, Exhaustive CHAID, CART и QUEST (объективный алгоритм двоичного дерева). В IBM Unica есть модель Affinium, которая содержит модуль кросс-продаж, обеспечивающий CHAID, CART и нейронные сети. Комплекс для интеллектуального анализа данных IBM Intelligent Miner® предоставляет обширный список алгоритмов с возможностью сравнения и сопоставления нескольких алгоритмов для облегчения окончательного выбора лучшего из них. В этом списке содержатся подробные сведения о многих статистических пакетах, поддерживающих подходы сегментации.

Типы кластеров и подходы классификации

Иерархические и неиерархические (несвязанные) кластеры ограничены возможностью анализа лишь числовых переменных ― если только в них не включена матрица расстояний. В этом случае допускаются как символьные, так и численные входные данные. Иерархические кластеры не перекрываются, хотя один кластер может быть целиком включенным подмножеством другого. Несвязанные кластеры также не перекрываются, так как клиенты могут находиться только в одном из них. Напротив, перекрывающиеся кластеры ― это неограниченные версии, которые можно отрегулировать так, чтобы они допускали различную степень перекрытия. Нечеткие кластеры могут относиться к одной из трех вышеупомянутых категорий и различаются присвоенными им вероятностями присутствия в каждом кластере. Алгоритмы обучения методом K-среднего могут выполняться много раз, производя определенное количество несвязанных, или плоских кластеров. При более мягком методе используются вероятностные оценки, полученные методом итеративный классификации, называемым нормальными смесями (Normal mixtures), для определения вероятности включения в группу. Одномерная связь ― это метод иерархической кластеризации, который объединяет два кластера с наименьшим минимальным попарным расстоянием на каждом этапе; при полной связи объединяются два кластера, пересечение которых представляет собой наименьший диаметр. Один подход к кластеризации, который хорошо показал себя по всем статьям в знаковой публикации Миллигана 1981 года на эту тему, это подход средней длины связи (средней по группе), который сочетает в себе характеристики обоих методов одномерной и полной связи (см. раздел Ресурсы). Хорошо работает также метод наименьшей разницы Уарда. Существуют и другие методы, такие как факторный анализ, который часто используется на первом этапе кластеризации для сокращения количества переменных, и алгоритмы латентных классов, которые представляют собой подход моделирования на основе структурных уравнений с использованием вероятностного моделирования для максимизации общего попадания в целях поиска групп в наборах многомерных категорийных данных.

Что касается подходов классификации, то CHAID – это дерево решений, в котором используется скорректированное тестирование значимости для определения взаимодействия между переменными с целью выявления многонаправленных разделов. Его преимущество заключается в том, что он дает простой для понимания и интерпретации результат, служит стандартным подходом к прямому маркетингу и легко применяется как к категорийным, так и к числовым входным данным. CHAID плохо работает на небольших наборах данных и обычно ассоциируется с начальными этапами исследования данных в проектах регрессионного и прогностического моделирования. CART (см. раздел Ресурсы) на самом деле представляет собой общий термин для обозначения деревьев регрессии и классификации, которые отличаются прежде всего своими критериями расщепления узла. ID3 (см. раздел Ресурсы) ― это подход, который приводит к узлам с минимальной энтропией.


Практическое применение сегментации

Бизнес-сценарий: медицинская страховая компания хочет сегментировать свою клиентскую базу для выявления лучших сегментов для информационно-пропагандистской кампании, поощряющей их участие в оздоровительных программах через Интернет. Ожидается, что когда члены групп станут играть более активную роль в самоуправлении оздоровлением, число претензий уменьшится, результаты улучшатся, и это приведет к повышенной удовлетворенности и удержанию клиентов.

Компания собирает данные, относящиеся к типу планов, демографии, претензиям, участию в оздоровительных программах и программах управления лечением, подробную информацию об исходящих и входящих вызовах, чат и сообщения электронной почты, информацию о входах на Web-сайт и сеансах поиска, о выписанных рецептах и другие переменные индивидуального уровня. Каковы возможные подходы к сегментации для этого проекта?

Как и в большинстве случаев прикладного анализа, этот процесс выбора представляет собой сочетание науки и искусства.

В некоторой степени выбор подхода сводится к вопросу о предпочтениях аналитика, доступности программного обеспечения и связанных с ним алгоритмов и знакомству с критериями проверки и оценки успешности выходных данных. В данном случае может быть применен либо подход взаимозависимой кластеризации (без зависимых переменных), либо зависимый подход (классификация). Помните, что для последнего требуется зависимая переменная: если данные поддерживают идентификацию членов, которые уже участвуют в оздоровительной интернет- или реальной программе и связаны с желаемыми параметрами успеха, то эту группу можно пометить флагом WellFlag=1, а все остальные будут помечены флагом WellFlag=0. Этот двоичный флаг можно дополнительно уточнить при наличии демографической переменной, указывающей на пользователя компьютера или наличие в учетной записи адреса электронной почты; то и другое служит признаком склонности к обладанию компьютером и его использованию. Так как входные данные могут быть как символьными, так и числовыми, CHAID представляет собой гибкий подход классификации, который будет точно подразделять членов на сегменты по категорийным и числовым данным и позволит более детальное профилирование, что поможет в разработке оздоровительной подпрограммы и проектировании Web-сайта (на основе медицинских предписаний, риска заболеваний и целевых потребностей).

К этой сегментации можно подойти и с методом кластеризации с применением средней длины связи или K-среднего для числовых значений и категорийного подхода с мерами «расстояния» для включения в модель. Фактический выбор алгоритма зависит от желаемого результата. Если необходимы отдельные кластеры (то есть один член может участвовать только в оздоровительной программе одного типа), то можно выбрать не нечеткие варианты, такие как K-среднее и нормальное распределение. Если больше подходят кластеры с перекрытием, то выбираются чередование факторов и нечеткие кластеры. Выбор наилучшего алгоритма является результатом первого этапа подготовки набора данных и соответствующего преобразования категорийных значений с последующим пропусканием наборов данных через различные подходы-кандидаты и рассмотрением графического результата для оценки относительного размера и группирования кластеров. Эти диаграммы позволят сравнивать и выбирать идеальные кластеры: самые компактные с наилучшим разделением и наиболее точным попаданием.


Сегментация и реализации для "больших данных"

Большие данные ― это термин, означающий петабайты данных, взятых из социальных сетей, телефонных сетей, Web, текстовых данных и сигналов датчиков, которые создаются и хранятся на индивидуальном уровне. Такие данные обычно хранятся в неструктурированных базах данных и таких инструментах, как IBM InfoSphere® BigInsights™, которые работают поверх платформы Apache Hadoop и облегчают крупномасштабный анализ, выполняемый бизнес-аналитиками, а не специалистами по машинному обучению. Эти новые технологии позволяют обращаться к гигантским и ранее не использовавшимся источникам данных, а также быстро выполнять функции фильтрации и MapReduce, получая дополнительные выгоды благодаря включению в традиционный набор данных неструктурированных данных, таких как изображения, видео и текстовые заключения.

Классические алгоритмы сегментации, описанные в этой статье, остаются актуальными и в условиях большой данных: подход и критерии выбора те же самые. Разница прежде всего в предварительной обработке и интеграции неструктурированных данных, что обещает привести к более богатым и полезным результатам сегментации. Компании, которые собирают стек технологий для доступа к большим данным, смогут черпать из того, что в противном случае останется громоздким и по большей части недоступными источником информации. Многие решения с открытым исходным кодом, предназначенные для управления большими данными, основаны на принципах сегментации и фильтрации, аналогичных описанным здесь алгоритмам. Однако вместо анализа данных во всей их полноте становится возможным изучить отфильтрованные образцы больших данных и применить традиционные методы сегментации, чтобы получить сведения о новом, цифровом поведении клиентов. Те предприятия, которые в состоянии окунуться в эти новые, неструктурированные источники данных и полностью интегрировать их в многомерный анализ, окажутся на несколько шагов ближе к полному, панорамному обзору клиентской базы и всем тем конкурентным преимуществам, которые дает глубокое знание потребителя.

Ресурсы

Научиться

Получить продукты и технологии

  • Rapid Miner: несколько вариантов программного обеспечения сегментации, включая SVM.
  • Подробнее о продукте SPSS Advanced Statistics.

Комментарии

developerWorks: Войти

Обязательные поля отмечены звездочкой (*).


Нужен IBM ID?
Забыли Ваш IBM ID?


Забыли Ваш пароль?
Изменить пароль

Нажимая Отправить, Вы принимаете Условия использования developerWorks.

 


Профиль создается, когда вы первый раз заходите в developerWorks. Информация в вашем профиле (имя, страна / регион, название компании) отображается для всех пользователей и будет сопровождать любой опубликованный вами контент пока вы специально не укажите скрыть название вашей компании. Вы можете обновить ваш IBM аккаунт в любое время.

Вся введенная информация защищена.

Выберите имя, которое будет отображаться на экране



При первом входе в developerWorks для Вас будет создан профиль и Вам нужно будет выбрать Отображаемое имя. Оно будет выводиться рядом с контентом, опубликованным Вами в developerWorks.

Отображаемое имя должно иметь длину от 3 символов до 31 символа. Ваше Имя в системе должно быть уникальным. В качестве имени по соображениям приватности нельзя использовать контактный e-mail.

Обязательные поля отмечены звездочкой (*).

(Отображаемое имя должно иметь длину от 3 символов до 31 символа.)

Нажимая Отправить, Вы принимаете Условия использования developerWorks.

 


Вся введенная информация защищена.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=40
Zone=Information Management
ArticleID=861692
ArticleTitle=Оптимальной подход к сегментации и ее применение
publish-date=03182013