Определение целевых клиентов через меню Direct Marketing пакета SPSS Statistics

Переменные и их характеристики

Узнайте, как применять простые, но эффективные алгоритмы определения целевых клиентов, представленные в меню Direct Marketing пакета SPSS Statistics. Ознакомьтесь со статистическими проблемами, связанными с возможными переменными и способными оказывать негативное влияние на процесс анализа, а также типичными характеристиками клиентов и потенциально опасными моментами. Узнайте, как переходить от моделей SPSS Statistics Direct Marketing к большим данным.

Дэвид Гиллман, директор, оказание услуг, Data Sooner

Дэвид Гиллман (David Gillman) более 20 лет работал в таких сферах, как интеллектуальный бизнес-анализ, углубленный анализ данных и прогностический анализ. Он получил образование в области прикладной математики, оптимизации и статистического анализа, с особым акцентом на применение соответствующих методов в коммерческой деятельности. Д. Гиллман обладает практическим опытом по совершенствованию бизнес-операций посредством применения аналитических инструментов в организациях различного размера из таких отраслей, как дистрибуция, производственный сектор, розничная торговля и гостиничный бизнес. Адрес электронной почты: gillman@datasooner.com.



13.06.2013

Введение

Статистический анализ предоставляет любой компании возможность лучше понимать своих клиентов, свои продукты и процессы.

В этой статье описывается процесс использования двух пунктов меню Direct Marketing (Прямой маркетинг) пакета IBM® SPSS® Statistics. Кроме того, обсуждаются характеристики используемых переменных с указанием тех, которых следует избегать при анализе. В контексте свойств переменных представлены пункты меню Generate profiles of my customers who responded to an offer (Создать профили клиентов, ответивших на предложение) и Select contacts most likely to purchase (Выбрать клиентов, наиболее склонных совершить покупку).

Опытные специалисты по статистике могут взять документацию и немедленно приступить к анализу, изучив только структуру меню SPSS Statistics. ИТ-специалистам и бизнес-аналитикам для использования этого программного обеспечения обычно нужно понимать не столько «где», сколько «зачем».

К счастью, в SPSS Statistics есть пункт меню Direct Marketing, который группирует и упрощает типичные аналитические задачи, позволяя легко приступить к работе. В статье рассматривается выполнение некоторых из этих задач и описывается, какие данные нужно использовать и какие типичные элементы данных использовать не следует.

SPSS Statistics позволяет выполнять множество различных видов анализа. Через меню Direct Marketing можно находить и выполнять типичные аналитические задачи, понятные и полезные для бизнес-пользователей.

После освоения меню Direct Marketing пользователи могут захотеть попробовать некоторые более сложные и настраиваемые алгоритмы. Они доступны через меню Analyze (Анализ), имеют, как правило, больше параметров и менее понятны пользователям, у которых недостаточно опыта в области статистики.


Зачем определять целевых клиентов

Прежде всего определение целевых клиентов позволяет сокращать затраты, поскольку компании могут не тратить деньги на клиентов, которые вряд ли совершат покупку. Следовательно, группировка клиентов предоставляет возможность сосредоточиться на тех из них, которые с большей вероятностью откликнутся на предложение.

Результатом является повышение уровня отклика. В статистическом анализе повышение уровня отклика называется lift(прирост). Такой прирост напрямую транслируется в повышение прибыльности бизнеса.

Правильная группировка клиентов также улучшает процессы продаж. Квалифицированные специалисты по продажам всегда стремятся получать максимальную отдачу от затрачиваемого ими времени. Предиктивный анализ позволяет максимально увеличивать доходность предпринимаемых действий, а, значит, повышает эффективность работы специалистов по продажам.


Переменные

Выполнение анализа требует выбора переменных. Вы должны определить, какие переменные включить в аналитический процесс и в каком формате. Это никогда не бывает простой рутинной работой даже для специалистов по статистике.

Прежде всего определите, какие переменные доступны. Переменные— это характеристики клиентов, которые хранятся в виде полей в базе данных. Типичными переменными являются, например, штат или провинция, почтовый индекс, общее количество заказов, дата первого заказа, стоимость всех заказов и тип клиента.

Некоторые потенциальные переменные можно отбросить сразу же. Многие переменные являются значимыми для людей, но совершенно бесполезны для статистического анализа. В первую очередь обычно исключается имя клиента. Имена присутствуют всегда, поскольку именно они позволяют специалистам соотносить и разделять данные. Однако имя клиента незначимо для статистического анализа и предиктивного моделирования.

Кроме того, многие поля в базе данных, такие как идентификационные табличные ключи, хранят значения для системы обработки транзакций, но бессмысленны или даже вредны для процесса статистического анализа.

Некоторые переменные могут быть неточными. Некоторые не важны для повседневной обработки, поэтому их не обязательно корректировать. Одним из типичных примеров некорректных переменных является дата первого заказа, если система управления ресурсами предприятия (ERP) в прошлом менялась. Зачастую в новую систему перемещается не вся имеющаяся база данных заказов. Переносятся только финансовые данные, а конкретные заказы в новые системы не включаются.

Обычно даты первых заказов принудительно фиксируются на каком-нибудь значении или вводятся так, как будто все они были в один и тот же день. В результате вычисленная продолжительность обслуживания клиента является некорректной. В результате то, что могло бы быть ценной переменной, оказывается бесполезной информацией, а в худшем случае может испортить статистическую модель неверными данными.

Пример другой похожей категории переменных, которая требует интерпретации человеком, — это коды стандартной отраслевой классификации. Хотя эти коды обычно являются точными, они могут быть несогласованными. В ERP-системе или в системе управления взаимодействием с клиентами может быть место только для одного кода, и специалист, который вводит код, может занести его в общую категорию, а не в более детальную классификацию. И, что еще хуже для статистического моделирования, разные люди в разное время могут делать это по-разному. Такое отсутствие согласованности вносит хаос в результаты анализа.

Еще один класс переменных, которых следует избегать, более сложен. В качестве примера можно привести номер клиента. Номер клиента — обязательный компонент при любом отборе данных о клиентах. Его использование может быстро создать проблемы в ходе анализа. Номер клиента может быть «анахроничной» переменной, которая вводится в действие после выполнения анализа, но не используется в поле. Кроме того, номер клиента обычно назначается после того, как потенциальный клиент стал реальным. Поэтому, когда статистическая модель обучается на данных, охватывающих потенциальных и реальных клиентов, модель может указывать на то, что наличие номера клиента является ключевым индикатором склонности к совершению покупки.

Решая, какие именно переменные включать, подумайте о том, может ли переменная внести дополнительную или другую информацию, отличную от ее явного или буквального значения.

Кроме того, учитывайте возможные связи между переменными. Степень, до которой переменные меняются вместе, называется ковариацией. Нулевая ковариация означает отсутствие связи между переменными; в этом случае они могут называться независимыми. Чем выше ковариация, тем больше переменные меняются вместе и, возможно, взаимосвязаны.

Многие аналитические процессы предполагают, что все переменные являются независимыми. Это допущение важно, когда вы используете меню Direct Marketing, но оно никак не отмечено явно где-либо в подменю. Если в анализе используется несколько коррелирующих переменных, то анализ может выбрать только эти переменные и отбросить все остальные.

Иногда при высокой ковариации переменных в анализе происходит обратное,. Алгоритм может распределить влияние по нескольким связанным переменным, и в результате итоговая модель выделит другие факторы как более значимые. В любом из этих случаев модель становится менее точной из-за взаимосвязанности некоторых входных переменных.

Для оценки независимости переменных можно применить статистические тесты. Такие тесты есть в меню SPSS Statistics, но за пределами меню Direct Marketing Еще одним вариантом является использование электронных таблиц Microsoft® Office Excel®. С помощью функции CORREL в простой формуле Excel можно легко сравнить два столбца. Это не обеспечит особой глубины анализа, но быстро предоставит вам число для оценки.

Кроме того, нужно обратить внимание на формат или тип переменной. Некоторые переменные, такие как стоимость заказа или количество заказов, являются непрерывными. Не все алгоритмы группировки клиентов могут обрабатывать непрерывные числовые величины. Для таких значений нужно создавать интервалы или сегменты, по которым группируются клиенты.

Например, рассмотрим стоимость заказа, которая является непрерывной величиной без каких-либо разбиений или группировок, свойственных таким данным. Вы можете создать еще одну переменную (например, столбец в электронной таблице), которая разделит эту величину на сегменты или интервалы. Для большинства алгоритмов такими сегментами могут быть A, B и C, или «высокая», «средняя» и «низкая». Текст или название значения не имеют. Для стоимости заказа варианты «высокая», «средняя» и «низкая» являются значимыми для бизнес-пользователей, более понятными и не оказывают влияния на анализ.

Во многих отраслях наиболее употребительными являются различные варианты следующих переменных:

  • Тип клиента
  • Регион
  • Количество заказов
  • Стоимость заказов
  • Тип приобретаемых товаров
  • История платежей, сроки оплаты
  • Путь маркетингового привлечения (как клиент стал клиентом)
  • Оценка торгового представителя.

Подменю Generate profiles of my contacts who responded to an offer

Первым шагом при использовании этого подменю является извлечение данных из ERP-системы, которая содержит список клиентов. В одном из полей в этом списке должна содержаться информация о том, приобрел ли клиент товар — а в идеале, сделал ли он покупку в ответ на определенную маркетинговую кампанию или сообщение. Другие поля должны включать значимые переменные, как было отмечено в предыдущем разделе. Результатом является модель, содержащая характеристики клиентов, которые более склонны откликнуться на предложение.

Соберите эти элементы данных, чтобы для каждого клиента присутствовала одна запись, и затем внесите эти данные в SPSS Statistics. Щелкните в меню Direct Marketing > Choose Technique («Выберите задачу», это единственный вариант), как показано на рисунке 1.

Рисунок 1. Меню Direct Marketing в SPSS Statistics
Screen capture image showing how to access to the Direct Marketing menu in SPSS Statistics

В открывшемся меню выберите Generate profiles of my contacts who responded to an offer, (Создать профили клиентов, ответивших на предложение), как показано на рисунке 2.

Рисунок 2. Графическое меню Direct Marketing
Screen capture image showing the Direct Marketing graphical menu

На вкладке Fields (Поля) просмотрите слева все столбцы из ваших данных (см. рисунок 3).

Рисунок 3. Окно Prospect Profiles (Профили потенциальных покупателей)
Screen capture image showing the Prospect Profiles window

В поле Fields выберите поле с откликом и, нажав на стрелку, переместите его в поле Response Field (Поле отклика). Затем в поле Positive response value выберите значение позитивного отклика. Если предлагается множество значений, то определите, какое из них будет считаться позитивным откликом. Все остальные значения будут рассматриваться как негативный отклик.

Затем выберите переменные из группы Field и переместите их в поле Create Profiles with(Создать профили с ...). SPSS Statistics проанализирует эти переменные, чтобы узнать, могут ли они предсказывать уровень отклика, и насколько хорошо.

Алгоритм готов к выполнению, однако на вкладке Settings (Параметры) нет дополнительных параметров, с помощью которых можно было бы улучшить обработку и усовершенствовать модель. На рисунке 4 представлена вкладка Settings.

Рисунок 4. Вкладка Settings в окне Prospect Profiles
Screen capture image showing the Settings tab in the Prospect Profiles window

На вкладке Settings определите минимальный размер групп в соответствии с тем, что вы ожидаете от данных. Если набор данных большой, увеличьте это значение. Если набор данных о клиентах небольшой — уменьшите.

Затем поставьте отметку в поле Include minimum response rate threshold information in results (Включить в результаты информацию о минимальном пороговом значении уровня отклика). Введите процентное значение в поле Specify target response rate (%) (Целевой уровень отклика), которое будет минимальным пороговым значением для группы. Алгоритм по-прежнему будет создавать группы с уровнем отклика ниже указанного значения, однако в результатах они будут помечаться другим цветом, чтобы показать, что это группы со слабым откликом.

Нажмите кнопку Run(Запуск), чтобы начать анализ.

В окне результатов выводится таблица с найденными группами. Вы можете вставлять эту таблицу и графики в другие документы и презентации, чтобы знакомить ваших бизнес-пользователей с результатами анализа. На рисунке 5 представлены результаты анализа.

Рисунок 5. Пример результатов анализа с использованием подменю Generate profiles of my contacts who responded to an offer
Screen capture image showing example output of the Generate profiles of my contacts who responded to an offer submenu

(Посмотреть рисунок 5 в большем размере.)


Подменю Select contacts most likely to purchase

Сначала этот анализ выглядит практически так же, как предыдущий. Однако анализ с использованием подменю Select contacts most likely to purchase (Выбрать клиентов, наиболее склонных совершить покупку) предоставляет больше параметров и позволяет создать модель, которую вы сможете применять к новым данным в будущем.

Как и в предыдущей задаче, выберите Direct Marketing > Choose Technique. В этом меню выберите Select contacts most likely to purchase, как показано на рисунке 6.

Рисунок 6. Подменю Select contacts most likely to purchase
Screen capture image showing the Select contacts most likely to purchase submenu

В окне Propensity to Purchase (Склонность к покупке) выберите поле с откликом в списке Fields и переместите его в поле Response Field. Укажите в поле Positive response value, какое значение Response Field указывает на позитивный отклик.

Выберите из списка поля для использования в качестве переменных в ходе анализа и переместите их в поле Predict Propensity with.

В области Save Model (Сохранить модель) нажмите Browse (Обзор), чтобы сохранить файл с создаваемыми моделью правилами под выбранным именем. Этот файл можно использовать в других аналитических процессах, в том числе в анализе больших данных, в качестве источника правил для клиентов. См. рисунок 7.

Рисунок 7. Заполненное окно Propensity to Purchase
Screen capture image showing the completed Propensity to Purchase window

Затем перейдите на вкладку Settings.

Самой важной группой на этой вкладке является Model Validation, (Проверка модели). В ней устанавливается процентная доля данных, не используемых в процессе создания модели. Такие данные используются для оценки эффективности модели. Поставьте отметку в поле Validate the model (Проверить модель) и введите число в поле размера обучающего подмножества Training sample partition size (%).

В группе Diagnostic Output (Диагностические выходные данные) поставьте отметку в поле Overall model quality (Качество модели в целом). Отметьте также поле Classification table (Таблица классификации) и введите число в поле Minimum probability (Минимальная вероятность). На рисунке 8 указано число 0,02, однако возможно любое десятичное число, которое близко к минимальному целевому уровню отклика.

В данном примере в группе Name and Label for Recoded Response Field (Имя и метка для перекодирования поля отклика) используются значения по умолчанию. Эти значения являются названиями столбцов в окне данных, справа от входных данных для каждой записи о клиенте. Эти значения предоставляют прогноз для таких клиентов на базе модели, чтобы вы могли видеть, как модель работает для конкретных клиентов.

Рисунок 8. Заполненная вкладка Settings
Screen capture image showing the completed Settings tab

Нажмите кнопку Run.

Модель создает несколько графиков и таблиц в окне результатов, добавляет столбцы в окно данных и формирует XML-файл. Сохраните окно данных как электронную таблицу, а затем используйте представления в виде электронных таблиц при взаимодействиях с вашими бизнес-пользователями. На рисунке 9 представлен пример такого XML-файла в формате Predictive Model Markup Language (PMML).

Рисунок 9. Пример XML-файла в формате PMML
Screen capture image showing an example of the XML file in PMML format

(Посмотреть Рисунок 9 в большем размере.)

В таблице 1 представлена таблица классификации. Такие таблицы показывают, насколько точна модель для отложенных или контрольных данных, в сравнении с обучающими данными.

Таблица 1. Таблица классификации для оценки эффективности модели
НаблюденияПрогнозы
Обучающая выборкаКонтрольная выборка
Закодированный отклик (0=Нет, 1=Да)Процент корректныхЗакодированный отклик (0=Нет, 1=Да)Процент корректных
НетДаНетДа
Закодированный отклик (0=Нет, 1=Да)Нет24196.0064198.46
Да02100.00011100.00
Общая процентная доля.0066.6796.30.0091.6798.68

Переход к большим данным

Полученный XML-файл Вы в будущем можно использовать в SPSS Statistics для прогнозирования уровня отклика для новых наборов данных. Кроме того, этот файл можно применять в других приложениях, которые могут использовать его в соответствии со стандартом PMML. Помимо традиционных методов углубленного анализа данных, файлы PMML XML можно использоваться для изучения больших данных.

Описываемый в данной статье анализ использует структурированные данные, которые обычно содержатся в реляционной базе данных. Такие структура и формат необходимы в SPSS Statistics, чтобы создавать модели. Используя модель, которую создает SPSS Statistics, некоторые имеющиеся на рынке пакеты для анализа больших данных уже сегодня могут выполнять скоринг существующих и потенциальных клиентов в среде больших данных. Такой анализ будет работать только со структурированными данными, однако в будущем ситуация может измениться. Кроме того, есть способы сделать так, чтобы неструктурированные данные выглядели структурированными при проведении анализа.

При развертывании в среде больших данных модели склонности клиентов позволяют в реальном времени отслеживать входящие данные в больших данных для скоринга клиентов в реальном времени. К примеру, модель может обнаружить вероятного клиента и автоматически запустить процесс формирования для него целевого предложения в реальном времени.

Этот пример иллюстрирует потенциально небольшое однократное увеличение дохода. Однако тысячи или миллионы таких небольших рекомендаций могут принести огромные выгоды. В предиктивном анализе множество небольших приростов обычно эффективнее, чем одно большое точечное улучшение.


Заключение

Предиктивный анализ — это глубокая, многогранная дисциплина. Это перспективная область, но начать ее освоение бывает трудно. Меню Direct Marketing пакета SPSS Statistics упрощает некоторые методы анализа, которые являются отличными областями для первоначального освоения.

Ответственные сотрудники ИТ-служб и бизнес-подразделений могут применять предиктивный анализ, чтобы содействовать повышению уровней отклика клиентов на предложения, опираясь на базовые познания в статистике. Такая основа сделает более понятными и простыми для применения другие аналитические процессы в компаниях любых размеров.

Ресурсы

Комментарии

developerWorks: Войти

Обязательные поля отмечены звездочкой (*).


Нужен IBM ID?
Забыли Ваш IBM ID?


Забыли Ваш пароль?
Изменить пароль

Нажимая Отправить, Вы принимаете Условия использования developerWorks.

 


Профиль создается, когда вы первый раз заходите в developerWorks. Информация в вашем профиле (имя, страна / регион, название компании) отображается для всех пользователей и будет сопровождать любой опубликованный вами контент пока вы специально не укажите скрыть название вашей компании. Вы можете обновить ваш IBM аккаунт в любое время.

Вся введенная информация защищена.

Выберите имя, которое будет отображаться на экране



При первом входе в developerWorks для Вас будет создан профиль и Вам нужно будет выбрать Отображаемое имя. Оно будет выводиться рядом с контентом, опубликованным Вами в developerWorks.

Отображаемое имя должно иметь длину от 3 символов до 31 символа. Ваше Имя в системе должно быть уникальным. В качестве имени по соображениям приватности нельзя использовать контактный e-mail.

Обязательные поля отмечены звездочкой (*).

(Отображаемое имя должно иметь длину от 3 символов до 31 символа.)

Нажимая Отправить, Вы принимаете Условия использования developerWorks.

 


Вся введенная информация защищена.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=40
Zone=Information Management
ArticleID=933973
ArticleTitle=Определение целевых клиентов через меню Direct Marketing пакета SPSS Statistics
publish-date=06132013