Создание специальных моделей сегментации из электронных таблиц в SPSS Statistics

Создайте модели для использования сегодня и в будущем ― с "большими данными"

Электронные таблицы предоставляют широкие возможности в сфере интеллектуального анализа данных. Программы электронных таблиц не позволяют выполнять фактический интеллектуальный анализ данных, но их можно использовать для сбора данных, отображения и ввода проверенной пользователем информации в IBM® SPSS® Statistics с последующим выводом результатов обратно в электронную таблицу. Эта статья учит, как ввести в SPSS Statistics исходные данные из электронной таблицы и создать специальную модель сегментации с помощью двух алгоритмов классификации. Затем с использованием параметров настройки SPSS Statistics создаются постоянные файлы с правилами моделей, которые можно применять для обратного преобразования классификаций в электронные таблицы или переносить в среду "больших данных".

Дэвид Джиллман, директор по обслуживанию, Data Sooner

Photo of David GillmanДэвид Джиллман (David Gillman) имеет более чем 20-летний опыт работы в таких областях, как бизнес-аналитика, углубленный анализ данных и предиктивный анализ. Получив образование в прикладной математике, оптимизации и статистическом анализе, он специализируется на их применении в сфере коммерции. Он имеет практический опыт совершенствования бизнес-операций за счет использования аналитики в организациях различных размеров в таких отраслях, как дистрибуция, производство, розничная торговля и гостиничный бизнес. С Дэвидом можно связаться по электронной почте: gillman@datasooner.com.



26.04.2013

Те, кто работает не в крупных компаниях по розничной торговле, скорее всего, могут представить список своих клиентов в одной электронной таблице. Пусть это не самый передовой или технически продвинутый метод, но электронная таблица позволяет легко собирать элементы данных о каждом клиенте.

Она полезна и при создании моделей сегментации клиентов. Ее легко использовать для сбора данных из многих источников, их распространения с целью сбора замечаний и редактирования для повышения точности.

IBM SPSS Statistics облегчает работу с такой таблицей, которую приходится проделывать не один раз. Анализируя результаты и общаясь с коллегами, в таблицу можно добавлять новые поля, а затем повторять процесс моделирования.

Характеристики клиентов

Начнем со сведения всех необходимых и релевантных данных о клиентах в одну таблицу. Первый вопрос ― какие характеристики при этом использовать?

Я делю характеристики клиентов на три категории. Во-первых, есть характеристики, которые большинству людей обычно приходят на ум в первую очередь. Где находится клиент? Из какой он отрасли? Сколько у него сотрудников? Каков его доход? Сколько регионов он охватывает? Это демографические характеристики клиентов, которые часто уже содержатся в системе управления взаимоотношениями с клиентами (CRM) компании.

Во-вторых, существуют поведенческие характеристики клиентов. Это такие данные, как количество заказов в месяц, средняя стоимость заказов и сроки оплаты. Эту информацию часто получают, обращаясь с запросами к системе планирования общеорганизационных ресурсов. Возможно, такие поведенческие характеристики клиентов в компании тоже уже есть. И время от времени для получения новых данных создаются новые формы запроса.

В-третьих, существуют характеристики клиентов, которые не лежат ни в какой централизованной базе данных. Примером информации этого типа может служить оценка продавцом взаимоотношений с данным клиентом или рейтинг, основанный на количестве возвращаемых товаров или жалоб. Данные этого типа чаще всего приходится вводить вручную.


Методы создания моделей сегментации в SPSS Statistics

В SPSS Statistics есть несколько статистических алгоритмов сегментации. В одной статье нельзя охватить их все, но я приведу краткий список наиболее важных из них:

  • Два шага
  • K-средние
  • Иерархический
  • Дерево
  • Дискриминантный
  • Ближайший сосед

Это наиболее часто используемые алгоритмы кластеризации. В этот список можно добавить и нейронные сети, но в SPSS Statistics этот алгоритм стоит особняком.

Каждый из перечисленных алгоритмов имеет сильные и слабые стороны в зависимости от количества имеющихся данных, типа или характеристик переменных и конечной цели классификации данных. В этой статье мы сосредоточимся на двух алгоритмах: K-средних и дереве. (Под "деревом" в данном случае понимаются так называемые деревья принятия решений.)

Когда данные, хранящиеся в электронной таблице, вводятся в редактор данных SPSS Statistics, можно выбрать алгоритм для работы с ними.


Работа с SPSS Statistics

Данные, показанные на рисунке 1, введены в SPSS Data Viewer из электронной таблицы.

Рисунок 1. Данные из электронной таблицы в SPSS Statistics Data Editor
Данные из электронной таблицы в SPSS Statistics Data Editor

(Увеличенная версия рисунка 1).

K-средние

K-средние ― это популярный алгоритм кластеризации. Основная идея алгоритма К-средних заключается в том, что сначала для каждого класса случайным образом выбирается центральная точка. Затем алгоритм группирует члены в класс из точки, которая расположена ближе всего к данному члену. В большинстве случаев измеряется евклидово расстояние в многомерном пространстве. Следующий шаг заключается в поиске центральной точки (обычно называемой центроидом) каждой группы. Поскольку первая точка выбрана случайно, новый центр будет другим.

После того как новый центроид найден, снова вычисляется расстояние до всех точек, и члены перегруппировываются на основе сдвинутого центроида. Этот процесс повторяется до тех пор, пока перемещение центра не прекратится или не станет пренебрежимо мало.

Чтобы использовать кластеризацию методом К-средних, выберите Classify > K-Means Cluster из списка Analyze в главном меню редактора данных. Появится окно, похожее на то, что изображено на рисунке 2.

Рисунок 2. Главная страница алгоритма К-средних
Главная страница алгоритма К-средних

(Увеличенная версия рисунка 2).

Перенесите переменные, которые вы хотите использовать в своем анализе, из левой части списка в список Variables (Переменные). Аналогично, выберите столбец для использования в качестве уникального идентификатора записи и поместите его в поле Label Cases by (Помечать случаи меткой…). В случае классификации клиентов это неизменный номер клиента.

На этом этапе будьте осторожны, чтобы необдуманно не ввести все переменные, предварительно не оценив их полезность. Иногда в этом списке могут оказаться неуместные переменные. Например, если есть поле, которое уже классифицировано, такое как оценка клиента продавцом, то эта информация может в значительной степени повлиять на конечное расположение кластеров. К счастью, K-средние не столь восприимчивы к наличию таких уже сгруппированных переменных, как некоторые другие алгоритмы.

Далее, отрегулируйте количество кластеров, которое вы хотели бы увидеть в итоге. Теперь окно должно выглядеть так, как показано на рисунке 3.

Рисунок 3. K-средние с параметрами конфигурации
K-средние с параметрами конфигурации

(Увеличенная версия рисунка 3).

Если вы удовлетворены выбором, нажмите кнопку ОК. Позднее можно будет поэкспериментировать с кнопками Iterate (Повторение) и Options (Параметры настройки). С их помощью можно влиять на результат, но нужно хорошо знать алгоритм и возможные последствия изменения этих настроек. Убедитесь, что в поле Method (Метод) выбран параметр Iterate and classify (Повторение и классификация).

В диалоговом окне Cluster Centers (Центры кластеров) установите флажок Write final (Запись конечного результата). Выберите вариант Data file (Файл данных); затем нажмите кнопку File и в появившемся обозревателе файлов присвойте файлу имя. Запомните, где находится этот файл.

Теперь окно K-Means Cluster Analysis выглядит, как показано на рисунке 4.

Рисунок 4. Запись результатов работы метода K-средних в файл
Запись результатов работы метода K-средних в файл

Нажмите кнопку ОК. Алгоритм начинает свою работу. Когда он закончит, SPSS Statistics Viewer будет выглядеть так, как показано на рисунке 5.

Рисунок 5. Результат выполнения метода K-средних в окне просмотра
Результат выполнения метода K-средних в окне просмотра

(Увеличенная версия рисунка 5).

Поздравляем! Вы создали кластерную классификацию своих клиентов. Теперь можно применять этот алгоритм к новым данным, чтобы увидеть, как выглядит его результат с другим набором клиентов, или к тому же файлу клиентов позднее, когда данные изменятся.

Для этого введите новый набор данных клиентов из электронной таблицы в SPSS Statistics Data Viewer. Нажмите кнопку Analyze > Classify (Анализ и классификация) и выберите вариант K-Means Clustering (Кластеризация методом К-средних). Появится то же окно K-Means Cluster Analysis. Переместите столбцы электронной таблицы в список Variables.

В этом месте процесс пойдет иначе. Для создания модели измените параметры, выбранные в первый раз. В частности, в поле Method выберите вариант Classify only (Только классификация). Затем в поле Cluster Centers установите флажок Read initial (Считать исходные данные). Выберите параметры External data file (Внешний файл данных) и нажмите кнопку File, перейдя в обозревателе файлов к тому файлу, который алгоритм К-средних записал в ходе предыдущего процесса. Теперь окно должно выглядеть так, как показано на рисунке 6.

Рисунок 6. Алгоритм K-средних считывает существующую модель
Алгоритм K-средних считывает существующую модель

Нажмите кнопку Save (Сохранить) . В окне K-Means Cluster: Save New (Кластер, полученный методом K-средних: сохранить новый), которое показано на рисунке 7, установите флажки Cluster membership (Членство в кластере) и Distance from cluster center (расстояние от центра кластера). Затем нажмите кнопку Continue (продолжить).

Рисунок 7. Сохранение параметров метода K-средних
Сохранение параметров метода K-средних

Эти параметры отображают членство в кластере для каждой строки (случая или клиента) электронной таблицы, отображаемой в окне редактора данных.

Теперь нажмите кнопку OK, чтобы разрешить SPSS Statistics использовать ранее сгенерированную модель для классификации новых клиентов. В редакторе данных появляются два новых столбца: членства в кластере и расстояния для каждого клиента. Нажмите кнопку File > Save в обозревателе данных, чтобы сохранить эту информацию в электронной таблице и интегрировать классификацию в свой бизнес-процесс.

Вуаля! Вы перешли из электронной таблицы в модель и обратно в электронную таблицу.

Дерево (принятия решений)

Деревья решений ― отнюдь не самый сложный алгоритм, доступный в подменю Classify (Классифицировать). И едва ли не самый простой для объяснения торговым работникам. Чтобы использовать алгоритм дерева принятия решений, нужно считать таблицу всех клиентов в редактор данных SPSS.

Здесь есть одно отличие от данных для метода K-средних: в последнем такую информацию, как классификации, выполненне продавцами, нужно было исключать из входных данных. В таких алгоритмах, как метод K-средних, подобные переменные могут повлиять и потенциально пересилить другие переменные, так что клиенты будут сгруппированы так, как их уже сгруппировал продавец.

В деревьях решений нужна переменная, которая будет целевой. Другими словами, нужен столбец, в котором клиенты уже классифицированы. В этом примере я использую классификацию по объему продаж, поскольку такая классификация наверняка уже существует где-то в недрах вашей компании. Существующая классификация может потребовать полировки и чистки, прежде чем ее можно будет использовать, но это лучший способ получения целевой переменной для деревьев решений.

Чтобы увидеть, как это работает в SPSS Statistics, рассмотрим меню Decision Tree.

  1. Считайте электронную таблицу с информацией о клиентах в редактор данных.
  2. Нажмите кнопку Analyze > Classify и выберите вариант Tree Clustering.

    В отличие от метода K-средних, прежде чем перейти к настройке алгоритма, появляется окно Decision Tree (Дерево принятия решений), показанное на рисунке 8.

    Рисунок 8. Окно предупреждения о переменных алгоритма дерева принятия решений
    Окно предупреждения о переменных алгоритма дерева принятия решений
  3. Нажмите кнопку Define Variable Properties (Определить свойства переменных).

    Появится окно Define Variable Properties (Определение свойств переменных), показанное на рисунке 9, но все переменные находятся в списке Variables. Переместите переменные, свойства которых требуется настроить, в список Variables to Scan (Переменные для сканирования).

    Рисунок 9. Окно определения переменных дерева решений
    Окно определения переменных дерева решений
  4. Выберите те переменные, которые могут отражать степень систематизации, например, принимающие значения A, B и C, где A соответствует наибольшей, а C ― наименьшей степени.

    Переменная, значения которой отражают ранжирование или порядок, который программа, скорее всего, не обнаружит, называется порядковой переменной. Аналогично, номинальная переменная ― это переменная, значения которой соответствуют категориям, а не порядку. Наглядным примером служат цвета. В сфере коммерческих данных понятия "синий", "черный" и "желтый" не упорядочены. Используйте тот же раскрывающийся список, чтобы сделать соответствующие переменные номинальными.

    Кроме того, будьте настороже в отношении переменных, которые могут быть промежуточными. Например, размер одежды в зависимости от обстоятельств можно считать номинальным или порядковым. Здесь начинаются тонкости прикладной статистики.

  5. Нажмите кнопку Continue (Продолжить).

Все выбранные переменные классифицируются в окне Define Variable Properties (Определение свойств переменных), показанном на рисунке 10. Для данного примера я классифицировал некоторые из переменных, такие как код SIC типа предприятия клиента, как номинальные. Другие, такие как поле истории платежей, я классифицировал как порядковые, потому что есть категория клиентов, которые платят лучше, а есть клиенты, которые вообще не заплатили.

Рисунок 10. Окно алгоритма дерева принятия решений для изменения свойств переменных
Окно алгоритма дерева принятия решений

(Увеличенная версия рисунка 10).

Это окно содержит и другие параметры для лучшего определения свойств переменных, однако они выходят за рамки темы этой статьи.

Закончив определение характеристик переменных, нажмите кнопку ОК, чтобы вернуться в редактор данных. Снова запустите алгоритм Tree Clustering из меню. Если вас опять попросят задать свойства каждой переменной, нажмите кнопку ОК.

Вы окажетесь в основном окне Дерева принятия решений.

В Интернете много ресурсов, где можно узнать о деревьях принятия решений, различных статистических алгоритмах и влиянии параметров их функций на результаты. Я проведу вас через простые примеры алгоритма дерева, чтобы вы могли приступить к его использованию, а позднее изучить более сложные варианты. Окна, которые появляются при нажатии кнопок Criteria (Критерии) или Options (Параметры), содержат множество функций, которые могут повлиять на обработку модели дерева, например, таких, от которых зависят рейтинги переменных, подрезка деревьев и стоимость просчетов.

В главном окне переместите переменные, которые вы хотите использовать для построения модели дерева, из списка Variables в список Independent Variables (Независимые переменные), как показано на рисунке 11. Кроме того, переместите одну переменную в список Dependent Variable (Зависимая переменная). Зависимая переменная ― это та самая целевая переменная, о которой говорилось выше.

Рисунок 11. Окно меню алгоритма дерева принятия решений
Окно меню алгоритма дерева принятия решений

Нажмите кнопку Save. Когда появится окно Decision Tree: Output (Дерево решений: вывод), нажмите на вкладку Rules (Правила), показанную на рисунке 12. В области Syntax (Синтаксис) я выбрал параметр SQL, установил флажок Export rules to a file (Экспортировать правила в файл) и указал файл для экспорта правил. Эта функция идеально подходит для интеграции классификации в такие бизнес-приложения, как CRM, и в отчеты. Возможно, вам придется отредактировать код на языке структурированных запросов (SQL) и вставить его в отчеты или программы, но это кратчайший путь к внедрению модели дерева решений.

Рисунок 12. Определение способа вывода и местоположения результата алгоритма дерева принятия решений
Определение способа вывода и местоположения результата алгоритма дерева принятия решений

Нажмите кнопку Continue, затем кнопку Save. На рисунке 13 я указал файл, в который нужно вывести модель дерева решений. Эта важная особенность модели дерева решений позволяет интегрировать ее правила в другие приложения. Можно даже использовать правила в XML-файле для ввода в процесс классификации "больших данных".

Рисунок 13. Сохранение XML-файла дерева решений
Сохранение XML-файла дерева решений

Указав файл для хранения правил дерева, нажмите кнопку Continue.

Результатом последних шагов стали два выходных файла, каждый из которых содержит правила дерева принятия решений. Один в формате SQL, а другой — в формате XML.

В главном окне нажмите кнопку Validation (Проверка). Появится окно Decision Tree: Validation (Дерево решений: проверка), как показано на рисунке 14. Вот где пригодятся мои предыдущие комментарии по поводу учебных и проверочных наборов. Выберите процентное разбиение, с которым вы хотите практиковаться; остальное относится к проверочному набору. Я также оставляю значение по умолчанию в области Display Results For (Отображать результаты для…) — выбрано Training and test samples (Примеры для обучения и тестирования).

Рисунок 14. Дерево принятия решений: окно проверки
Дерево принятия решений: окно проверки

Эти параметры, отображаемые в редакторе данных, зависят от того, как модель классифицирует каждый случай или каждого клиента. В обозревателе SPSS Statistics отображаются результаты сравнения характеристик модели с проверочным набором.

Нажмите кнопку Continue, чтобы возвратиться в главное меню дерева принятия решений. Затем нажмите кнопку OK для запуска процесса моделирования. В XML-файл помещаются правила, указанные в параметрах сохранения. Те же правила сохраняются в SQL-файле.


Большие данные и сегментация клиентов

Теперь, когда вы усвоили основы практики создания модели сегментации, давайте расширим тему и рассмотрим, как эти модели и ваши навыки можно применить в контексте "больших данных".

Я использую общее определение больших данных как потока данных, которые слишком многообразны и поступают слишком быстро, чтобы их можно было анализировать вручную. Применение модели классификации в этом контексте позволяет автоматическим классификаторам классифицировать или сегментировать клиентов в режиме реального времени. С помощью обработки больших данных при появлении новых клиентов или изменении характеристик старых можно настраивать процесс маркетинга и продаж в режиме реального времени.

Представьте себе ситуацию, когда компания получила новые источники данных — радиометки для отслеживания движения товаров, анализ настроения клиентов по сообщениям электронной почты и т.п. Этими потоками входных данных можно управлять с помощью такого набора инструментов, как IBM InfoSphere® BigInsights™, и хранить их для использования в будущем.

Сочетание инструментов InfoSphere BigInsights с правилами XML и SQL из SPSS Statistics позволяет классифицировать и переклассифицировать клиентов по мере поступления потоков данных в InfoSphere BigInsights. Представьте себе, какие преимущества вы получите, когда база данных будет автоматически уведомлять сотрудников компании о перемещении клиентов из одного сегмента в другой! Они будут восторге, получая эту информацию в режиме реального времени!

Сейчас большинство компаний только начинает осваивать идеи больших данных. К счастью, IBM InfoSphere BigInsights Basic Edition теперь можно использовать на безвозмездной основе (см. раздел Ресурсы). А начав развертывать большие данные в производственной среде, вы сможете перейти на InfoSphere BigInsights Enterprise Edition.


Заключение

SPSS Statistics может выполнять впечатляющую работу по анализу и прогностическому анализу данных. Естественной задачей интеллектуального анализа данных является сегментация клиентов. Для анализа и внедрения модели сегментации клиентов достаточно имеющихся простых инструментов. Результаты сегментации можно использовать в самых разных целях, в том числе возвращая ее в электронные таблицы, которыми пользуются сотрудники компании.

Более того, сегментация клиентов ― это инструмент, который можно применять сегодня с перспективой развертывания в будущем той же модели в среде больших данных.

Ресурсы

Научиться

Получить продукты и технологии

Комментарии

developerWorks: Войти

Обязательные поля отмечены звездочкой (*).


Нужен IBM ID?
Забыли Ваш IBM ID?


Забыли Ваш пароль?
Изменить пароль

Нажимая Отправить, Вы принимаете Условия использования developerWorks.

 


Профиль создается, когда вы первый раз заходите в developerWorks. Информация в вашем профиле (имя, страна / регион, название компании) отображается для всех пользователей и будет сопровождать любой опубликованный вами контент пока вы специально не укажите скрыть название вашей компании. Вы можете обновить ваш IBM аккаунт в любое время.

Вся введенная информация защищена.

Выберите имя, которое будет отображаться на экране



При первом входе в developerWorks для Вас будет создан профиль и Вам нужно будет выбрать Отображаемое имя. Оно будет выводиться рядом с контентом, опубликованным Вами в developerWorks.

Отображаемое имя должно иметь длину от 3 символов до 31 символа. Ваше Имя в системе должно быть уникальным. В качестве имени по соображениям приватности нельзя использовать контактный e-mail.

Обязательные поля отмечены звездочкой (*).

(Отображаемое имя должно иметь длину от 3 символов до 31 символа.)

Нажимая Отправить, Вы принимаете Условия использования developerWorks.

 


Вся введенная информация защищена.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=40
Zone=Information Management
ArticleID=900741
ArticleTitle=Создание специальных моделей сегментации из электронных таблиц в SPSS Statistics
publish-date=04262013