Типы моделей

IBM® SPSS Modeler предлагает ряд методов моделирования, взятых из таких областей, как обучение машин, искусственный интеллект и статистика. При помощи методов, доступных на палитре Моделирование, можно извлечь новую информацию из данных и разработать прогнозные модели. У каждого из методов есть свои сильные стороны и типы задач, для решения которых он лучше всего подходит.

Руководство по прикладным программам IBM SPSS Modeler предоставляет примеры многих таких методов вместе с общей информацией о процессе моделирования. Это руководство доступно в виде электронного учебного пособия. Дополнительная информация.

Методы моделирования разделены на следующие категории:

Отслеживаемые
Взаимосвязь
Сегментация

Контролируемые модели

Контролируемые модели используют значения одного или нескольких входных полей для предсказания значения одного или нескольких выходных полей, то есть полей назначения. Некоторые примеры таких способов следующие: деревья решений (алгоритмы дерева C&R, QUEST, CHAID и C5.0), регрессии (линейная, логистическая, обобщенная линейная и Кокса), нейронные сети, модели опорных векторов и Байесовские сети.

Контролируемые модели помогают организациям предсказывать известный результат, такой как покупка товара заказчиком или выход без покупки или соответствие транзакции известному паттерну мошенничества. Способы моделирования включают в себя компьютерное обучение, вывод правил по индукции, идентификацию подгрупп, статистические способы и генерирование нескольких моделей.

Контролируемые узлы

Узел автоклассификации создает и сравнивает несколько различных моделей для двоичных выходных данных (да или нет, уйдет клиент или останется и так далее), что позволяет выбрать лучший подход для данного анализа. Поддерживается несколько алгоритмов моделирования, что делает возможным выбор желательных для использования способов, конкретных опций для каждого из них и критериев сравнения результатов. Этот узел генерирует набор моделей на основе заданных опций и ранжирует лучших кандидатов в соответствии с заданными вами критериями.

Узел автонумерации оценивает и сравнивает модели для выходных данных в количественном числовом диапазоне при помощи нескольких разных способов. Этот узел работает аналогично другим узлам автоклассификации, допуская выбор алгоритмов для использования и экспериментирование с несколькими комбинациями опций при одном проходе моделирования. Поддерживаемые алгоритмы включают в себя нейросети, дерево C&R, CHAID, линейную регрессию, обобщенную линейную регрессию и механизмы опорных векторов (support vector machines, SVM). Модели можно сравнивать на основе корреляции, относительной ошибки или числа используемых переменных.

Узел дерева классификации и регрессии (Classification and Regression, C&R) генерирует дерево решений, позволяющее предсказывать или классифицировать будущие наблюдения. Этот метод использует рекурсивное разделение, чтобы расщепить обучающие записи на сегменты, на каждом шаге минимизируя неоднородность, причем узел дерева считается “чистым”, если все 100% наблюдений в узле попадают в конкретную категорию поля назначения. Входные поля и поля назначения могут быть из числового диапазона или категориальными (номинальными, порядковыми или флагами); все расщепления бинарны (только две подгруппы).

Узел QUEST предоставляет метод бинарной классификации для построения деревьев решений, разработанный для уменьшения времени обработки, требуемого для анализа больших деревьев C&R, при одновременном подавлении обнаруженного в способах деревьев классификации предпочтения входных полей, допускающих больше расщеплений. Входные поля могут быть в числовом диапазоне (количественными), но поле назначения должно быть категориальным. Все расщепления бинарные.

Узел CHAID генерирует деревья решений, используя статистику хи-квадрат для определения оптимальных расщеплений. В отличие от узлов дерева C&R и QUEST, CHAID может генерировать не только бинарные деревья, то есть у некоторых расщеплений может быть больше двух ветвей. Входные поля и поле назначения могут быть количественными (числовой диапазон) или категориальными. Исчерпывающий CHAID - это модификация метода CHAID, при котором проделывается более тщательная работа по изучению всех возможных расщеплений для каждого предиктора, но это требует больше времени для вычислений.

Узел C5.0 строит или дерево решений, или набор правил. Эта модель работает, разделяя выборку на основании значения в поле, дающего максимальный информационный выигрыш на каждом уровне. Поле назначения должно быть категориальным. Разрешено несколько разделений на подгруппы, и таких подгрупп может быть больше двух.

Узел списка решений определяет подгруппы или сегменты, которые показывают более высокое или более низкое правдоподобие для данного бинарного результата по сравнению с полной совокупностью. Например, вы могли бы искать клиентов с низкой вероятностью оттока или с высокой вероятностью отклика на кампанию. Вы можете включить свои знания о бизнесе в модель, добавляя свои собственные пользовательские сегменты и параллельно просматривая альтернативные модели, чтобы сравнить результаты. Модели списка решений состоят из списка правил, в котором каждое правило имеет условие и следствие. Правила применяются по очереди, и первое подходящее правило определяет результат.

Модели линейной регрессии предсказывают значения непрерывного целевого поля на основе линейных взаимосвязей между целевым полем и одним или несколькими предикторами.

Узел PCA/фактора предоставляет мощные средства сокращения числа данных для уменьшения сложности ваших данных. Анализ главных компонентов (principal components analysis, PCA) находит линейные комбинации входных полей, которыми главным образом определяются изменения в целом наборе полей, где компоненты ортогональны друг другу. Факторный анализ направлен на выявление скрытых факторов, объясняющих структуру корреляций в наборе наблюдаемых полей. Цель обоих подходов - найти небольшое количество производных полей, которые эффективно суммируют информацию исходного набора входных полей.

Узел выбора возможностей изучает входные поля на возможность удаления, основываясь на наборе критериев (таких как процентная доля пропущенных значений); затем этот узел ранжирует важность оставшихся полей по отношению к заданному полю назначения. Например, если у набора данных сотни потенциальных входных полей, какие из них потенциально наиболее полезны при моделировании исхода лечения пациента?

Дискриминантный анализ делает более строгие предположения, чем логистическая регрессия, но он может быть ценной альтернативой или дополнением к анализу логистической регрессии, когда эти предположения оказываются правильными.

Логистическая регрессия - это статистический метод для классификации записей на основании значений входных полей. Она аналогична линейной регрессии, но логистическая регрессия использует категориальные поля назначения вместо численных.

Обобщенная линейная модель расширяет общую линейную модель, так что зависимая переменная считается линейно связанной с факторами и ковариатами через заданную функцию связи. Более того, модель допускает наличие у зависимой переменной распределения, отличающегося от нормального. Она включает в себя функциональные возможности большого количества статистических моделей, в том числе линейной регрессии, логистической регрессии, логлинейных моделей для количества данных и интервал-цензурированных моделей выживания.

Обобщенная линейная смешанная модель (generalized linear mixed model, GLMM) обобщает линейную модель таким образом, что у значений назначения может быть отличное от нормального распределение и оно будет линейно связано с факторами и ковариатами через задаваемую функцию связи, так что наблюдения могут быть скоррелированными. Обобщенные линейные смешанные модели включают широкий набор моделей, начиная от простой линейной регрессии и кончая сложными многоуровневыми моделями для не нормально распределенных данных с повторными измерениями.

Узел регрессии Кокса позволяет построить модель дожития для данных времени-до-события в присутствии цензурируемых записей. Эта модель создает функцию дожития, которая предсказывает вероятность, что изучаемое событие произойдет в данное время (t) для данных значений входных переменных.

Узел механизма опорных векторов (Support Vector Machine, SVM) позволяет классифицировать данные по одной или двум группам без переобучения. SVM хорошо работает с широкими наборами данных, в частности, в случае очень большого числа входных полей.

Узел Байесовская сеть позволяет построить вероятностную модель, комбинируя наблюдаемые и записанные сведения с очевидными с точки зрения здравого смысла данными, чтобы установить правдоподобие возникновения событий. Этот узел в основном работает с усиленными деревом наивными байесовскими сетями (Tree Augmented Naïve Bayes, TAN) и полными марковскими сетями, которые изначально используются для классификации.

Узел Самообучаемая модель откликов (Self-Learning Response Model, SLRM) позволяет построить модель, в которой одно новое наблюдение или всего несколько наблюдений могут быть использованы для повторной оценки модели без необходимости повторного обучения модели с использованием всех данных.

Узел временных рядов оценивает экспоненциальное сглаживание, а также одномерные и многомерные модели авторегрессии и проинтегрированного скользящего среднего (Autoregressive Integrated Moving Average, ARIMA) для временных рядов и создает прогнозы будущего выполнения. Этот узел временных рядов подобен предыдущему узлу временных рядов, объявленному устаревшим в SPSS Modeler версии 18. Однако этот более новый узел временных рядов спроектирован так, чтобы использовать мощность IBM SPSS Analytic Server для обработки объемных данных и вывода полученной модели в программе просмотра вывода, которая была добавлена в SPSS Modeler версии 17.

Узел k ближайших соседей (k-Nearest Neighbor, KNN) связывает новое наблюдение с категорией или значением k объектов, ближайших к нему в пространстве предикторов, где k - это целое число. Подобные наблюдения близки друг к другу, а непохожие наблюдения, наоборот, удалены друг от друга.

Узел пространственно-временного предсказания (Spatio-Temporal Prediction, STP) использует данные, содержащие информацию о положении, входные поля для прогноза (предикторы), поле времени и целевое поле. В этих данных для каждого положения в каждом времени измерения по каждому предиктора есть значительный ряд значений. После анализа данных их можно использовать для предсказания целевых значений в любом положении в области данных форм, используемых при анализе.

Модели связывания

Модели связывания находят структуры в ваших данных, в которых один или несколько объектов (таких как события, покупки или атрибуты) связаны с одним или несколькими другими объектами. Модели конструируют наборы правил, определяющие эти взаимосвязи. Здесь поля среди данных могут быть и входными полями, и полями назначения. Вы могли бы найти эти связи вручную, но алгоритмы правил связывания делают это гораздо быстрее и могут изучить более сложные структуры. Модели Априори и CARMA - это примеры использования таких алгоритмов. Еще один тип модели связывания - это модель обнаружения последовательностей, которая находит последовательные шаблоны в структурированных по времени данных.

Модели связывания наиболее полезны при предсказании нескольких выходных значений, например, покупатель, купивший товар X, купил также Y и Z. Модели связывания связывают конкретное следствие (например, решение что-либо купить) с набором условий. Преимущество алгоритмов правил связывания перед более стандартными алгоритмами дерева решений (C5.0 и деревья C&R) состоит в том, что связывание может существовать между любыми атрибутами. Алгоритм дерева решений построит правила с возможностью одного следствия, в то время как алгоритмы связывания стараются найти несколько правил, у каждого из которых может быть отдельное следствие.

Узлы связывания

Узел Априори извлекает набор правил из данных, выделяя правила с наибольшим информационным содержимым. Узел Априори предлагает пять различных способов выбора правил и использует сложные схемы индексирования для эффективной обработки больших наборов данных. Для больших задач узел Априори обычно быстрее при обучении; у него нет произвольного ограничения количества правил, которые можно сохранить, и он может обрабатывать правила с количеством предварительных условий до 32. Для узла Априори требуются категориальные входные и выходные поля, он был оптимизирован для полей такого типа и показывает с ними высокую производительность.

Модель CARMA извлекает из данных набор правил, не требуя, чтобы вы задавали входные или выходные поля. В отличие от узла Априори, узел CARMA предлагает параметры построения для поддержки правил (поддержка относится и к антецедентам, и к консеквентам), а не только для поддержки антецедентов. Это означает, что сгенерированные правила можно использовать в более широком наборе прикладных программ, например, чтобы найти список продуктов или услуг (антецедентов), консеквент которых - это товар, который вы хотите продвигать в этом летнем сезоне.

Узел последовательности обнаруживает правила связывания для последовательных или зависящих от времени данных. Последовательность - это список наборов элементов с тенденцией появления в предсказуемом порядке. Например, покупатель, который приобрел лезвия и лосьон после бритья, с большой вероятностью в следующий раз купит крем для бритья. Узел последовательности основан на алгоритме правил связывания CARMA, использующем эффективный двухпроходный способ обнаружения последовательностей.

Узел Правила связывания аналогичен узлу Априори, однако в отличие от Априори узел Правила связывания может обрабатывать данные списков. Кроме того, узел Правила связывания можно использовать с IBM SPSS Analytic Server для обработки данных большого объема, получая преимущества более быстрой параллельной обработкой.

Модели сегментации

Модели сегментации делят данные на сегменты, или кластеры, записей с одинаковыми структурами входных полей. Так как эти модели работают только с входными полями, у них нет отношения к выходным полям (полям назначения). Примеры моделей сегментации - это сети Коонена, кластеризация K-средних, двухшаговая кластеризация и выявление аномалий.

Модели сегментации (их называют также "моделями кластеризации") полезны в тех случаях, когда конкретный результат неизвестен (например, при идентификации нового шаблона мошенничества или интересующих вас групп в базе данных клиентов). Модели кластеризации уделяют главное внимание идентификации групп сходных записей и присвоению меток записям в соответствии с группами, к которым они принадлежат. Это делается без использования преимуществ предварительного знания о группах и их характеристиках, что отличает модели кластеризации от других способов моделирования, то есть отсутствие предварительно определенного выходного поля (поля назначения), значение в котором предсказывалось бы моделью. У этих моделей нет правильных или неправильных ответов. Их ценность в способности захватывать интересные группировки данных и представлять полезные описания этих группировок. Модели кластеризации часто используются для создания кластеров или сегментов, которые используются в качестве входных данных при последующем анализе (например, при разделении потенциальных покупателей по однородным подгруппам).

Узлы сегментации

Узел автоматической кластеризации оценивает и сравнивает модели кластеризации, идентифицирующие группы записей со сходными характеристиками. Этот узел работает аналогично другим узлам автоматического моделирования, допуская экспериментирование с несколькими комбинациями опций при одном проходе моделирования. Модели можно сравнивать при помощи базовых показателей, пытаясь фильтровать и ранжировать с их использованием полезность моделей кластеризации и предоставить показатель на основе важности конкретных полей.

Узел K-средних кластеризует набор данных в отдельные группы (или кластеры). Этот метод определяет фиксированное количество кластеров, итерационно распределяет записи по кластерам и настраивает центры кластеров, пока дальнейшие уточнения более не улучшают модель. Вместо попытки предсказать выходное значение k-средние используют процесс, называемый неконтролируемым обучением, чтобы обнаружить структуры в наборе входных полей.

Узел Коонена генерирует тип нейросети, которую можно использовать для кластеризации набора данных в отдельные группы. Когда сеть полностью обучена, похожие записи должны быть близко друг от друга на выходной карте, а отличающиеся записи должны быть сильно разделены. По количеству наблюдений, захваченных каждым нейроном в слепке модели, можно определить сильные нейроны. Это может дать представление об оправданном количестве кластеров.

Узел Двухшаговый использует метод двухшаговой кластеризации. На первом шаге проводится первый проход по данным, при котором необработанные входные данные сжимаются в управляемый набор подкластеров. На втором шаге используется способ иерархической кластеризации для все большего слияния подкластеров в крупные и еще более крупные кластеры. У двухшагового метода есть преимущество автоматической оценки оптимального числа кластеров для обучающих данных. Он может эффективно обрабатывать поля смешанных типов и большие наборы данных.

Узел выявления аномалий определяет необычные наблюдения, или выбросы, которые не соответствуют структуре “нормальных” данных. При помощи этого узла можно находить выбросы даже в том случае, если они не подходят ни под какие ранее известные шаблоны или вы точно не уверены, что именно ищете.

Модели исследования данных в базе данных

IBM SPSS Modeler поддерживает интеграцию с исследованием данных и инструментами моделирования, доступными у поставщиков баз данных, в том числе с Oracle Data Miner и Microsoft Analysis Services. Построение моделей, их скоринг и сохранение в базе данных - все эти операции возможны в прикладной программе IBM SPSS Modeler. Все подробности смотрите в руководстве IBM SPSS Modeler In-Database Mining Guide.