Скоринг данных с использованием прогнозных моделей

Процесс применения прогностической модели к набору данных называется скорингом данных. В IBM® SPSS Statistics есть процедуры для построения прогнозных моделей, таких как регрессия, кластеризация, дерево и нейронные сети. После того как модель построена, спецификации этой модели можно сохранить в файле, который содержит всю информацию, необходимую для реконструирования модели. Затем этот файл модели можно использовать, чтобы сгенерировать предсказанные значения для других наборов данных. Примечание: Некоторые модели создают файл XML модели, а некоторые - сжатый архив файла (файл .zip).

Пример. Отдел прямого маркетинга компании использует результаты пробной рассылки, чтобы приписать значения склонности к совершению покупки субъектам остальной части контактной базы данных, используя при этом различные демографические характеристики, с тем чтобы выявить тех, кто с наибольшей вероятностью откликнется на предложение и совершит покупку.

Скоринг можно рассматривать как преобразование данных. Модель представляет собой числовые преобразования, применяемые к определенным полям (переменным) - предикторам, заданным в модели, чтобы в результате получить прогнозные значения. В этом отношении процесс скоринга данных для имеющейся модели аналогичен применению какой-либо функции к набору данных, например, функции извлечения квадратного корня.

Процесс скоринга состоит из двух основных этапов:

  1. Построение модели и ее сохранение в файле. Модель строится с использованием набора данных, для которого известны значения интересующей переменной (часто называемой целевой). Например, если необходимо построить модель, чтобы предсказать, кто откликнется на кампанию прямой рассылки, нужно начать с набора данных, который уже содержит информацию о том, кто откликнулся, а кто нет. Например, он может быть результатом пробной рассылки небольшой группе клиентов или информацией об откликах для аналогичной кампании, проводившейся ранее.

    Примечание: Для некоторых типов моделей целевая переменная отсутствует. Например, модели кластеризации и некоторые модели ближайшего сходства не имеют целевой переменной.

  2. Применение построенной модели к другому набору данных (для которого неизвестны значения целевой переменной), чтобы получить прогнозные значения целевой переменной.