Пример розничного Интернет-магазина - начальный сбор данных
Сценарий поиска в Web с использованием CRISP-DM
В этом примере розничный интернет-магазин использует несколько важных источников данных, в том числе:
Веб-журналы. Журналы непосредственного доступа содержат всю информацию о путях и способах навигации покупателей по сайту. Ссылки на файлы изображений и другие неинформативные записи в веб-журналах в процессе подготовки данных потребуется удалить.
Данные покупок. При передаче покупателем заказа сохраняется вся относящаяся к этому заказу информация. Заказы в базе данных покупок должны быть отображены на соответствующие сеансы в веб-журналах.
База данных продуктов. Атрибуты продуктов могут быть полезны при определении "связанных" продуктов. Информация о продуктах должна быть отображена на соответствующие заказы.
База данных покупателей. Эта база данных содержит добавочную информацию от зарегистрированных покупателей. Эти записи далеко не полные, поскольку многие покупатели не заполняют анкеты. Информация о покупателях должна быть отображена на соответствующие покупки и сеансы в веб-журналах.
В настоящее время у компании нет планов на приобретение внешних баз данных и денежные затраты на проведение опросов, поскольку ее аналитики заняты данными, которые есть у компании на текущий момент. Однако в какой-то момент компания может решить рассмотреть расширенное внедрение результатов, и тогда приобретение дополнительных демографических данных для незарегистрированных покупателей может стать весьма полезным. Может также оказаться полезной демографическая информация для понимания отличия базы покупателей розничного интернет-магазина от среднего покупателя через Интернет.