Прогнозирование будущего: Часть 1. Что такое прогностический анализ?

Прогностический анализ можно использовать для решения самых сложных проблем. Он помогает выявлять закономерности в прошлом, которые могут указывать на то, что ожидает впереди. Это первая часть цикла из четырех статей, посвященных прогностическому анализу. Он начинается с обзора анализа в целом, а затем переходит к анализу на основе данных в противоположность применению бизнес-правил и экспертных знаний. Оба типа знаний могут повысить качество принимаемых решений. Прогностический анализ помогает обнаруживать скрытые закономерности в данных, которых мог не заметить эксперт. На самом деле это результат применения математики к данным. Таким образом, вы получаете выгоды от рациональных математических методов, а также от качественных данных. Эта статья поможет вам найти свои собственные приложения прогностического анализа, который применим к самым разным наборам данных в различных отраслях хозяйства и областях знаний.

Алекс Гуаццелли, вице-президент по статистическому анализу, Zementis, Inc.

Фото Алекса ГуаццеллиДоктор Алекс Гуаццелли (Alex Guazzelli) работает вице-президентом по статистическому анализу компании Zementis и отвечает за разработку ключевой технологии и прогностических решений ADAPA, платформы принятия решений на базе PMML. Имеет более чем 20-летний опыт работы в области прогностического анализа, получил степень доктора информатики в университете Южной Калифорнии и является соавтором книги PMML в действии: использование открытых стандартов для интеллектуального анализа данных и прогностического анализа, которая в настоящее время выходит во втором издании.



01.10.2012

Об этом цикле статей

Это первая часть цикла из четырех статей, посвященных прогностическому анализу. Она дает общее представление о прогностическом анализе. Вторая часть будет посвящена методам прогностического моделирования, которые представляют собой математические алгоритмы, составляющие ядро прогностического анализа. Затем, в третьей части, эти методы применяются для создания и описания прогнозного решения. Наконец, четвертая часть посвящена внедрению прогностического анализа, то есть процессу перехода к практическому применению прогностических решений.

Читайте стенограмму видеозаписи.


Введение в бизнес-анализ

Мы живем в постоянно расширяющемся море данных. Для безопасной навигации по нему используются аналитические методы. Без них мы бы просто утонули, не зная, что происходит и что ждет впереди. В этой статье мы сосредоточимся на знаниях, полученных от анализа, которые можно классифицировать как описательные или прогностические. Если описательный анализ позволяет узнать, что происходило в прошлом, то прогностический фокусируется на том, что будет.

Потребность понять события прошлого привела к появлению дисциплины, которую теперь называют бизнес-анализом. Он позволяет принимать решения, основанные на статистике, полученной из исторических данных. Например:

  1. Сколько клиентов перешли к другим поставщикам или исчезли за счет естественной убыли в течение последних шести недель?
  2. Сколько денег было потеряно из-за мошенничества за последние три месяца?
  3. Как часто подаются заявки в службу поддержки?
  4. Где располагаются клиенты (можно показать на карте Google)?

Описательный анализ прошел долгий путь, чтобы позволить принимать взвешенные деловые решения, основанные на фактах, а не на чувствах. Однако одного описательного анализа недостаточно. Мы живем в обществе, где необходимо принимать очень точные и воспроизводимые решения. Для этого компании используют прогностический анализ, предсказывающий будущее, и с его помощью ищут рациональные бизнес-решения и процессы.

Как дисциплина, прогностический анализ существует многие десятилетия. Это горячая тема, обсуждаемая в научных кругах на протяжении многих лет, и ее значение для отрасли возрастает вместе с объемом данных, получаемых от людей (например, из онлайн-транзакций и социальных сетей) и от датчиков (мобильных GPS-устройств и т.п.), а также с появлением недорогих вычислительных ресурсов, будь то облако или Hadoop.


Анализ на основе данных и на основе экспертных знаний

Интересно рассмотреть сами знания и способ их передачи и использования. Традиционно мы прибегали к помощи экспертов, которые помогали получить максимальную отдачу от конкретного процесса. Экспертные знания основываются на опыте и используются в повседневной деятельности любой компании. Если перевести экспертные знания в набор бизнес-правил, можно создать системы принятия решений на основе правил для автоматического применения знаний, накопленных экспертами. IBM ILOG ― яркий пример системы, которая переводит экспертные знания в набор инструкций типа ЕСЛИ-TО, которые мы можно непосредственно применять к делу.

С другой стороны, знания, управляемые данными, как предполагает само название, основываются на данных — как правило, большом их количестве. Несколько десятилетий назад появился ряд статистических методов для выявления моделей данных, обычно скрытых от человеческого глаза. Учитывая, что сегодня мы получаем все больше данных, такие методы становятся необходимыми для извлечения пользы из данных, делая процессы повторяемыми и точными.

Это хорошо показано в кинофильме «Человек, который изменил всё» (англ. Moneyball). В этом фильме группа опытных агентов по вербовке предлагает свои знания и интуицию для подбора игроков в бейсбольную команду. Им противостоит подход на основе данных, при котором знания извлекается из уже имеющихся сведений по каждому игроку, и команда набирается на основе этого подхода. Хотя в фильме один тип знаний противопоставляется другому, в большинстве случаев, экспертные знания и знания на основе данных используются вместе.

Анализ позволяет получать полезную статистику, прогнозы и оценки. Однако решение о том, как применять знания, полученные на основе данных, должна принимать система, основанная на правилах. Например, можно использовать ряд правил для принятия бизнес-решений в зависимости от вывода, полученного от прогностической модели. Так, если существует модель, предсказывающая риск оттока клиентов, можно ввести в действие правила для его уменьшения, чтобы найти конкретные бизнес-решения с учетом различных уровней риска. Если риск высок, можно предоставить клиенту 20%-ю скидку, а если очень высок, то и 50%-ю.


Что такое прогностическая модель?

Прогностическая модель – это просто математическая функция, которую можно обучить преобразованию набора входных переменных, обычно собранных в записи, в результат, или целевую переменную.

Такое обучение называется управляемым, потому что в процессе обучения в прогностическую модель вводятся данные вместе с желаемым выходом, или результатом. Обучение повторяется до тех пор, пока модель не научится получать желаемый результат из входных данных. Примерами прогностических моделей с использованием управляемого обучения служат нейронные сети с обратным распространением ошибки обучения, метод опорных векторов и деревья решений. Для прогностической модели может использоваться и неуправляемое обучение. В этом случае в нее вводятся только входные данные. Затем задача модели ― выяснить, как различные записи входных данных соотносятся друг с другом. Наиболее популярным типом прогностических моделей является кластеризация, для которой используется неуправляемое обучение.

Допустим, что нужно создать прогностическую модель, которая в состоянии сказать, кто из ваших клиентов, скорее всего, перейдет к другому поставщику (кандидаты на 20%- или 50%-ю скидку). Сначала вы обращаетесь к своим историческим данным в поисках признаков, которые можно использовать для построения такой модели. Просматривая базу данных, можно составить список параметров, связанных с оттоком как существующих клиентов, так и тех, которые уже ушли. Это может быть количество жалоб за последние шесть месяцев, количество обращений за поддержкой за последние четыре недели, частота и сумма покупок товаров или услуг (в онлайне или в магазине), а также общие сведения, такие как возраст, пол и демографические данные. На рисунке 1 показаны два таких клиента и параметры каждого из них. Клиент 1 ― существующий клиент, который, похоже, удовлетворен. Однако клиент 2 был потерян.

Рисунок 1. Двое клиентов и их входные параметры.
Двое клиентов и их входные параметры. Клиент 1 - текущий клиент, клиент 2 уже потерян

При управляемом обучении, как показано на рисунке 2, в процессе обучения в метод прогностического анализа вводятся все данные о клиентах. В этом случае входные данные содержат все выявленные параметры (связанные с удовлетворенностью, демографические данные и т.д.) для каждого клиента, а также соответствующие результаты. Результат указывает прогностической модели, какому клиенту соответствует данная запись ― тому, что ушел или тому, что остался. Суть в том, что модель может усвоить шаблоны, или различия между двумя группами: существующих клиентов и клиентов, которые ушли.

Рисунок 2. В процессе обучения в прогностическую модель вводятся данные о клиентах, содержащие входные параметры и результат
В процессе обучения в прогностическую модель вводятся данные о клиентах, содержащие входные параметры и результат

После построения прогностической модели ее нужно проверить. Проверка должна ответить на два вопроса: "Работает ли модель?" и если да, то "Насколько она точна?" Если ответ на первый вопрос Да, а на второй ― Очень точна, значит модель работает и может хорошо обобщать данные. Остается только применять ее. Для этого модель необходимо внедрить. К счастью, существует стандарт PMML (Predictive Model Markup Language - язык разметки прогностических моделей), который позволяет легко переносить прогностические модели с одной системы на другую. Благодаря PMML можно использовать такое приложение, как IBM SPSS Statistics, для построения и проверки прогностической модели, которая затем сохраняется в PMML-файле. Этот файл можно непосредственно загрузить в механизм оценки, такой как Zementis ADAPA, где он будет готов к применению в режиме реального времени. Дополнительные сведения о PMML и описанных здесь технологиях можно почерпнуть в разделе ресурсы.

После внедрения отработанную модель можно использовать для мониторинга всех существующих клиентов. Хорошая прогностическая модель способна обобщать знания для вычисления риска оттока даже для тех клиентов, которые никогда не встречались прежде. На рисунке 3 показаны данные одного такого клиента, определенного как клиент №3, которые вводятся в нашу модель оттока клиентов. Если модель определяет появление шаблона оттока клиентов для определенного клиента, она будет указывать на повышенный риск для него до тех пор, пока не будет принято бизнес-решение. Когда конкретный клиент вновь будет удовлетворен продуктами и услугами компании, риск уменьшится, так как шаблон оттока клиентов исчезнет.

Рисунок 3. После внедрения вновь созданная модель используется для оценки риска оттока новых и существующих клиентов. Если обнаружен высокий риск оттока клиентов, можно принять меры для его снижения.
После внедрения вновь созданная модель используется для оценки риска оттока новых и существующих клиентов. Если обнаружен высокий риск оттока клиентов, можно принять меры для его снижения.

Важность хороших данных

Сначала я хотел назвать этот раздел «Важность данных», потому что без данных нет анализа и, в частности, прогностического анализа. За время моей работы в области анализа данных я повидал много благонамеренных деловых людей, пытавшихся найти решение прогностического анализа для своих компаний. Они знали, что прогностический анализ может помочь им поправить дела, но у них было недостаточно данных. То есть данных не хватало для того, чтобы специалист мог обучить модель, которая действительно имела бы смысл. В эпоху "больших данных" это происходит на удивление часто. Чтобы та или иная прогностическая модель могла обучиться и обобщать данные, в нее надо ввести тысячи и тысячи записей. Используя предыдущий пример, будет недостаточно сотни или около того записей, содержащих данные о потерянных клиентах. Если для обучения используется недостаточное количество данных, то модель не в состоянии обучиться или, что еще хуже, может иметь чрезмерно близкую подгонку. Это означает, что она знает все о данных, предложенных ей для обучения, но не способна обобщить эти знания, чтобы применять их к новым данным. То есть она не в состоянии прогнозировать.

Если же данных достаточно, вопрос в том, насколько они хороши. Потому что качество данных прямо отражается на качестве модели. Мягко говоря, из мусора получается только мусор!

Много лет назад мне и моей группе нужно было построить модель для прогнозирования успеха определенного производственного процесса. Он занимал примерно восемь часов и потреблял много ресурсов. Инженеры ОТК компании могли выявить брак только по завершении процесса. В этом случае вся партия забраковывалась, и нужно было начинать с нуля. Идея состояла в том, чтобы изучить данные, полученные в прошлом для всех этапов процесса по качественным деталям и браку. Затем можно обучить модель обнаруживать, что в процессе что-то пошло не так. Мы еще никогда не строили таких интересных моделей. Однако в ходе анализа данных выяснилось, что они искажены или, что еще хуже, отсутствуют для некоторых ключевых этапов производственного процесса. Еще важнее то, что мы не смогли найти результат, то есть информацию, которая позволила бы отделить хорошие партии от брака. Это означает, что методы управляемого обучения использовать нельзя. А отсутствие важных входных данных угрожало использованию неуправляемых методов.

Сами по себе данные не приводят к полезному прогнозу. Пользу приносят только качественные данные.


Приложения прогностического анализа

Приступив к изучению прогностического анализа, я получил книгу Дуда, Харта и Стока "Классификация моделей" (см. раздел Ресурсы). Эта книга теперь считается классическим руководством в этой области. В ней авторы строят систему классификации моделей на примере рыбозавода. Они использовали прогностическое решение для классификации поступающей рыбы на лососевых или окуневых в зависимости от таких особенностей, как длина и густота чешуи. В 2010 году я выступал в Сан-Хосе с докладом на конференции по прогностическому анализу Rules Fest. В докладе, озаглавленном «Следуй правилам, но прислушивайся к данным» (см. раздел Ресурсы), я использовал тот же пример, чтобы показать аудитории, ориентированной на правила, не только как решить задачу вроде этой с помощью прогностического анализа, но и как прогностический анализ может работать совместно с бизнес-правилами, повышая качество принимаемых решений. Идея, конечно, состояла в том, чтобы использовать пример, аналогичный примеру Дуда, Харта и Стока. То есть общий пример того, как создавать и применять прогностические решения, а аудитория пусть распространяет его на другие приложения. В этой статье я использую задачу об оттоке клиентов. Чтобы полученные знания можно было обобщить на множество новых приложений, я опишу и другие способы превращения нашего мира с помощью прогностического анализа в более рациональное место.

Приложение прогностического анализа, которое чрезвычайно успешно применяется на протяжении многих лет, ― выявление мошенничества. Каждый раз, когда вы проводите своей кредитной картой по считывателю или используете ее в онлайне, ваша операция, скорее всего, анализируется в режиме реального времени на предмет вероятного мошенничества. В зависимости от предполагаемого риска большинство учреждений реализуют набор бизнес-правил, которые могут даже отклонить высокорисковую транзакцию. В борьбе с преступностью прогностический анализ в первую очередь применяется для ее предупреждения.

В своей прошлой статье для developerWorks я перечислил несколько важных приложений прогностического анализа в области здравоохранения. Во главе этого списка, определенно, находится выявление мошенничества в медицине, но прогностический анализ эффективно используется и для профилактики заболеваний. Зная, какие пациенты подвергаются более высокому риску развития тех или иных болезней, можно принять превентивные меры для смягчения этого риска и в конечном итоге спасти жизни. В последнее время прогностический анализ находится в центре внимания широкой полемики об использовании исторических данных для уменьшения количества регоспитализаций (см. раздел Ресурсы).

Кроме того, компании используют прогностический анализ, чтобы рекомендовать продукты и услуги. Сегодня мы уже выросли до ожидания полезных рекомендаций кинофильмов, книг и песен от своих любимых магазинов и продавцов. Мы видим также маркетинговые кампании, которые все больше учитывают наши вкусы и предпочтения, например, на основе содержания наших электронных писем, заметок в онлайне и предметов поиска.

Другие приложения опираются на данные, получаемые от датчиков. Например, для прогнозирования интенсивности дорожного движения можно использовать данные мобильных устройств GPS. По мере того как эти системы становятся все более точными, их можно применять для выбора вида транспорта. Например, если на дорогах ожидаются пробки, можно воспользоваться метро.

Более того, наличие компактных и недорогих датчиков, сообщающих о текущем состоянии таких сооружений, как мосты и здания, и таких механизмов, как электротрансформаторы, водяные и воздушные насосы, вентили и клапаны, позволяет использовать прогностический анализ для укрепления или замены материалов или процессов, не дожидаясь начала перебоев в их работе или аварии. Использование данных, получаемых от датчиков, позволяет строить прогностические модели техобслуживания, помогая обеспечить безопасность. Вот лишь два примера крупных аварий, которые можно было предотвратить при наличии датчиков и прогностических моделей: разлив нефти в Мексиканском заливе в 2010 году и обрушение моста I-35W через Миссисипи в 2007 году.


Заключение

В постоянно расширяющемся море данных, поступающих от людей и датчиков, прогностический анализ предоставляет компаниям и гражданам важные навигационные инструменты для успешного достижения их целей. Это делается путем прогнозирования того, что должно случиться, чтобы можно было отреагировать должным образом, сохраняя наиболее точный, безопасный, повторяемый, выгодный и эффективный курс.

Использование прогностического анализа уже революционизировало наше взаимодействие с окружающей средой. С увеличением количества данных и их качества при доступности недорогих вычислительных ресурсов прогностический анализ неизбежно получит еще более широкое распространение, чем сегодня. Если вы уже определили задачи, которые планируете решать с помощью прогностического анализа, согласитесь, что предсказать это было совсем не трудно.

Ресурсы

Научиться

Получить продукты и технологии

  • IBM SPSS Statistics 20 предоставляет в ваше распоряжение всю мощь передового статистического анализа. Этот полный набор инструментов отвечает потребностям как начинающих, так и опытных статистиков.
  • ADAPA ― революционная платформа управления решениями прогностического анализа, доступная в качестве услуг в облаке или на объекте заказчика. Обеспечивает безопасную, быстродействующую и масштабируемую среду для развертывания моделей интеллектуального анализа данных и бизнес-логики и их внедрения.

Комментарии

developerWorks: Войти

Обязательные поля отмечены звездочкой (*).


Нужен IBM ID?
Забыли Ваш IBM ID?


Забыли Ваш пароль?
Изменить пароль

Нажимая Отправить, Вы принимаете Условия использования developerWorks.

 


Профиль создается, когда вы первый раз заходите в developerWorks. Информация в вашем профиле (имя, страна / регион, название компании) отображается для всех пользователей и будет сопровождать любой опубликованный вами контент пока вы специально не укажите скрыть название вашей компании. Вы можете обновить ваш IBM аккаунт в любое время.

Вся введенная информация защищена.

Выберите имя, которое будет отображаться на экране



При первом входе в developerWorks для Вас будет создан профиль и Вам нужно будет выбрать Отображаемое имя. Оно будет выводиться рядом с контентом, опубликованным Вами в developerWorks.

Отображаемое имя должно иметь длину от 3 символов до 31 символа. Ваше Имя в системе должно быть уникальным. В качестве имени по соображениям приватности нельзя использовать контактный e-mail.

Обязательные поля отмечены звездочкой (*).

(Отображаемое имя должно иметь длину от 3 символов до 31 символа.)

Нажимая Отправить, Вы принимаете Условия использования developerWorks.

 


Вся введенная информация защищена.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=40
Zone=Information Management
ArticleID=838355
ArticleTitle=Прогнозирование будущего: Часть 1. Что такое прогностический анализ?
publish-date=10012012