Содержание


Изучаем платформу расширенной аналитики

Часть 1. Поддержка бизнес-требований с использованием больших данных и расширенной аналитики

Откройте для себя характеристики и основные компоненты расширенной аналитики

Серия контента:

Этот контент является частью # из серии # статей: Изучаем платформу расширенной аналитики

Следите за выходом новых статей этой серии.

Этот контент является частью серии:Изучаем платформу расширенной аналитики

Следите за выходом новых статей этой серии.

Расширенная аналитика – популярная тема для обсуждения среди руководителей компаний. В соответствии с результатами исследований Эндрю Макафи (Andrew McAfee) и Эрика Бринджолфсона (Erik Brynjolfsson) из Массачусетского технологического института, компании, которые вовлекают большие данные и аналитику в свой деловой процесс, показывают рост производительности и рентабельности на 5% - 6% выше, чем их конкуренты (см. раздел Ресурсы).

Внедрение успешных решений для расширенной аналитики остается искусством, учитывая разнообразие соответствующих продуктов и конкурентных требований.

Цель предлагаемой серии статей – помочь пользователям понять необходимость применения расширенной аналитической платформы внутри компании и представить подходы к проектированию такой платформы. В ряде примеров и требований представлена платформа расширенной аналитики (Advanced Analytics Platform) - архитектура для реализации расширенной аналитики для больших данных. Предлагаемая серия статей также представляет ряд шаблонов проектирования. Каждый из шаблонов предоставляет законченное решение для некоторой бизнес-задачи; вместе с тем предложенные компоненты можно использовать вместе при построении полного корпоративного бизнес-решения.

Платформа AAP прошла ряд этапов развития, на каждом из которых происходил поиск решения для конкретной критически важной бизнес-задачи. Каждый из упомянутых этапов сопровождался практическими испытаниями архитектуры на нефункциональных требованиях и требовал уникальной комбинации используемых продуктов. Первые две статьи описывают мотивацию использования платформы и устанавливают основные определения, включая движущие факторы, примеры использования и архитектурные компоненты. Следующие четыре статьи представляют детали архитектурных шаблонов, причем каждая статья описывает некоторый шаблон и разбирает примеры использования, ключевые компоненты архитектуры, архитектурные и технические соображения и подробности реализации. Последние две статьи охватывают общие вопросы, связанные с управлением и дизайном инфраструктуры.

Большие данные приводят к расширенной аналитике

Основным движущим фактором для расширенной аналитической платформы является широкое распространение больших данных. Благодаря сочетанию автоматизации, вовлечения пользователей и информационных потоков с на рыночных площадок большие данные становятся общедоступными и занимают свое место в ряде жизненно важных моделей использования, которые радикально меняют рынки (см. комментарии Арвинда Сатхи (Arvind Sathi) про анализ больших данных и прорывные технологии в разделе Ресурсы).

Некоторые примеры больших данных:

  • Тексты социальных медиа-ресурсов: большое разнообразие данных, включающих структурированные данные, тексты и медиа-контент, находящиеся на различных социальных медиа-сайтах. Эти данные содержат информацию, которую любой бизнес может обрабатывать для поиска новых ценных идей.
  • Информация от сотовых телефонов: в настоящее время более 5 млрд. сотовых телефонов предоставляют полезную информацию, такую, например, как местоположение владельца, характер использования телефона, компоненты телефона.
  • Информация о нажатиях кнопок пультов от телевизионных приставок: взаимодействие пользователя с приставкой предоставляет информацию об интересах пользователя и может стать основой для предложения пользователю более интересного медиа-контента.
  • Сделки: большое количество устройств, таких, как кредитные карты, мобильные кошельки и т.д., - записывают информацию о сделках, облегчая совершение подобных сделок в безналичной форме для приобретения товаров и услуг и сохраняя данные о таких сделках для последующего исторического анализа.
  • Просмотр и поиск Web-страниц: большинство Интернет-сайтов сохраняет информацию о просмотре и поиске страниц пользователем в журналы, но лишь некоторые из них анализируют эту информацию с целью получения лучшего представления о пользователях сайта и формирования подходов к улучшению содержания сайта.
  • Документация: такие документы, как заявления, страховые формы, медицинские записи, просто переписка с клиентами, можно анализировать для извлечения существенной информации и ее последующего изучения.
  • Интернет вещей: Интернет вещей порождает большой объем и разнообразие данных из различных источников, включая электронные книги, транспортные средства, видеоигры, коммутаторы каналов связи, домашнюю технику. Компании могут получить ценную информацию, собирая, сравнивая и анализируя эту информацию.
  • События в коммуникационных сетях: на телекоммуникационные сети сильно влияют взаимодействия подключенных к сети абонентов. Результатом таких взаимодействий является необходимость мониторинга больших объемов данных и быстрого реагирования на возникающие изменения.
  • Записи о вызовах (CDR): анализ CDR позволяет определить различные привычки клиентов и их социальные связи, что в свою очередь, позволяет улучшить для них качество сервиса.
  • Метки радиочастотной идентификации RFID: RFID-метки широко проникли в нашу жизнь, но содержащиеся в них огромные массивы данных часто игнорируются и не анализируются.
  • Данные дорожного движения: датчики в составе дорожной инфраструктуры, видеокамеры, данные с автомобилей в последнее время используются как источники информации для изучения дорожной ситуации. Для предотвращения пробок эти данные необходимо быстро анализировать.
  • Информация о погоде: информацию о погоде сегодня коррелируют со многими другими большими источниками информации в области продаж, маркетинга, продуктов. Такой анализ может позволить компаниям продвигать свои продукты более эффективно и сократить расходы.

Чем большие данные отличаются от других данных, с которыми вам приходилось иметь дело раньше? Большие данные можно охарактеризовать четырьмя признаками на букву "V": объем (Volume), скорость (Velocity), разнообразие (Variety), достоверность (Veracity).

Объем (Volume): большинство организаций уже столкнулись с увеличением размера своих баз данных после того, как цунами из данных достигло хранилищ данных. По информации журнала Fortune, за весь период до 2003 года человечеством было создано 5 экзабайт цифровых данных. В 2011 году такое же количество данных создавалось каждые два дня. К 2013 году этот период времени, как ожидалось, должен было сократиться до 10 минут (см. статью Fortune о данных в разделе Ресурсы).

Десять лет назад организации, как правило, измеряли объем хранилищ данных для аналитики в терабайтах. Теперь они используют приложения, требующие хранения петабайт данных. Эти данные ложатся тяжелым грузом на инфраструктуру аналитики во многих отраслях. Для поставщика услуг связи (CSP) со 100 млн. клиентов ежедневные данные о местоположении клиентов могут составить около 50 терабайт, что при хранении данных их в течение 100 дней потребует около 5 петабайт хранилища. Для CSP со 100 миллионами абонентов объем данных CDR может легко превысить 5 миллиардов записей в день. По состоянию на 2010 год компания AT&T имела в своей базе данных 193 триллиона CDR. (Подробную информацию о 10 крупнейших базах данных в мире можно найти в разделе Ресурсы).

Большинство организаций не используют большие данные, поскольку не имеют возможностей для хранения и анализа больших объемов данных.

Скорость (Velocity): двумя основными аспектами, связанными с понятием "скорость" являются пропускная способность и латентность. Пропускная способность характеризует "трубу", по которой движутся данные. Например, размер данных мобильных приложений растет на 78% и ожидается, что он достигнет 10,8 экзабайт в месяц к 2016 году за счет того, что пользователи публикуют все большие объемы изображений и видеофайлов. (См. Statshot в разделе Ресурсы).

Чтобы анализировать такие данные, корпоративная инфраструктура аналитических приложений находится в поиске "труб" все больших размеров и перехода к вычислениям с массовым параллелизмом.

Латентность (Latency) является второй мерой скорости. В прошлом аналитика использовалась в режиме "сохранить и построить отчет", причем зачастую отчет содержал вчерашние данные (что называется, "сегодня минус один день"). Сегодня аналитика все чаще интегрируется в бизнес-приложения, использующие "данные в движении" с минимальной задержкой. Так, например, компания Turn (www.turn.com) формирует аналитику за 10 миллисекунд для размещения рекламы на рекламных площадках в онлайновом режиме (см. статью Кейт Мэддокс (Kate Maddox) в разделе Ресурсы.)

Разнообразие (Variety): в 1990-е годы, когда технология хранилищ данных только появилась, изначальной идеей было создание метамодели для представления всех данных в одном стандартном формате. Данные могли поступать из различных источников и трансформироваться в режиме ETL (извлечение, преобразование, загрузка) ELT (извлечение данных и их загрузка в хранилище, последующее преобразование данных внутри хранилища). Основными предпосылками были малое разнообразие и изначальная структурированность контента. Большие данные расширили горизонты благодаря новым технологиям интеграции и анализа данных. Существует ряд аналитических решений для колл-центров, ориентированных на анализ разговоров в колл-центрах и их соотнесение с сообщениями электронной почты, заявками пользователей и социальными медиа-блогами. Исходные данные включают неструктурированный текст, звук и видео в дополнение к структурированных данным. Ряд других приложений собирают данные из электронных писем, документов и блогов. Примером базовой технологии для таких приложений является платформа IBM® InfoSphere® Streams. InfoSphere Streams работает с различными источниками для формирования аналитики реального времени и поддержки принятия решений, включая медицинские решения для неонатальной диагностики, обработку сейсмических данных, записи CDR, события в телекоммуникационных сетях, метки RFID, данные о трафике, информацию о погоде, записи журналов мэйнфреймов, голосовые сообщения на многих языках, видеофайлы.

Достоверность (Veracity): в отличие от тщательно регулируемых внутренних данных, большая часть больших данных получается из внешних источников, не находящихся под вашим контролем, поэтому страдает отсутствием достоверности и точности. Достоверность характеризует как доверие к источникам данных, так и пригодность данных для целевой аудитории. Начать рекомендуется с доверия источникам данных. Представим, что организация собирает информацию о продуктах от третьих сторон и использует ее для поддержки запросов клиентов сотрудниками своего контакт-центра. Собранные данные необходимо проверять для обеспечения точности и достоверности. В противном случае контакт-центр может начать рекомендовать конкурирующие предложения, что усилит конкуренцию и уменьшит возможности для получения прибыли. Источником реакции или кампании в социальных медиа могут оказаться несколько недовольных сотрудников или лица, специально нанятые для отправки негативных комментариев. Например, интернет-пользователи, как правило, предполагают, что "лайк" на продукте означает удовлетворенность качеством. Как быть, если этот "лайк" появляется просто за вознаграждение? (См. статью Бена Грабба (Ben Grubb) по поводу купленных "лайков" в разделе Ресурсы.)

Также нужно думать об уровне аудитории и о том, сколько информации можно предоставить определенной аудитории. Можно не сомневаться в достоверности данных, сформированных внутри организации. Однако многие внутренние данные не должны быть доступны для широкого доступа. Например, если служба поддержки клиентов передала инженерам информацию об откликах клиентов, касающихся недостатков продукции, эти данные следует публиковать выборочно – только в соответствии со служебной необходимостью. Другие данные могут быть доступны только клиентам, которые имеют действующие контракты или удовлетворяют другим предварительным требованиям.

Эти четыре фактора создают серьезные сложности для существующих аналитических решений, разработанных для анализа небольших объемов тщательно спланированных, структурированных данных в режиме "вчерашнего дня".

Потребность в расширенной аналитической платформе

ИТ-подразделения во всех крупных корпорациях сталкиваются с необходимостью принятия нескольких важных архитектурных решений.

  • Во-первых, существующая архитектура с большим количеством профессионалов, которые заботятся о существующей аналитической платформе и поддерживают ее, серьезно ограничивается растущей потребностью удовлетворять условия четырех V и надвигающимся цунами больших данных. Продолжение инвестиций в существующую инфраструктуру для поддержания новых требований становится уже невозможным.
  • Во-вторых, по мере того, как участники рынка ищут новые пути создания организаций, управляемых аналитикой, эти они порождают огромные изменения в подходах к маркетингу, продажам, операционной деятельности, управлению доходами. "Умные" потребители, новые конкуренты и "умные" поставщики побуждают организации к ускоренному внедрению расширенной аналитики во всех основных деловых процессах.
  • В-третьих, новые платформы для массивно – параллельных вычислений (Massively Parallel Processing - MPP), технологии с открытым кодом, облачные технологии быстро меняют процессы разработки, интеграции и внедрения новых архитектурных компонентов.

Платформа AAP создавалась в соответствии с этими архитектурными требованиями с учетом следующих положений:

  • Она интегрируется с существующей аналитической архитектурой и использует ее зрелую функциональность, которой по-прежнему необходимы существующие хранилища и средства формирования структурированной отчетности. Эта интеграция включает такие важные функции, как финансовая отчетность, операционный менеджмент, управление кадрами, среды поддержки принятия решений. Большинство организаций имеют сложившиеся потоки данных, аналитические системы и среды поддержки принятия решений. Эти среды будут постепенно меняться, но радикальные изменения требуют времени и инвестиций и могут быть неоптимальными с точки зрения окупаемости.
  • Она добавляет архитектуру больших данных, которая использует ключевые справочные данные совместно с существующей средой и обеспечивает необходимое расширение для работы с частично структурированными и неструктурированными данными. Она также облегчает комплексные исследования, прогнозное моделирование и создание механизмов подготовки решений на основе знаний, полученных с помощью расширенной аналитики.
  • Она добавляет необходимый слой обработки в реальном времени, обладающий адаптивностью за счет использования компонентов описательного и прогнозного моделирования и обеспечивающий принятие решений за секунды или миллисекунды в соответствии с требованиями бизнеса.
  • Она использует множество программных интерфейсов для предоставления доступа к данным и результатам анализа внешним потребителям: деловым партнерам, клиентам и поставщикам.

Архитектура и состав платформы расширенной аналитики

Платформа AAP включает в себя следующие архитектурные компоненты:

Потоковая обработка (Stream processing): это массивно-параллельное (MPP) аналитическое приложение реального времени, обрабатывающее потоковые данные. Рассмотрим пример организации "умной" рекламной кампании на основе информации о пространственном положении субъекта. Мобильные устройства генерируют миллиарды операций в сутки, и необходимо сформировать активность в то время, когда клиент находится рядом с магазином. Обработка потока данных производится с помощью трех подкомпонент.

  • Средства получения, идентификации и упорядочивания входящих потоков данных. Эти возможности сопоставляют входящие операционные данные с определенными клиентами или событиями и объединяют информацию о транзакциях по ним для идентификации контекста и поведения пользователя.
  • Средства для категоризации, подсчета и выделения целевых объектов. Эти возможности обеспечивают привязку к исходным данным существенных атрибутов в реальном времени. Например, "более двух непринятых звонков в час" или "пользователь, который прошел на сайт по рекламной ссылке и совершил покупку". Эти функции используют ряд динамических параметров, которые непрерывно обновляются на основе глубокого анализа данных об истории событий. Так, например, данные об истории событий могут помочь обнаружить, что вероятность оттока клиентов увеличивается после двух непринятых звонков от них.
  • Средства оценки и принятия решений. Можно построить множество оценочных (скоринговых) моделей на основе предсказательного моделирования, опирающегося на данные об истории событий. Такие модели могут давать оценки в реальном времени с использованием потоковых данных и использоваться для принятия решений. Кроме того, механизмы реального времени, получающие наборы правил из системы управления бизнес-правилами (Business Rule Management System – BRMS), позволяют реализовать сложные деревья решений и стратегии, основанные на правилах.

Предсказательное моделирование: механизм статистического моделирования создает ряд моделей, анализируя данные об истории событий. Далее эти модели развертываются и проверяются на успешность прогнозирования, после чего неудачные модели заменяются более успешными. Компонент построения моделей обеспечивает создание моделей на основе исторических данных. Такие модели могут исполняться в пакетном режиме или в реальном времени на потоковых данных. Результаты выполнения моделей могут использоваться компонентом итоговой оптимизации для сравнения результатов, полученных разными моделями, и отбора наиболее удачных. Модуль прогнозного моделирования может постоянно создавать сотни прогнозных моделей, непрерывно сверять их с реальными процессами и оптимизировать эти модели для получения оптимальных результатов.

Аналитический компонент: Массивно-параллельное хранилище данных (внутри аналитического компонента) может также исполнять расширенные запросы, что позволяет строить прогнозные модели и визуализировать данные внутри самого аналитического механизма. Сохраненные данные, как правило, имеют слишком большой размер, чтобы передавать их во внешние средства прогнозного моделирования или визуализации. Аналитический механизм выполняет эти функции на основе инструкций, которые даются инструментами прогнозного моделирования и визуализации. Эти инструкции транслируются в нативные функции (например, SQL-запросы), которые выполняются специализированной вычислительной MPP-средой, ориентированной на работу с большими объемами данных. Аналитические компоненты выполняют типовые функции для ELT (обработка загруженных данных на основе преобразований), исполняют прогнозные модели, формируют отчеты и выполняют другие процессы обработки данных (например, геопространственный анализ).

Поиск закономерностей (Discovery): эти инструменты работают с разнообразными данными и ищут качественные или количественные закономерности. Инструменты поиска закономерностей включают в себя инструменты для обычного или специального поиска по неструктурированным данным. Сюда же относятся специализированные инструменты для машинного обучения в целях распознавания закономерностей, а также онтологии, позволяющие учитывать специфику различных предметных областей. По мере развития "взрыва" больших данных эти инструменты были значительно усовершенствованы в части количественного анализа неструктурированных данных, таких как данные блогов в социальных медиа. Результаты анализа могут включать количественные оценки данных, которые передаются в аналитический механизм для дальнейшего анализа, обработки или использования. Они также могут использоваться для построения аналитических отчетов, таких как семантические схемы или геопространственная визуализация.

Визуализация (Visualization): Сообщество аналитиков использует компоненту визуализации для представления результатов анализа в различных формах. Эта компонента включает в себя структурированные отчеты, информационные панели, геопространственное и семантическое представление информации или результатов моделирования. Технологии визуализации предоставляют существенные интерактивные возможности, позволяя аналитику детализировать данные на более мелкие компоненты на основе заранее настроенных или получаемых "на лету" параметров.

Распределенная файловая система Hadoop (Hadoop Distributed File System) /Общая параллельная файловая система (General Parallel File System): Параллельно с большими данными развивалась файловая система Hadoop Distributed File System (HDFS) - механизм хранения данных без использования указателей с открытым исходным кодом, поддерживаемый целым рядом поставщиков ИТ-решений, включая IBM. Ценность HDFS состоит в возможности использования MPP-архитектуры для хранения данных с избыточностью во множестве типовых процессов и использовать параллельную инфраструктуру для выполнения сложных запросов, включая высокоэффективный анализ неструктурированных данных. HDFS является серьезной альтернативой структурированным хранилищам данных в части хранения, поиска и анализа больших данных. IBM сейчас работает над созданием высокопроизводительной платформы для управления файлами, которая называется GPFS и является альтернативой HDFS.

Интеграция и управление данными (Data integration and governance): Обсуждаемая архитектура предлагает ряд специализированных хранилищ данных для данных реального времени, структурированных и неструктурированных данных. Необходим интегрированный набор инструментов для интеграции данных в этой разнообразной архитектуре и управления ключевыми предметными областями. Стандартные функции управления метаданными, управления жизненным циклом данных, управления конфиденциальностью данных, качеством данных необходимо приспособить для работы с гибридной архитектурой.

Диаграмма на рисунке 1 описывает высокоуровневую архитектуру построения платформы расширенной аналитики из перечисленных компонент. Детальное описание компонент будет приведено в будущих статьях.

Рисунок 1. Платформа расширенной аналитики
Платформа расширенной аналитики
Платформа расширенной аналитики

Что отличает эти компоненты?

Когда вы работаете с большими данными, некоторые термины могут быть иметь не то значение, к которому вы привыкли. Некоторые примеры приведены в этом разделе; во всех остальных статьях этой серии будут использоваться термины, определенные ниже.

Отчетность и понимание. Многие уверены, что отчеты являются ключевым механизмом понимания данных. Формирование отчетов действительно является первой задачей для любой аналитической системы, но определенно не последней. Отчетность часто дополняют различными визуальными представлениями, включая геопространственную визуализацию и построение новых семантических моделей. Этот путь поможет вам получить более глубокое понимание и достичь нового уровня абстрагирования данных. Понимание может простираться от моделей поведения мобильных пользователей до детального сегментирования. По мере достижения новых уровней понимания вы добавляете в свое представление новые выявленные закономерности. Такой анализ закономерностей, ведущий к более глубокому пониманию, является важнейшим фактором эффективного использования больших данных для преобразования бизнеса.

Источники и интеграция данных (Sources of data and data integration). Само по себе наличие данных еще не означает, что вы можете начать применять к ним аналитические инструменты. Часто данные необходимо извлечь, очистить и преобразовать (extract, cleanse, and transform - ETL) данные перед тем, как к ним можно будет эффективно применить аналитический инструментарий. Помимо выполнения ETL-процедур, важно интегрировать информацию из множества источников, чтобы аналитические инструменты смогли выявить ключевые закономерности. Такая интеграция особенно важна с учетом широкого разнообразия доступных сегодня источников информации. Подразделения компаний ежедневно создают свои внутренние данные, включающие информацию датчиков, сетей и транзакций, относящуюся к работе подразделения. Предприятия создают информацию о взаиморасчетах, клиентах и маркетинговых событиях, которая существенна для эффективной работы предприятия в целом. Внешняя информация, порождаемая социальными сетями или покупаемая у независимых источников, также часто становится жизненно важной. Эти различные источники данных, которые зачастую сложно коррелировать, необходимо интегрировать, чтобы достичь недоступных сегодня уровней понимания.

Компромисс между задержкой во времени и необходимостью ретроспективного анализа. Временные задержки, связанные с данными, часто оказывают решающее влияние на возможность анализа данных и на роль результатов анализа в принятии решений. Часто считают, что если увеличить скорость сбора данных за счет оптимизации аппаратных и программных средств, это может позволить перейти от ретроспективного анализа к анализу в реальном времени. Ретроспективный анализ в реальном времени часто невозможен по целому ряду причин, среди которых отсутствие доступа к критическим данным в синхронном режиме в нужный момент, непригодность используемых инструментов для анализа в реальном времени, необходимость динамических изменений модели, лежащих за пределами возможностей используемых инструментов для ретроспективного анализа данных. Отчасти это связано с тем, что аналитика реального времени создает дополнительные сложности, такие как необходимость изменения правил и моделей по мере выявления новых закономерностей. К тому же анализ в реальном времени может оказаться более дорогим по сравнению с ретроспективным анализом, что ведет к необходимости анализа окупаемости инвестиций, чтобы обосновать такие дополнительные расходы.

Достоверность и управление данными. Как уже упоминалось, достоверность описывает как доверие к источнику данных, так и пригодность этих данных для целевой аудитории. Управление имеет дело с такими задачами, как, например: “как очистить и использовать данные”, “как обеспечить защищенность данных, одновременно позволив пользователям воспользоваться содержащейся в них информацией”, “как определить источник истинной информации при использовании информации из нескольких информационных потоков”. В большинстве ситуаций данные представляют собой смесь очищенных доверенных данных и “сырой” информации с невысоким уровнем доверия. Одной из важнейших проблем является реализация управления данными в такой ситуации.

Выводы

Статья представляет ряд рыночных факторов, обусловливающих распространение больших данных, и описывает появление Платформы расширенной аналитики в ответ на эти факторы. Большие данные породили значительные требования к масштабированию аналитической архитектуры с учетом факторов высокой скорости, большого объема, большого разнообразия и одновременно высокой достоверности. В настоящее время не существует единого инструмента, который мог бы справиться с этими разнообразными требованиями. В результате появилось множество гибридных архитектур. Платформа расширенной аналитики развивалась в ходе практических экспериментов и обеспечивает необходимые возможности по работе с большими данными. Приведено краткое описание платформы и ее компонентов, включая потоковую обработку, предсказательное моделирование, средства аналитики, обнаружение закономерностей, HDFS, визуализацию, интеграцию данных, управление данными.

В следующей статье мы проиллюстрируем использование описанной архитектуры на ряде практических примеров из различных отраслей. Мы сосредоточимся на нефункциональных требованиях и рассмотрим, как предлагаемая архитектура способна удовлетворить эти требования.


Ресурсы для скачивания


Похожие темы

static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=40
Zone=Information Management
ArticleID=984231
ArticleTitle=Изучаем платформу расширенной аналитики: Часть 1. Поддержка бизнес-требований с использованием больших данных и расширенной аналитики
publish-date=09252014