Система сбора и анализа первичных данных - 2

Анализ первичных данных

В первой части статьи 1 рассмотрено типовое решение для системы сбора, хранения и анализа первичных данных ручного ввода на основе IBM Forms для ручного ввода форм и IBM InfoSphere Warehouse для хранения данных. В данной работе рассмотрены варианты решений для анализа собранных данных с использованием аналитических средств IBM InfoSphere Warehouse и IBM Cognos. Предлагаемый подход может быть использован в качестве основы разнообразных решений для разных отраслей и предприятий.

Сабир Асадуллаев, исполнительный архитектор SWG IBM EE/A, IBM

Photo sabirСабир Асадуллаев более 25 лет работает в информационных технологиях. Является специалистом в области проектирования хранилищ данных и ведения корпоративных метаданных. Руководил ИТ проектами в нефтегазовой отрасли, в банковской сфере, на транспорте, в науке и других областях в Европе и в Северной Америке. Обладает опытом организации коллективной разработки программного обеспечения и создания офиса управления проектами (PMO). Работая в IBM c 2006г, подготовил ряд ключевых архитектурных решений для крупнейших клиентов IBM. Окончил физический факультет МГУ (1979), кандидат физ-мат. наук (1986), сертифицированный руководитель проектов (2001), лучший архитектор CEMAAS IBM (2006), сертифицированный архитектор корпоративных решений IBM (2008), исполнительный архитектор (2010). Автор более 30 публикаций в ИТ, астрономии и биологии.



17.02.2011

Анализ данных средствами IBM InfoSphere Warehouse

Реализация OLAP на основе Cubing Services и Alphablox

Для обеспечения прямого доступа к данным из InfoSphere Warehouse используются IBM Alphablox и компоненты Cubing Services, которые включают в себя средства моделирования метаданных OLAP кубов, оптимизатор материализованных таблиц запросов (materialized query tables, MQT) и сервер кубов для доступа к многомерным данным (Рис. 1).

Рис. 1. Реализация OLAP на основе Cubing Services и Alphablox
Реализация OLAP на основе Cubing Services и Alphablox

Благодаря полной интеграции компонентов Cubing Services с пользовательским интерфейсом InfoSphere Warehouse, проектирование выполняется с помощью Design Studio, а администрирование и поддержка осуществляется через Administration Console.

Сервер кубов Cubing Services обрабатывает многомерные запросы, выраженные на языке запросов MDX и выдает результаты многомерных запросов. В ответ на MDX запросы сервер кубов извлекает данные из DB2 посредством запросов SQL. Материализованные таблицы запросов MQT используются оптимизатором DB2, который переписывает входящие SQL запросы и направляет их к соответствующей MQT для обеспечения высокой производительности исполнения запросов.

Использование IBM Alphablox обеспечивает быстрое создание аналитических Веб- приложений, которые удовлетворяют требованиям корпоративной инфраструктуры и доступны как в интранет - сети, так и за корпоративным межсетевым экраном. Приложения Alphablox позволяют проводить многомерный анализ данных в реальном времени, используя в качестве клиента обычный браузер.

Приложения Alphablox могут работать с данными из множества источников, в том числе, DB2 и Cubing Services, создавать структурированные отчеты и предоставлять данные в требуемом виде с помощью фильтров и средств детализации данных (drill-down).

Аналитические приложения Alphablox направлены на повышение качества принятия решений и позволяют оптимизировать выполнение работ в области финансовой отчетности и аналитики, планирования, оперативного анализа, отчетности и анализа работ, анализа производительности и ключевых показателей эффективности (KPI).

Интеллектуальный анализ (data mining) данных и текста

Алгоритмы интеллектуального анализа данных, встроенные в InfoSphere Warehouse, используются для понимания поведения клиентов, или хозяйствующих субъектов. Средства выявления скрытых взаимосвязей данных (data discovery) позволяют профилировать данные, просматривать содержимое таблиц и визуализировать коррелированные статистики для выявления данных, пригодных для анализа.

InfoSphere Warehouse содержит следующие средства интеллектуального анализа:

  • Miningblox
  • Intelligent Miner Easy Mining
  • Intelligent Miner Modeling
  • Intelligent Miner Scoring
  • Intelligent Miner Visualization
  • анализ неструктурированного текста

Интеллектуальный анализ данных на основе Miningblox и Alphablox

Типичное приложение интеллектуального анализа может включать в себя следующие шаги:

  • Выбор данных для анализа
  • Начало анализа и отслеживание его продвижения
  • Просмотр результатов анализа
  • Выбор, управление или контроль заданий интеллектуального анализа

Библиотека тегов Miningblox обеспечивает теги для каждого шага и предназначена для выполнения интеллектуального анализа с использованием функций Alphablox. В этой конфигурации сервер приложений J2EE включает приложения Miningblox, Alphablox и библиотеку тегов Miningblox, приложения хранилища данных, а также консоль администрирования Administration console (Рис. 2).

Веб приложения Miningblox состоят из JSP (Java Server Pages) страниц, которые используют Alphablox и JSP библиотеку тегов Miningblox. JSP-страницы, вызывающие функции Alphablox, компилируются во время исполнения на сервере приложений. Alphablox управляет запросами, и Веб сервер возвращает динамическое содержание.

Приложение хранилища данных содержит управляющие потоки, которые вызываются Веб приложением Miningblox. Управляющие потоки содержат потоки данных и потоки интеллектуального анализа. База данных DB2 содержит данные, анализируемые потоками интеллектуального анализа, и его результаты в виде моделей данных или результирующих таблиц.

Рис. 2. Реализация интеллектуального анализа на основе MiningBlox и Alphablox
Реализация интеллектуального анализа на основе MiningBlox и Alphablox

Консоль администрирования Administration Console может быть использована для размещения и администрирования приложений хранилища данных, относящихся к приложениям Miningblox.

Design Studio применяется для визуального проектирования потоков операторов интеллектуального анализа данных, или текста, операторов предобработки и текстовых операторов. Сгенерированный SQL запрос может быть встроен в приложение Alphablox или иное приложение для вызова потока интеллектуального анализа.

Интеллектуальный анализ данных на основе Intelligent Miner

Для решения задач интеллектуального анализа данных и текста необходима разработка приложений с использованием специализированного прикладного интерфейса SQL API, который состоит из двух уровней с разной степенью детализации и абстракции.

  • прикладной интерфейс задач Easy Mining является проблемно-ориентированным и используется для выполнения базовых задач интеллектуального анализа;
  • прикладной интерфейс IM Scoring / Modeling SQL/MM API соответствует стандарту ISO/IEC 13249-6:Data Mining и позволяет создавать приложения интеллектуального анализа под конкретные индивидуальные требования пользователя. Этот интерфейс может быть использован через скрипты SQL, или из любого JDBC, CLI, ODBC, или SQLJ приложения.

Процедуры Easy Mining обеспечивают базовую функциональность типичных задач интеллектуального анализа. Для этого пользователь должен обладать знаниями о своей предметной области и не обязан глубоко разбираться в тонкостях интеллектуального анализа.

IM Scoring и IM Modeling представляют собой набор инструментальных средств разработки программ (software development kit, SDK). Они являются расширениями DB2 и включают прикладной программный интерфейс языка SQL API, который позволяет вызывать функции интеллектуального анализа из приложений.

С помощью средств моделирования IM Modeling можно использовать следующие функции для разработки аналитических моделей PMML (Predictive Model Markup Language): ассоциативные правила, правила последовательностей, кластерные модели, регрессионные модели, классификация. Созданные PMML-модели могут быть использованы в модулях IM Visualization или IM Scoring.

Средство оценивания IM Scoring позволяет прикладным программам применять PMML-модели к большим базам данных, их подмножеству, или к отдельным строкам. IM Scoring может работать со следующими PMML моделями: ассоциативные правила, правила последовательностей, кластерные модели, регрессионные модели, классификация, наивно-байесовский подход, нейронные сети, дерево решений. Модели прогнозирования, созданные с помощью Intelligent Miner for Data, не являются частью PMML. Эти модели могут быть экспортированы из IM for Data в формате XML и использованы в IM Scoring.

Результаты моделирования данных (ассоциации, последовательности, классификации, кластеризации и регрессии) могут быть просмотрены с помощью готовых Java средств визуализации IM Visualization.

Для представления результатов моделирования эти визуализаторы могут вызываться приложениями, или как апплеты браузера.

Инструмент Design Studio содержит интегрированные в среду Eclipse редакторы и визуальные средства разработки приложений интеллектуального анализа. Разработчик приложений может визуально моделировать задачи интеллектуального анализа и генерировать SQL код для включения функциональности Intelligent Miner SQL в аналитические приложения.

Для создания прототипов можно использовать расширение табличного процессора Excel, что позволяет подтвердить правильность концепции, избегая сложностей SQL API. Администраторы через Веб-интерфейс административной консоли могут настраивать базу данных для интеллектуального анализа, администрировать модели интеллектуального анализа данных, оптимизировать производительность выполнения аналитических запросов.

Анализ текста

Анализ текста позволяет извлекать бизнес информацию из истории болезни пациента, из отчета о ремонте, из текстовых полей баз данных и из записей центра обработки звонков. Эта информация может быть использована в многомерном анализе, в отчетах, или в качестве входных данных для интеллектуального анализа. Анализ текста покрывает обширную область компьютерных наук, например:

  • Автоматическая классификация документов по группам подобных документов (кластеризация, или неуправляемая классификация)
  • Автоматическая классификация документов по предопределенным категориям (управляемая классификация)
  • Извлечение структурированных данных из неструктурированного текста.

Функции анализа текста в InfoSphere Warehouse нацелены на извлечение данных, которое создает структурные данные для анализа вместе с иной структурированной информацией с помощью таких инструментов, как средства многомерного или интеллектуального анализа и подготовки отчетов.

Для анализа текстов в InfoSphere Warehouse используется программное обеспечение на основе архитектуры управления неструктурированными данными UIMA (Unstructured Information Management Architecture) 2 , которая является открытой, индустриально-ориентированной, масштабируемой и расширяемой платформой для создания интегрирования и развертывания решений анализа текста.

Функции анализа текста InfoSphere Warehouse позволяют выполнять следующие работы:

  • исследовать таблицы с текстовыми столбцами;
  • извлекать данные с применением регулярных выражений, например, телефонные номера, адреса электронной почты, идентификационные номера налогоплательщиков (ИНН), или единые указатели ресурсов (URL);
  • извлекать данные с использованием словарей и справочников, например, названия продуктов, или имена и фамилии;
  • извлекать данные с применением UIMA совместимых компонентов.

Разработка приложений интеллектуального анализа данных

Можно выбрать один из подходов к разработке приложений в зависимости от сложности задачи и от опыта, предпочтений и навыков специалиста,:

  • использовать примеры и руководства для быстрой подгонки кода под свои задачи.
  • использовать графический интерфейс пакета Design Studio для определения процесса анализа. Сгенерировать код и интегрировать его в прикладную программу. Включить этапы интеллектуального анализа в процесс автоматизированного преобразования данных.
  • использовать процедуры Easy Mining для базовой функциональности типичных задач интеллектуального анализа.
  • использовать генератор скриптов командной строки idmmkSQL в качестве отправной точки для создания операторов оценивания (Scoring).
  • использовать мощный низкоуровневый прикладной интерфейс SQL/MM API из SQL скриптов или из любого приложения JDBC, CLI, ODBC, или SQLJ.

На Рис.3 представлен типичный сценарий использования Intelligent Miner для выполнения задач интеллектуального анализа данных. Разработчик приложений интегрирует SQL функциональность Intelligent Miner в прикладные программы с помощью инструментальных средств разработки Design Studio. Аналитик применяет средства интеллектуального анализа данных из прикладных программ.

Рис. 3. Сценарий использования Intelligent Miner
Сценарий использования Intelligent Miner

Анализ данных средствами IBM Cognos Business Intelligence

Предлагаемый вариант (Рис. 4) основан на предыдущей архитектуре с расширением аналитической функциональности с помощью продукта IBM Cognos 10 Business Intelligence 3].

IBM Cognos 10 Business Intelligence (BI) - это интегрированный программный комплекс для управления корпоративной эффективностью и предназначенный для помощи в интерпретации данных, возникающих в процессе деятельности организации.

Cognos 10 BI позволяет построить графики, сравнить план и факт, создать различные типы регламентных отчетов, встроить отчеты в удобный портал и создать персонализированные панели управления (dashboard).

Любой сотрудник организации может использовать IBM Cognos 10 BI для создания бизнес - отчетов, анализа данных и мониторинга событий и метрик с целью выработки эффективных бизнес – решений.

Рис. 4. Архитектура решения на основе Lotus Forms, InfoSphere Warehouse и Cognos BI
Архитектура решения на основе Lotus Forms, InfoSphere Warehouse и Cognos BI

Посмотреть в увеличенном варианте.

Cognos 10 BI включает в себя следующие компоненты:

  • Cognos Connection – публикация, управление и просмотр контента.
  • Cognos Administration console – просмотр, организация и диспетчеризация контента, администрирование и защита данных
  • Cognos Business Insight – интерактивные информационные панели
  • Cognos Business Insight Advanced - простая отчетность и исследование данных
  • Cognos Query Studio – произвольные запросы
  • Cognos Report Studio – управляемые отчеты
  • Cognos Event Studio – управление событиями и оповещениями
  • Cognos Metric Studio – метрики и система сбалансированных показателей
  • Cognos Analysis Studio – анализ состояния бизнеса
  • Cognos for Microsoft Office – работа с данными Cognos BI в Microsoft Office
  • Framework Manager - управление бизнес метаданными для подключения к кубу.
  • Metric Designer – извлечение данных (выписок).
  • Transformer - моделирование многомерных кубов данных PowerCubes
  • Map Manager - импорт карт и обновление меток
  • Cognos Software Development Kit – разработка приложений Cognos BI

Cognos Connection - это портал, который обеспечивает единую точку доступа ко всем корпоративным данным, доступным в Cognos 10 BI. Пользователи используют портал для публикации, поиска, организации и просмотра данных. При наличии соответствующих прав пользователи могут работать через портал с различными приложениями, а также управлять содержанием (контентом) портала, включая управления расписаниями подготовки и распространения отчетов.

Cognos Administration console совместно с модулем Cognos Connection предоставляет системным администраторам возможности администрирования серверов Cognos, настройки производительности и управления правами доступа пользователей.

Cognos Business Insight позволяет пользователям создавать сложные интерактивные панели управления (dashboard) с использование данных Cognos и внешних источников, таких, как TM1 Websheets и CubeViews. Пользователь может открывать персональные панели, управлять отчетами и пересылать панели по электронной почте, а также участвовать в коллективном принятии решений.

Cognos Business Insight Advanced позволяет пользователям самостоятельно создавать простые отчеты и исследовать данные из внешних и внутренних источников данных, как реляционных, так и многомерных. Аналитик, открыв персональную панель управления и желая выполнить более подробное исследование данных, может перейти в Business Insight Advanced, где есть возможность добавить новые измерения, условное форматирование и сложные вычисления. Пользователь может вызвать Business Insight Advanced напрямую из портала Cognos Connection.

Query Studio предоставляет интерфейс для создания простых запросов и отчетов Cognos 10 BI. Пользователь без специальной подготовки может использовать Query Studio для создания отчетов, отвечающих на простые бизнес вопросы. Затратив минимальные усилия, он может изменять расположение полей в отчете, фильтровать и сортировать данные, добавлять форматирование и создавать графики.

Report Studio является инструментом, используемым профессиональными авторами отчетов для создания сложных, многостраничных отчетов с составными запросами с применением нескольких баз данных (реляционных или многомерных). С помощью Report Studio можно создать любые отчеты, которые требуются организации, такие как счет - фактуры, сметы, или недельные отчеты о деятельности любой сложности.

Event Studio - это инструмент управления событиями в IBM Cognos 10. Он позволяет напоминать о событиях по мере их приближения для принятия своевременных и эффективных решений. Event Studio можно использовать для создания агентов, отслеживающих изменения различных состояний, финансовых и производственных показателей компании и ключевых клиентов для выявления любых важных событий. Когда событие происходит, агент может отправить сообщение по электронной почте, опубликовать информацию на портале, или подготовить отчет.

Metric Studio позволяет пользователям создавать и использовать сбалансированную систему показателей для отслеживания и анализа ключевых показателей эффективности (KPI) деятельности организации. Возможно использование стандартной или собственной сбалансированной системы показателей, если она уже внедрена в компании. Metric Studio переводит стратегию организации в измеряемые цели, которые позволяют каждому сотруднику соотнести свои действия со стратегическим планом компании. Среда сбалансированной системы показателей выявляет как успешные направления деятельности компании, так и те, что нуждаются в улучшении. Она отслеживает успехи в достижении поставленных целей и показывает текущее состояние бизнеса. Поэтому все сотрудники и руководители предприятия могут принимать требуемые решения и планировать свою работу.

Analysis Studio является инструментом для исследования, анализа и сравнения многомерных данных и обеспечивает аналитическую обработку в реальном времени (OLAP) различных источников многомерных данных. Результаты анализа доступны в Report Studio для создания отчетов профессионального качества. Руководители и аналитики используют Analysis Studio для быстрого анализа причин происшедших событий и необходимых действий для улучшения производительности. Анализ позволяет пользователям выявить неочевидные, но влияющие на бизнес закономерности и отклонения в больших объемах данных. Другие виды отчетов не дают такой возможности.

Cognos for Microsoft Office позволяет работать с данными отчетов Cognos прямо из программ Microsoft Office и предлагает два вида клиентского программного обеспечения:

  1. «Умный клиент» не требует установки, администрирования и обновляется автоматически.
  2. Клиентское ПО - надстройка COM требует установки. Обновления выполняются путем переустановки ПО.

Возможна работа с отчетами, созданными в Query Studio, Analysis Studio, или Report Studio, причем пользователь получает полный доступ к содержанию отчета, включая данные, метаданные, колонтитулы и рисунки.

Framework Manager является средством моделирования, которое предназначено для создания и управления бизнес метаданными для использования в средствах анализа и подготовки отчетов Cognos BI. Метаданные обеспечивают единое понимание данных из различных источников. OLAP кубы содержат метаданные для бизнес анализа и подготовки отчетов. Поскольку метаданные кубов могут изменяться, Framework Manager моделирует минимальное количество информации, требующейся для подключения к кубу.

Metric Designer – это инструмент моделирования для извлечения данных (выписок). Выписки используются для картирования и переноса данных в сбалансированную систему показателей из существующих источников метаданных, таких, как файлы Framework Manager и Impromptu Query Definition. Как правило, модели данных оптимизированы для хранения, а не подготовки отчетов. Поэтому разработчик моделей данных использует Framework Manager для создания моделей данных, оптимизированных под нужды бизнес пользователей. Например, модель может определять бизнес правила, описания данных и их связи, размерности и иерархии с точки зрения бизнеса.

Transformer является средством моделирования многомерных кубов данных PowerCubes для бизнес представление информации в Cognos BI. После добавления всех необходимых метаданных из различных источников данных, моделирования размерностей, определения измерений и применения фильтров, возможно создание PowerCubes, основанных на этой модели. Эти кубы используются для поддержки OLAP отчетности и анализа.

Map Manager позволяет администраторам и специалистам по моделированию импортировать карты и обновлять метки на картах в Report Studio, а также добавлять альтернативные названия стран и городов для создания многоязычных текстов, появляющихся на картах.

IBM Cognos Software Development Kit – набор инструментальных средств разработки программ, который предназначен для создания заказных отчетов, управления развертыванием компонент Cognos BI, для обеспечения безопасности портала и его функциональности в соответствии с требованиями пользователей, местного законодательства и существующей ИТ инфраструктуры. В состав Cognos SDK входят кросс - платформенные Веб - сервисы, библиотеки и интерфейсы программирования.

Корпоративное планирование с помощью Cognos TM1

Аналитический инструментарий может быть дополнен средством корпоративного планирования IBM Cognos TM1 4, которое предоставляет полную, надежную и динамическую среду планирования для своевременной подготовки персонализированных бюджетов и прогнозов. 64-битное OLAP ядро обеспечивает высокую производительность при анализе сложных моделей, больших объемов данных и даже потоковых данных.

Поддерживается полный набор требований к корпоративному планированию – от расчета рентабельности, финансовой аналитики и гибкого моделирования до определения вклада каждого подразделения.

Возможность создания неограниченного числа индивидуальных сценариев позволяет сотрудникам, группам, подразделениям и компании в целом быстрее реагировать на изменяющиеся условия.

Лучшие практики, основанные на факторном планировании и скользящем прогнозе, могут стать частью корпоративного процесса планирования. Средства настройки моделей и доступа к данным позволяют предоставлять данные в знакомых форматах.

Управляемая коллективная работа обеспечивает быстрый и автоматизированный сбор результатов от разных систем и подразделений, их сборку в единый корпоративный процесс планирования и предоставление результатов.

Интегрированные сбалансированная система показателей и отчетность Cognos BI дают полную картину планирования и определения целей, а также определения степени их достижения и подготовки отчетов.

Финансовые и производственные подразделения получают полный контроль над процессами планирования, бюджетирования и прогнозирования. Возможность работать с привычным интерфейсом (Microsoft Excel и клиентское ПО Cognos TM1 Web или Contributor).

Заключение

Предложенное решение является масштабируемым и функционально расширяемым. В дальнейшем возможно подключение различных систем документооборота, корпоративного планирования, систем управления метаданными и НСИ.

Система сбора и анализа первичных данных может быть легко интегрирована в существующую корпоративную ИТ инфраструктуру. В других условиях она может стать первым этапом реализации корпоративной системы сбора, хранения и анализа данных.

Автор благодарит М.Баринштейна, В.Иванова, М.Озерову, Д.Савустьяна, А.Сона и Е.Фищукову за полезные обсуждения.

Глоссарий

Таблица 1. Глоссарий
data miningинтеллектуальный анализ данных
data discoveryвыявление скрытых взаимосвязей
drill-downдетализация данных
scorecardingсбалансированная система показателей
dashboardинтерактивная панель управления
key performance indicesключевые показатели эффективности
scoringоценивание
OLAPаналитическая обработка в реальном времени
software development kitнабор инструментальных средств разработки программ

Литература

1 Асадуллаев С. “Система сбора и анализа первичных данных – 1. Постановка задачи, сбор и хранение данных ”, 2011, developerWorks http://www.ibm.com/developerworks/ru/library/sabir/warehouse-1/index.html

2 Apache Software Foundations, “Apache UIMA”, 2010, http://uima.apache.org/

3 IBM, “Cognos Business Intelligence”, 2010, , http://publib.boulder.ibm.com/infocenter/cfpm/v10r1m0/index.jsp?topic=/com.ibm.swg.im.cognos.wig_cr.10.1.0.doc/wig_cr_id111gtstd_c8_bi.html

4 IBM, “Cognos TM1”, 2010, http://www-01.ibm.com/software/data/cognos/products/tm1/

Ресурсы

Комментарии

developerWorks: Войти

Обязательные поля отмечены звездочкой (*).


Нужен IBM ID?
Забыли Ваш IBM ID?


Забыли Ваш пароль?
Изменить пароль

Нажимая Отправить, Вы принимаете Условия использования developerWorks.

 


Профиль создается, когда вы первый раз заходите в developerWorks. Информация в вашем профиле (имя, страна / регион, название компании) отображается для всех пользователей и будет сопровождать любой опубликованный вами контент пока вы специально не укажите скрыть название вашей компании. Вы можете обновить ваш IBM аккаунт в любое время.

Вся введенная информация защищена.

Выберите имя, которое будет отображаться на экране



При первом входе в developerWorks для Вас будет создан профиль и Вам нужно будет выбрать Отображаемое имя. Оно будет выводиться рядом с контентом, опубликованным Вами в developerWorks.

Отображаемое имя должно иметь длину от 3 символов до 31 символа. Ваше Имя в системе должно быть уникальным. В качестве имени по соображениям приватности нельзя использовать контактный e-mail.

Обязательные поля отмечены звездочкой (*).

(Отображаемое имя должно иметь длину от 3 символов до 31 символа.)

Нажимая Отправить, Вы принимаете Условия использования developerWorks.

 


Вся введенная информация защищена.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=40
Zone=Information Management
ArticleID=627445
ArticleTitle=Система сбора и анализа первичных данных - 2
publish-date=02172011