Интеграция углубленного анализа данных InfoSphere Warehouse с отчетами IBM Cognos : Часть 1. Обзор архитектуры для интеграции InfoSphere Warehouse и Cognos

Эффективное распространение результатов углубленного анализа данных

В первой части этой серии статей предлагается введение в основы архитектуры интеграции технологии углубленного анализа данных InfoSphere Warehouse с системой составления отчетов IBM Cognos. В ней анализируется также пример, иллюстрирующий способ достижения такой интеграции.

Михаэль Й. Вюрст, старший инженер-программист, IBM  

Михаэль Вюрст (Michael Wurst), Ph.D., работает старшим инженером-программистом в лаборатории IBM Research & Development Lab в Беблингене (Германия). Он имеет степень д-ра философии по вычислительной технике и отвечает за алгоритмы и инструментарий углубленного анализа данных в InfoSphere Warehouse. До прихода в IBM Михаэль был соразработчиком, архитектором и консультантом по программному обеспечению углубленного анализа данных RapidMiner.



Джон Роллинз, технический специалист по продажам, IBM  

Джон Роллинз (John Rollins), Ph.D., P.E., работает техническим руководителем группы углубленного анализа данных в отделении IBM Americas Software Group и последние 10 лет участвует в технической поддержке продаж, внедрении, создании углубленного капитала и консалтинге. До прихода в IBM в 1996 году он был инженером-консультантом, профессором и научным сотрудником.



01.12.2009

Введение

Технологии углубленного анализа данных позволяют экспертам, аналитикам и пользователям исследовать тенденции в крупных массивах данных и применять полученные знания в повседневных бизнес-процессах. Традиционно углубленный анализ данных представляет собой задачу, которая решается только специалистами по статистике и анализу данных. С другой стороны, результаты проведенного анализа данных часто нужны самым разным пользователям по всей компании.

Рассмотрим следующий сценарий. Вы собрали данные о своих клиентах, относящиеся к демографическим аспектам (возраст, профессия, местожительство и т.п.), а также к прошлым операциям с этими клиентами. Отдел маркетинга хочет составить новые предложения, нацеленные на определенные группы клиентов с похожими свойствами. Как выделить такие типичные группы? Решение этой задачи обеспечивает технология кластеризации данных (data clustering). Она автоматически объединяет массивы данных в соответствии с их свойствами или особенностями. Затем аналитик может проанализировать эти массивы и интерактивно уточнять их до тех пор, пока они не получит ответы на свои вопросы. Например, специалист по маркетингу обнаружит, что есть небольшая, но экономически важная группа клиентов, которые старше среднего возраста и не пользуются услугами интернет-банкинга. На основе этой информации можно составить специальные предложения для таких клиентов. Важный шаг в процессе анализа – представить пользователям результаты кластеризованных данных. Как правило, аналитики не являются специалистами по низкоуровневому программированию баз данных.

Как представить аналитикам и сотрудникам результаты углубленного анализа данных таким образом, чтобы они отражали бизнес-процесс, в котором участвует пользователь? Как соблюсти требования безопасности, например, чтобы каждый пользователь видел только то, что ему положено? Чтобы дать удовлетворительные ответы на эти вопросы, нужно сдвинуть перспективу от статистического анализа к реальному конечному пользователю и интересующим его бизнес-процессам. InfoSphere Warehouse – это прочный фундамент для общекорпоративного хранилища данных. InfoSphere Warehouse обеспечивает функциональность углубленного анализа данных непосредственно в базе данных DB2. Доступ ко всей этой функциональности можно получить при помощи простой в применении инструментальной платформы Eclipse и прямо в этом инструментарии решать задачи по внедрению.

IBM Cognos – один из лидеров рынка решений для составления отчетов. Система составления отчетов играет важную роль для многих компаний, помогая им консолидировать и визуализировать релевантную информацию самыми разнообразными способами для разных целевых аудиторий. Представленные результаты обычно получают путем применения простых арифметических операций к информации из хранилища данных (например, средний объем продаж в месяц). Углубленный анализ, такой как в приведенном выше примере, выходит за рамки возможностей системы составления отчетов. Это приводит к необходимости комбинировать обе системы с применением масштабируемых, развитых аналитических возможностей InfoSphere в сочетании с проверенными, мощными средствами составления отчетов IBM Cognos. В следующих разделах показано, как IBM InfoSphere Warehouse Data Mining и IBM Cognos гибко объединяются для достижения этой цели. Такая интеграция не требует никакого изощренного программирования или настройки; все можно получить при помощи простого языка DB2 SQL.

В следующих разделах кратко описывается базовая архитектура InfoSphere Warehouse и IBM Cognos. Затем следуют общие идеи по поводу интеграции того и другого. Наконец, такая интеграция демонстрируется на примере, относящемся к сектору здравоохранения. В следующих статьях этой серии будут подробнее изложены технические и концептуальные аспекты такой интеграции.


Компоненты продукта

IBM InfoSphere Warehouse

Пакет InfoSphere Warehouse использует для хранения данных СУБД DB2. Он оснащен функцией сегментации базы данных (database a partitioning feature - DPF) и обеспечивает масштабируемое, надежное и высокопроизводительное хранилище данных, сочетая преимущества базы данных, наделенной возможностями оперативной обработки транзакций, с емкостью, необходимой для крупных хранилищ данных. InfoSphere Warehouse поставляется с разнообразными инструментами анализа и управления хранилищем данных. В число аналитических компонентов входят:

  • Построение многомерных моделей
  • Углубленный анализ данных
  • Анализ текста

InfoSphere Warehouse Design Studio представляет собой инструментальную платформу на базе Eclipse, которая применяется для проектирования правил решения задач и организации потоков преобразования данных и аналитических потоков для анализа данных и текстов. Эти потоки могут направляться в консоль администрирования InfoSphere Warehouse для планирования и исполнения в соответствии с предъявляемыми требованиями. Система углубленного анализа данных InfoSphere Warehouse построена на основе хранимых процедур DB2 и определяемых пользователем функций с применением DB2 в качестве среды исполнения для достижения высокопроизводительной работы внутри базы данных. К ней можно обращаться либо через интерфейс SQL, либо через аналитические потоки InfoSphere Warehouse.

Задача углубленного анализа данных состоит в поиске полезной информации в крупных массивах данных. Типичный сценарий, который используется в качестве примера для этой статьи, взят из сферы здравоохранения. Сегодня имеется возможность собирать огромные объемы медицинских данных, описывающих состояние разных пациентов за многие годы. Важной областью применения таких данных является поиск ранних признаков заболеваний. Для этого можно собрать данные о пациентах, страдающих, например, сердечными заболеваниями, и проанализировать, какие факторы - кровяное давление, вес и т.п. - коррелируют с этими заболеваниями. Эти данные нужно собрать и преобразовать, чтобы сделать их пригодными для углубленного анализа. В частности, нужно получить таблицу, содержащую по одной строке на каждого пациента с несколькими столбцами, соответствующими сведениям об этом пациенте. Кроме того, нужен отдельный столбец, который показывает, болен ли данный пациент. Возможная структура таблицы представлена на рисунке 1:

Рисунок 1. Структура таблицы базы данных о пациентах с сердечными заболеваниями (из примеров InfoSphere Warehouse)
Схема таблицы базы данных о пациентах с сердечно-сосудистыми заболеваниями

Хранимые процедуры InfoSphere Warehouse позволяют, основываясь на подобных данных, построить модель, которая для каждого нового пациента будет определять вероятность наличия у него скрытого сердечного заболевания. Этот процесс называется «моделированием». Результирующая модель углубленного анализа данных XML хранится в базе данных и доступна через SQL/XQuery. Ее можно использовать в двух целях. Во-первых, из этой модели можно извлечь информацию, позволяющую определить важные симптомы сердечных заболеваний и получить другие статистические данные. Во-вторых, модель можно автоматически применять к новым записям данных. Так, для любых записей, в столбце наличия сердечного заболевания которых еще не содержится никакой информации, ее можно добавлять автоматически вместе с величиной, соответствующей уровню достоверности полученного прогноза. Этот процесс называется «оценкой» (scoring). Схематически он показан на рисунке 2:

Рисунок 2. Прогностическая модель, построенная на основе анализа исторических данных, может применяться к новым данным
Обзор углубленного анализа данных

InfoSphere Warehouse содержит высокоэффективные реализации почти всех существующих алгоритмов углубленного анализа данных. Процесс анализа данных начинается с записи данных в таблицу. Затем создается модель, которая впоследствии может применяться к записям, для которых целевое значение еще не известно, создавая прогноз и рассчитывая уровень его достоверности. Как будет проиллюстрировано ниже, все функции углубленного анализа данных вызываются как обычные команды SQL. Это позволяет легко интегрировать средства анализа почти в любые конструкции, например, в Web-сервисы.

IBM Cognos 8 Business Intelligence

Модуль IBM Cognos 8 Business Intelligence предоставляет полный набор функциональных возможностей бизнес-анализа и основан на гибкой сервис-ориентированной архитектуре (SOA). Основные функции этого модуля - составление отчетов, анализ, информационные панели и таблицы оценок.

Функция составления отчетов используется для сбора релевантных данных о бизнес-процессах и их распространения между людьми, которые получают максимум выгод от определенной информации. В среде интеллектуального анализа данных это означает передачу результатов тем людям, которые извлекают максимальную пользу из полученных знаний. Для создания и публикации бизнес-отчетов требуются следующие компоненты Cognos 8:

Для создания и публикации бизнес-отчетов требуются следующие компоненты Cognos 8:

  • Cognos Connection: Web-портал и отправная точка для работы с Cognos 8. Отсюда пользователь может управлять имеющейся информацией и просматривать ее в виде отчетов или информационных панелей. Из Cognos Connection можно запускать системы составления отчетов на базе Web, такие как Report Studio, для создания новых ресурсов или редактирования существующих. Он применяется также для администрирования сервера Cognos, например, с целью изменения правил доступа, импортирования контента или изменения списка получателей отчета.
  • Cognos Framework Manager: инструмент моделирования для источников данных, используемых в Cognos 8. Данные из большинства СУБД и других источников, таких как Web-сервисы, можно получать в отчетах Cognos, создав соответствующий уровень метаданных в Framework Manager. Таблицы БД, представления и хранимые процедуры можно добавлять в пакет Cognos как предметы запросов. Framework Manager применяется для импортирования и консолидации информации, присутствующей в разных источниках данных внутри компании, так что в инструментах бизнес-анализа Cognos 8 BI, таких как Report Studio, информация может использоваться согласованно. Важно отметить, что сами данные хранятся в источнике данных и извлекаются в момент создания отчета.
  • Cognos Report Studio: одна из авторских студий Cognos 8 BI на базе Web. Используется для создания и редактирования сложных отчетов для данных, описанных в Framework Manager. Обеспечивает мощную функциональность, такую как возможности детализации, подсказки и обширная библиотека диаграмм.

Чтобы включить эти данные в отчет, нужно выполнить следующие шаги:

  • В Framework Manager архитектор данных создает метаданные Cognos, которые описывают данные из БД с точки зрения бизнеса (отношения между таблицами, бизнес-наименования величин и т.п.).
  • После моделирования метаданных весь пакет загружается в хранилище контента Cognos 8. Оттуда их можно извлечь при помощи Cognos Connection и авторских студий.
  • Разработчик отчета входит в Cognos Connection и создает новый отчет на базе установленного пакета. Затем можно указать целевую группу и форму распространения (email, Web-портал и т.п.).

Возможность создавать отчеты из реляционных баз данных служит ключом к интеграции InfoSphere Warehouse и IBM Cognos.


Архитектура интеграции

Отчеты Cognos содержат набор результатов, полученных из источника реляционных данных, как описано выше. Содержание конкретного отчета определяется путем (динамического) запроса SQL к одному или более источникам данных. Этот основной способ связи можно использовать для интеграции системы углубленного анализа данных и системы составления отчетов Cognos следующими способами:

  • Cognos можно использовать для отображения таблиц оценок, возможно, вместе с информацией об их достоверности.
  • Cognos можно использовать для отображения информации модели. Эта информация извлекается из актуальных XML-моделей при помощи функций экстрактора таблиц или запросов XQuery.
  • Cognos может динамически инициировать углубленный анализ и оценку данных, вызывая хранимые процедуры SQL. Это позволяет:
    • вызывать функцию углубленного анализа данных с разными параметрами настройки, устанавливаемыми пользователем в интерфейсе работы с отчетами.
    • вызывать функцию углубленного анализа данных на разных подмножествах данных (например, для создания рекурсивных углубленных отчетов)
    • Динамически оценивать записи на основе данных, вводимых пользователем.

На рисунке 3 приведена итоговая схема вызова функции, используемая во всех перечисленных способах.

Рисунок 3. Базовая архитектура интеграции системы углубленного анализа данных IBM InfoSphere и системы составления отчетов IBM Cognos
Базовая архитектура интеграции системы углубленного анализа данных IBM InfoSphere и системы составления отчетов IBM Cognos

Функция углубленного анализа данных вызывается как хранимая процедура и создает в базе данных модель XML. Эту модель можно использовать для оценки новых данных или же извлекать информацию из модели в таблицу и использовать такие таблицы в Cognos. Пользователь может вызывать функцию углубленного анализа данных интерактивно, обращаясь к соответствующей хранимой процедуре базы данных из отчета Cognos.

Такая интеграция обеспечивает целый ряд преимуществ:

  • Она очень проста и требует только знания SQL, без всякого дополнительного программирования
  • Модели углубленного анализа данных хранятся в БД, и к ним можно обращаться из Cognos безопасным, эффективным способом
  • Весь процесс углубленного анализа данных можно запускать и контролировать из Cognos с использованием хранимых процедур

Следующий раздел – это простейший пример интеграции подобного типа: оценка записей из базы данных и отображение результатов в отчете Cognos. Извлечение информации модели и динамический запуск функции углубленного анализа данных из отчетов Cognos будут рассмотрены в последующих статьях этой серии.


Представление результатов углубленного анализа данных в отчетах Cognos: пример из области здравоохранения

Этот пример анализирует данные о пациентах клиники. Кардиологическое отделение располагает историями болезни своих пациентов и результатами некоторых измерений, таких как пульс, артериальное давление, холестерин и т.п. Пациенты проверяются на четыре различных сердечных заболевания. История болезни содержит столбец, в котором указано, имеется ли у данного пациента одно из четырех сердечных заболеваний (y = да), или нет (n = нет). Соответствующая таблица базы данных сердечных заболеваний изображена на рисунке 1. Эту таблицу можно найти в примерах, прилагаемых к InfoSphere Warehouse.

Цель анализа: предсказать для новых пациентов степень риска заболевания одной из этих болезней. Если риск высок, нужно проводить немедленное обследование.

Идея в том, чтобы риск можно было оценить даже в том случае, если никаких специальных анализов на данное сердечное заболевание не проводилось, но известны результаты других анализов, полученные во время прежних обследований.

Создание прогностической модели

Сначала создадим прогностическую модель, основанную на таблице HEART, которая позволяет предсказывать риск сердечного заболевания для пациентов.

Создание проекта Data Warehouse:

Щелкните правой кнопкой на Project Explorer и выберите New > Data Warehouse Project (как показано на рисунке 4).

Рисунок 4. Создание проекта Data Warehouse
Создание проекта Data Warehouse

В окне мастера наберите имя проекта, например, AdvancedAnalytics. Нажмите Finish.

Создание пустого потока углубленного анализа данных:

  1. Откройте вновь созданный проект.
  2. Щелкните правой кнопкой на папке Mining Flows и выберите New > Mining Flow.
  3. В открывшемся окне мастера наберите имя потока углубленного анализа данных Heart Disease Risk.
  4. В данном примере мы будем работать с базой данных, поэтому оставьте настройки по умолчанию и нажмите Next.
  5. Выберите базу данных DWESAMP и нажмите Finish.

Создание потока углубленного анализа данных:

Откроется редактор потоков углубленного анализа данных. Справа от редактора находится палитра с операторами (рисунок 5). При помощи этих операторов можно построить поток углубленного анализа данных, перетащив их на холст редактора.

Рисунок 5. Поток углубленного анализа данных внутри Design Studio
Поток углубленного анализа данных внутри Design Studio

Чтобы создать модель, оценивающую риск заболевания для пациентов, выполните следующие шаги:

  1. В разделе Sources and Targets палитры выберите оператор Table Source и перетащите его в редактор.
  2. В диалоге выбора таблицы откройте схему HEALTHCARE и выберите таблицу HEART, затем нажмите Finish.
  3. В разделе палитры Preprocessing Operators выберите оператор Random Split и перетащите его в редактор.
  4. Соедините порт Output первого оператора с портом Input второго.
  5. Выберите оператор Random Split.
  6. На вкладке Properties под окном редактора углубленного анализа данных установите значение Percentage для исследуемых данных равным 20. Это означает, что мы используем 20% данных для последующей проверки своей модели. Таким образом, перед тем как строить прогностическую модель, нужно разделить данные.
  7. В разделе палитры Mining Operators выберите оператор Predictor и перетащите его в редактор.
  8. Соедините порт оператора разделения Training Output с портом Predictor Input Port.
  9. Выберите оператор Predictor
  10. На вкладке Properties, слева под редактором, выберите вкладку Mining Settings.
  11. В столбце Target списка выбора в качестве столбца, значения из которого нужно прогнозировать, укажите DISEASED.
  12. Design Studio автоматически распознает, что вы хотите прогнозировать номинальное значение столбца, и предложит вам те параметры (на той же вкладке), которые подходят для этой цели. В списке выбора Algorithm укажите Naïve Bayes.
  13. Выберите вкладку Model Name над вкладкой Mining Settings. Префикс оставьте неизменным, а имя модели замените на HeartDiseasePrediction.
  14. В том же разделе палитры Mining выберите оператор Tester и перетащите его в редактор.
  15. Соедините выходной порт Model оператора Predictor со входным портом Model оператора Tester, а выходной порт Test оператора Random Split - со входным портом оператора Tester.
  16. Сохраните поток углубленного анализа данных, например, щелкнув в области редактора и нажав клавиши Ctrl+S.

Поток углубленного анализа данных готов к работе.

Исполнение потока углубленного анализа данных:

Поток углубленного анализа данных можно исполнить целиком, или же только выделенные пути потока, щелкнув оператор правой кнопкой и выбрав Run to this step…. В данном сценарии нажмите правой кнопкой оператор Tester, выберите Run to this step… и нажмите Finish. Этот поток генерирует модель, которая предсказывает риск сердечных заболеваний и хранит этот прогноз в базе данных. Сначала она обучается на 80% данных, а затем тестируется на оставшихся 20% данных. Это позволяет оценить, как эта модель будет работать с новыми данными. Просто нажмите правой кнопкой порт Test Result оператора Tester. Можно увидеть и саму модель. Для этого нажмите правой кнопкой порт Model оператора Predictor.

Оценка новых данных с применением модели углубленного анализа данных

Под оценкой понимается применение предварительно обученной модели к новым данным. Новые данные не имеют классификации (в данном случае никаких анализов на сердечные заболевания не проводилось), и процесс оценки создает прогноз для каждой новой записи в соответствии с моделью углубленного анализа данных.

Создание нового потока углубленного анализа данных для оценки:

Повторите шаги, перечисленные в разделе Создание нового потока углубленного анализа данных, присвоив потоку другое имя, например, Classify New Patients.

Создание потока оценки:

Чтобы создать поток оценки, который классифицирует новых пациентов, проделайте следующее:

  1. В разделе Sources and Targets палитры выберите оператор Model Source и перетащите его в редактор.
  2. В диалоге выбора модели углубленного анализа данных откройте модели классификации и выберите свою модель AdvancedAnalytics.HeartDiseasePrediction.
  3. Перетащите в редактор оператор Table Source из раздела Sources and Targets палитры.
  4. В диалоге выбора таблицы откройте схему HEALTHCARE и выберите таблицу HEART. Эта таблица может загружаться в хранилище данных каждый вечер или в режиме реального времени, как только пациент прибыл в клинику и ему сделаны необходимые анализы.
  5. Перетащите в редактор оператор Scorer из раздела Mining Operators палитры.
  6. Соедините модель и оператор исходной таблицы с оператором оценки.
  7. Оператор оценки добавляет два столбца с классификацией (y и n) и еще один столбец, в котором указывается достоверность этой классификации. Чтобы сохранить эту оценочную таблицу, нужно создать соответствующую таблицу с этими же столбцами в форме оператора Table Target.
    Для этого нажмите правой кнопкой выходной порт оператора оценки и выберите Create Suitable Table….
  8. В открывшемся диалоге просто укажите имя новой таблицы: NEW_PATIENT_CLASSIFICATION, а также схему для создания таблицы: HEALTHCARE. Нажмите Finish.
  9. Сохраните поток оценки.
  10. Наконец, запустите поток щелчком правой кнопки по оператору целевой таблицы и выполните его до этого шага.

После выполнения потока в нижнем поле появится фрагмент оценочной таблицы (рисунок 6). Если прокрутить ее вправо, вы увидите два столбца, добавленных оператором оценки.

Рисунок 6. Поток оценки с результатами
Поток оценки с результатами

В первом добавленном столбце, PREDICTED_CLASS, содержится прогноз. Он показывает, классифицировала ли модель углубленного анализа данных текущего пациента как кандидата на заболевание (y), или нет (n). Второй добавленный столбец, CLASS_CONFIDENCE, содержит числа в интервале от 0 до 1 и показывает точность прогноза данного оператора оценки (в соответствии с моделью). Значение 1 соответствует 100%-й точности классификации.

Создание метаданных в Cognos Framework Manager

Прежде чем создавать отчет на основе полученных результатов анализа, нужно определить, какие ресурсы (базы данных, таблицы или представления) должны при этом использоваться. Framework Manager позволяет также расширить разнообразие источников данных, определяя связи и новые столбцы (с выражениями).

В приведенном простом примере создается проект Cognos Framework Manager, определяется таблица результатов оценки и публикуются метаданные.

Откройте Framework Manager и создайте новый проект:

  1. Cognos Framework Manager можно запустить с рабочего стола.
  2. Когда процесс загрузки закончится, выберите Create a new project….
  3. В открывшемся диалоге определите имя HeartMetaData и нажмите OK.
  4. Выберите язык English и нажмите OK.
  5. Так как мы хотим создать метаданные из таблицы DB2, выбираем обычные источники данных (Data Sources) и нажимаем Next.
  6. Выберите базу данных DWESAMP и нажмите Next.
  7. Вам будет предложено выбрать объект данных для импорта в качестве метаданных. Разверните схему HEALTHCARE и папку таблицы и отметьте таблицу NEW_PATIENT_CLASSIFICATION, созданную при выполнении потока оценки. Нажмите Next.
  8. Все параметры этой страницы правильные, так что нажмите Import, а затем Finish.
Рисунок 7. Cognos 8 Framework Manager
Cognos 8 Framework Manager

Созданный проект отображается в левой части окна Project Viewer. Теперь определим еще один столбец, в котором объединяется содержимое двух столбцов прогноза, созданных потоком оценки. Цель состоит в том, чтобы представить результаты углубленного анализа данных в понятном для врачей виде.

Для этого выполните следующие шаги:

  1. Разверните DWESAMP. Вы увидите таблицу NEW_PATIENT_CLASSIFICATION, созданную в потоке оценки.
  2. Дважды щелкните на этой таблице.
  3. Появится диалог Query Subject Definition. Перейдите на вкладку Calculations (рисунок 8).
    Рисунок 8. Диалог Query Subject Definition
    Диалог Query Subject Definition
  4. Нажмите Add, чтобы создать новый столбец с результатами вычислений. Появится диалог Calculation Definition.
  5. В поле name наберите Check, а в текстовое поле Expression введите следующее выражение (это выражение можно найти также на рабочем столе, в файле Calculation Definition.txt):
    IF ( [DWESAMP].[NEW_PATIENT_CLASSIFICATION].[PREDICTED_CLASS] = 'y')
    THEN (IF ([DWESAMP].[NEW_PATIENT_CLASSIFICATION].[CLASS_CONFIDENCE]>0.83)
          THEN('necessary') ELSE('maybe')) 
    ELSE (IF([DWESAMP].[NEW_PATIENT_CLASSIFICATION].[CLASS_CONFIDENCE] > 0.9) 
          THEN('not necessary') 
    ELSE('maybe'))

    Приведенное выше выражение создает из классов PREDICTED_CLASS label (y и n) и CLASS_CONFIDENCE три новых класса. Пациентам с прогнозом y и достоверностью более 83% присваивается высокая степень риска (то есть обследование необходимо - necessary). Пациенты с прогнозом n и достоверностью более 90% помещаются в группу малого риска (то есть обследование необязательно - not necessary). Всем прочим пациентам присваивается средняя группа риска (обследование может потребоваться – maybe). На рисунке 9 приведен пример диалога Calculation Definition.
    Рисунок 9. Диалог Calculation Definition
    Calculation Definition dialog
  6. Нажмите OK, чтобы закрыть диалог Calculation Definition.
  7. Можно проверить выражение, перейдя на вкладку Test и выбрав Test Sample.
  8. Нажмите OK, чтобы закрыть диалог Query Subject Definition.

Создание пакета и его публикация:

  1. Чтобы сделать только что созданные метаданные доступными, перейдите в Project Viewer и щелкните правой кнопкой на папке Packages, затем выберите Create > Package.
  2. В поле имени наберите Heart и нажмите Next.
  3. Нажмите Next, так как здесь не надо ничего делать.
  4. В следующем диалоге добавьте DB2 в список доступных наборов функций и нажмите Finish.
  5. В следующем диалоге нажмите Yes, чтобы продолжить процесс публикации.
  6. В разделе Select publish location мастера Publish Wizard нажмите Next, так как здесь ничего не надо менять.
  7. Не указывайте параметры безопасности в данном примере. Просто нажмите Next.
  8. Теперь нажмите “Publish"
  9. В диалоге с сообщением, что вы успешно опубликовали свой пакет, нажмите Finish.

Создание простого отчета Cognos по результатам углубленного анализа данных

Cognos Report Studio – это приложение, целиком основанное на Web-технологии. Чтобы запустить Report Studio, можно дважды щелкнуть по значку Internet Explorer на рабочем столе (в верхнем левом углу).

Чтобы создать простой отчет по результатам углубленного анализа данных, нужно выполнить следующие шаги:

  1. На экране приветствия выберите Create professional reports.
  2. В окне Select a package explorer выберите пакет Heart, опубликованный в Framework Manager.
  3. В диалоге приветствия выберите Create a new report or template.
  4. Выберите пустой шаблон и нажмите OK.
  5. На панели Insertable Objects можно выбрать разные вкладки. Выбрана вкладка источника (Data sources). Прежде чем добавить данные в отчет, нужно сверстать макет. Его можно выбрать на вкладке Toolbox, так что отправимся туда.
    Рисунок 10. Report Studio
    Report Studio
  6. Из списка отображаемых объектов перетащите Text Item в область редактора отчетов (рисунок 10).
  7. В текстовом поле наберите имя Patient checkup recommendation report.
  8. Найдите на панели инструментов компонент List и перетащите его в область редактора.
  9. Вернитесь на вкладку Source (источники данных) и перетащите таблицу NEW_PATIENT_CLASSIFICATION в список в области редактора.
  10. Вы увидите таблицу пациентов с оценками, и если прокрутить ее вправо, будут видны добавленные столбцы. Так как нужно добавить только столбец Check, созданный в Framework Manager, удалите два других столбца - <PREDICTED_CLASS> и <CLASS_CONFIDENCE>. Выберите заголовки обоих столбцов (удерживая нажатой клавишу Ctrl), щелкните правой кнопкой на выбранных заголовках и выберите из контекстного меню Delete. Для данного конкретного примера удалим также столбцы <DISEASED>, <KEYWORDS> и <MEDICAL_HISTORY>.
  11. Теперь нужно выделить записи тех пациентов, которые не нуждаются в обследовании (not necessary), зеленым цветом, тех, что нуждаются (necessary) – красным, а остальных (maybe) никак выделять не будем. Для этого щелкните правой кнопкой на столбце Check (Примечание: щелкайте в теле, а не в заголовке столбца) и выберите Style > Conditional styles….
  12. В диалоге Conditional Styles щелкните на значке в левом нижнем углу, чтобы создать новый условный стиль.
  13. В следующем диалоге столбец Check уже выбран. Из развертывающегося списка условных стилей выберите String и нажмите OK.
  14. В следующем диалоге нажмите значок в нижнем левом углу и выберите Select Multiple Values…. Report Studio извлекает возможные значения прямо из базы данных (примечание: Report Studio может спросить идентификатор пользователя и пароль DB2).
  15. Сначала добавьте в выбранный список значение necessary и нажмите OK.
  16. Повторите шаги 14 и 15, чтобы добавить значение not necessary.
  17. Для значения not necessary выберите из развертывающегося меню Style позицию Excellent.
  18. Для значения necessary выберите из развертывающегося меню Style позицию Poor.
  19. Дважды нажмите OK.
  20. Измените стиль заголовка, выбрав его и нажав кнопку Font всплывающего меню на панели Properties.
  21. Нажмите кнопку Run report, чтобы увидеть получившийся отчет.

Окончательный вид отчета представлен на рисунке 11. Классификация риска показана в крайнем правом столбце.

Рисунок 11. Отчет по риску сердечных заболеваний
Отчет по риску сердечных заболеваний

Выводы и перспективы

В этой статье описана базовая архитектура, которая позволяет легко интегрировать в отчеты Cognos функции углубленного анализа данных InfoSphere. В ней отмечается, что такая интеграция может оказать значительное влияние на распространение углубленного анализа данных, так как пользователям не обязательно знать какие-то детали процесса углубленного анализа данных. На действующем примере из области медицины показано, как можно достичь простой интеграции, затратив на разработку минимальные усилия.

Но возможности этого метода значительно шире. В последующих статьях будут рассмотрены другие интересные темы, такие как углубление в детали, использование параметров Framework Manager и динамический вызов функции углубленного анализа данных из отчетов Cognos.

Ресурсы

Научиться

Получить продукты и технологии

Обсудить

Комментарии

developerWorks: Войти

Обязательные поля отмечены звездочкой (*).


Нужен IBM ID?
Забыли Ваш IBM ID?


Забыли Ваш пароль?
Изменить пароль

Нажимая Отправить, Вы принимаете Условия использования developerWorks.

 


Профиль создается, когда вы первый раз заходите в developerWorks. Информация в вашем профиле (имя, страна / регион, название компании) отображается для всех пользователей и будет сопровождать любой опубликованный вами контент пока вы специально не укажите скрыть название вашей компании. Вы можете обновить ваш IBM аккаунт в любое время.

Вся введенная информация защищена.

Выберите имя, которое будет отображаться на экране



При первом входе в developerWorks для Вас будет создан профиль и Вам нужно будет выбрать Отображаемое имя. Оно будет выводиться рядом с контентом, опубликованным Вами в developerWorks.

Отображаемое имя должно иметь длину от 3 символов до 31 символа. Ваше Имя в системе должно быть уникальным. В качестве имени по соображениям приватности нельзя использовать контактный e-mail.

Обязательные поля отмечены звездочкой (*).

(Отображаемое имя должно иметь длину от 3 символов до 31 символа.)

Нажимая Отправить, Вы принимаете Условия использования developerWorks.

 


Вся введенная информация защищена.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=40
Zone=Information Management
ArticleID=451606
ArticleTitle=Интеграция углубленного анализа данных InfoSphere Warehouse с отчетами IBM Cognos : Часть 1. Обзор архитектуры для интеграции InfoSphere Warehouse и Cognos
publish-date=12012009