Содержание


Интеграция и анализ данных как сервис: Часть 1. DataWorks

Comments

Обзор

В руководстве описывается использование облачной службы DataWorks в IBM Bluemix для выполнения загрузки или миграции данных из разных источников в различные целевые системы. Служба IBM DataWorks, включающая интерфейсы DataWorks API и компонент DataWorks Forge, позволяет разработчикам легко выполнять миграцию данных на различные целевые системы, а также загружать, очищать и профилировать данные. Компонент DataWorks Forge предназначен главным образом для специалистов по анализу информации, позволяя им выбирать и визуализировать данные и выполнять их подготовку к использованию после обогащения и повышения качества. Данное руководство является первой частью в серии статей, охватывающих интеграцию и анализ данных как сервис.

Служба DataWorks включает интерфейсы DataWorks API на базе REST, используемые разработчиками для быстрого получения доступа к различным источникам данных. Интерфейсы DataWorks API позволяют выполнять три основные функции — загрузка данных, очистка адресов США и профилирование данных. Доступные источники/получатели данных перечислены в таблице 1.

Поддерживаемые базы данных

Таблица 1. Исходные и целевые базы данных, поддерживаемые интерфейсами IBM DataWorks API
ИсточникиПолучатели
Amazon Redshift
Amazon S3 (CSV-файлы)
Analytics for Hadoop (CSV-файлы)
Apache Hive
Cloudera Impala
dashDB™
IBM DB2®
IBM Informix®Analytics for Hadoop
IBM NetezzaCloudant NoSQL DB
IBM Object Storage for Bluemix Version 1 (CSV-файлы)dashDB
Microsoft AzureIBM Watson Analytics
Microsoft SQL ServerSQL Database
MySQL
Oracle
Pivotal Greenplum
PostgreSQL
Salesforce.com
SQL Database
Sybase
Sybase IQ

Служба IBM DataWorks включает также компонент DataWorks Forge, позволяющий всем пользователям, в том числе бизнес-аналитикам и нетехническим специалистам, выбирать требуемые наборы данных и легко визуализировать их для первоначального анализа, обеспечивая автоматизацию загрузки данных, из профилирования и классификации для повышения качества. DataWorks Forge предоставляет средства исключения дублирования, а также фильтрации и соединения различных наборов данных. Затем такие улучшенные наборы данных можно загружать различные целевые системы. Доступные источники/получатели перечислены в таблице 2.

Таблица 2. Исходные и целевые базы данных, поддерживаемые компонентом IBM DataWorks Forge
ИсточникиПолучатели
Amazon Redshift
dashDB
IBM DB2
IBM Informix
MySQLCloudant NoSQL DB
OracledashDB
Pivotal GreenplumIBM Watson Analytics
PostgreSQLSQL Database
Salesforce.com
SQL Database
Sybase
Sybase IQ

Продумывая значимость обогащения и повышения качества исходных данных, вы поймете, что в эти процессы могут быть включены многочисленные субъекты бизнес-деятельности (не только технические группы). Рассмотрим процесс выполнения этой задачи с использованием службы DataWorks. Кроме того, при повышении качества данных большое значение имеет формирование данных, которое можно легко выполнить с использованием службы DataWorks.

Рассмотрим применение API-интерфейсов загрузки, очистки и профилирования данных, используя приведенные ниже примеры приложений DataWorks со средой выполнения Java для приложений PaaS (Platform as a Service, платформа как сервис). Приложения используют службу DataWorks и любые выбранные сервисы исходных баз данных, а также модель программирования компоновки служб, поддерживаемую такими PaaS-средами, как Cloud Foundry. Мы будем использовать эти примеры приложений в среде IBM Bluemix DevOps Services, предоставляющей место для публикации приложений.

Таблица 3. Примеры приложений IBM Bluemix DevOps Services
Примеры приложений
Пример приложения Data Load
Пример приложения Address Cleansing
Пример приложения Data Profiling
Каталог IBM Bluemix

Что вам потребуется

Для выполнения перечисленных выше примеров приложений вам потребуется следующее:

  1. Учетная запись в IBM Bluemix
  2. Учетная запись в IBM Bluemix DevOps Services
  3. Знакомство с технологиями баз данных.

 

Есть вопросы о Bluemix?

Спросить в Stack OverflowСпросить в dW Answers

Stack Overflow или dW Answers — где лучше спрашивать?
 

Выполнение приложений, использующих Data Load API

Далее приведены действия, реализующие самый базовый подход к выполнению примеров приложений, использующих DataLoad API (см. также детальное описание интерфейсов DataWorks API):

  1. Шаг 1. Разверните пример приложения data-load из IBM Bluemix DevOps Services.

    1.1. Создайте экземпляр репозитория приложения dwaas-load под своей учетной записью в DevOps: Развертывание приложения.

    1.2. Приложение Liberty for Java будет добавлено на вашу панель Bluemix с тем же именем, что и ваш клонированный пример приложения.

    Рисунок 1. Подтверждение успешного создания и развертывания приложения dwaas-load
    Screenshot shows building and deploying of the data-load application
    Screenshot shows building and deploying of the data-load application
    Рисунок 2. Подтверждение добавления приложения dwaas-load к вашему приложению Bluemix
    Screenshot shows the added dwaas-load application to your Bluemix apps
    Screenshot shows the added dwaas-load application to your Bluemix apps
  2. Шаг 2. Добавьте новую службу DataWorks и привяжите ее к приложению dwaas-load.

    2.1. Нажмите Add a Service or API (см. рисунок 3) для добавления службы DataWorks или добавьте ее отдельно от вашей панели и привяжите к своему приложению с использованием Cloud Foundry (см. листинг 1).

    2.2. Нажмите кнопку RESTAGE для обновления приложения dwaas-load — это необходимо сделать для обеспечения возможности использовать новую службу DataWorks из вашего приложения.

    Рисунок 3. Добавление DataWorks к приложению dwaas-load
    Screenshot shows adding DataWorks to the dwaas-load application
    Screenshot shows adding DataWorks to the dwaas-load application
    Рисунок 4. Обновление приложения dwaas-load
    Screenshot shows restaging dwaas-load application
    Screenshot shows restaging dwaas-load application
    Рисунок 5. Подтверждение привязки службы DataWorks к приложению dwaas-load
    Screenshot shows bound DataWorks service to the dwaas-load application
    Screenshot shows bound DataWorks service to the dwaas-load application
    Листинг 1. Привязка службы DataWorks к приложению dwaas-load
    cf api https://api.ng.bluemix.net
    cf login -u user -o organization -s dev
    cf bind-service dwaas-load DWaaS
  3. Шаг 3. Добавьте две службы SQL Database и привяжите их к приложению dwaas-load.

    Для привязки службы SQL Database можно использовать Cloud Foundry (см. листинг 2).

    3.1. Добавьте службы SQL Database

    3.2. Привяжите службы SQL Database

    3.3. Обновите приложение dwaas-load — это необходимо сделать для обеспечения возможности использовать новые службы из вашего приложения.

    Рисунок 6. Привязка службы SQL Database к приложению dwaas-load
    Screenshot shows bound DataWorks service to the dwaas-load application
    Screenshot shows bound DataWorks service to the dwaas-load application
    Рисунок 7. Обновление приложения dwaas-load
    Screenshot shows restaging dwaas-load application
    Screenshot shows restaging dwaas-load application
    Листинг 2. Привязка службы SQL Database к приложению dwaas-load
    cf api https://api.ng.bluemix.net
    cf login -u user -o organization -s dev
    cf bind-service dwaas-load DWaaS-SQL-DB
  4. Шаг 4. Запустите и протестируйте ваше java-приложение dwaas-load.

    4.1. Получите информацию о SQL Database и учетные данные из переменных среды VCAP_SERVICES для вашего приложения dwaas-load. Они добавляются при привязке службы SQL Database к приложению.

    4.2. Запустите и протестируйте приложение Liberty for Java dwaas-load с использованием URL, предоставленного в вашем приложении.

    Рисунок 8. Выполнение приложения
    Screenshot shows dwaas-load application
    Screenshot shows dwaas-load application

Выполнение примера приложения IBM DataWorks Address Cleansing

Далее приведены действия, реализующие самый базовый подход к выполнению примера приложения для очистки данных. Для изучения расширенных возможностей ускоренной разработки с использованием этих API ознакомьтесь с детальным описанием интерфейсов IBM DataWorks API.

Развертывание примера приложения IBM DataWorks Address Cleansing

  1. Шаг 1. Разверните приложение data-cleansing.

    1.1. Создайте экземпляр репозитория приложения dwaas-cleansing под своей учетной записью в DevOps: Развертывание приложения из IBM Bluemix DevOps Services.

    1.2. Приложение Liberty for Java будет добавлено на вашу панель Bluemix с тем же именем, что и ваш клонированный пример приложения.

    Рисунок 9. Подтверждение успешного создания и развертывания приложения dwaas-cleansing
    Screenshot shows building and deploying the data-cleansing application
    Screenshot shows building and deploying the data-cleansing application
    Рисунок 10. Подтверждение добавления приложения dwaas-cleansing к вашему приложению Bluemix
    Screenshot shows the added dwaas-cleansing application to your Bluemix apps
    Screenshot shows the added dwaas-cleansing application to your Bluemix apps
  2. Шаг 2. Добавьте новую службу DataWorks и привяжите ее к приложению dwaas-cleansing.

    2.1. Нажмите Add a Service or API (см. рисунок 11) для добавления службы DataWorks или добавьте ее отдельно от вашей панели и привяжите к своему приложению с использованием Cloud Foundry (см. листинг 3).

    2.2. Обновите приложение dwaas-cleansing — это необходимо сделать для обеспечения возможности использовать DataWorks из вашего приложения.

    Рисунок 11. Добавление службы DataWorks к приложению dwaas-cleansing
    Screenshot shows binding DataWorks service to the dwaas-cleansing application
    Screenshot shows binding DataWorks service to the dwaas-cleansing application
    Рисунок 12. Обновление приложения dwaas-cleansing
    Screenshot restaging dwaas-cleansing application
    Screenshot restaging dwaas-cleansing application
    Рисунок 13. Подтверждение привязки службы DataWorks к приложению dwaas-cleansing
    Screenshot shows bound DataWorks service to the dwaas-cleansing application
    Screenshot shows bound DataWorks service to the dwaas-cleansing application
    Листинг 3. Привязка службы DataWorks к приложению dwaas-cleansing
    cf api https://api.ng.bluemix.net
    cf login -u user -o organization -s dev
    cf bind-service dwaas-cleansing DWaaS
  3. Шаг 3. Запустите и протестируйте ваше Java-приложение dwaas-cleansing.

    Запустите и протестируйте приложение Liberty for Java dwaas-cleansing с использованием URL, предоставленного в вашем приложении.

    Рисунок 14. Выполнение приложения
    Screenshot shows dwaas-cleansing application
    Screenshot shows dwaas-cleansing application

Выполнение примера приложения, использующего Data Profiling API

Далее приведены действия, реализующие самый базовый подход к выполнению примера приложения, использующего Data Profiling API. Для изучения расширенных возможностей ускоренной разработки с использованием этих API ознакомьтесь с детальным описанием интерфейсов IBM DataWorks API.

Развертывание примера приложения, использующего Data Profiling API

  1. Шаг 1. Разверните пример приложения data-profiling из IBM Bluemix DevOps Services.

    1.1. Создайте экземпляр репозитория приложения dwaas-profiling под своей учетной записью в DevOps: Развертывание приложения.

    1.2. Приложение Liberty for Java будет добавлено на вашу панель Bluemix с тем же именем, что и ваш клонированный пример приложения.

    Рисунок 15. Подтверждение успешного создания и развертывания приложения dwaas-profiling
    Screenshot shows building and deploying of the data-profiling application
    Screenshot shows building and deploying of the data-profiling application
    Рисунок 16. Подтверждение добавления приложения dwaas-profiling к вашему приложению Bluemix
    Screenshot shows the added dwaas-profiling application to your Bluemix apps
    Screenshot shows the added dwaas-profiling application to your Bluemix apps
  2. Шаг 2. Добавьте службы DataWorks и SQL Database и привяжите их к приложению dwaas-profiling.

    2.1. Нажмите Add a Service or API (см. рисунок 17) для добавления служб DataWorks и SQL Database или добавьте их отдельно от вашей панели и привяжите к своему приложению с использованием Cloud Foundry (см. листинг 4).

    2.2. Обновите приложение dwaas-profiling — это необходимо сделать для обеспечения возможности использовать новую службу DataWorks из вашего приложения.

    Рисунок 17. Добавление служб DataWorks и SQL Database к приложению dwaas-profiling
    Screenshot shows binding DataWorks and SQL Database services to the dwaas-profiling application
    Screenshot shows binding DataWorks and SQL Database services to the dwaas-profiling application
    Рисунок 18. Обновление приложения dwaas-profiling
    Screenshot shows restaging dwaas-profiling application
    Screenshot shows restaging dwaas-profiling application
    Рисунок 19. Подтверждение привязки служб DataWorks и SQL Database к приложению dwaas-profiling
    Screenshot shows bound DataWorks and SQL Database services to the dwaas-profiling application
    Screenshot shows bound DataWorks and SQL Database services to the dwaas-profiling application
    Листинг 4. Привязка служб DataWorks и SQL Database к приложению dwaas-profiling
    cf api https://api.ng.bluemix.net
    cf login -u user -o organization -s dev
    cf bind-service dwaas-profiling DWaaS
    cf bind-service dwaas-profiling DWaaS-SQL-DB
  3. Шаг 3. Запустите и протестируйте Java-приложение dwaas-profiling.

    Запустите и протестируйте приложение Liberty for Java dwaas-profiling с использованием URL, предоставленного в вашем приложении.

    Рисунок 20. Выполнение приложения
    Screenshot shows dwaas-profiling application
    Screenshot shows dwaas-profiling application

Использование компонента Data Forge

Далее приведены действия, реализующие самый базовый подход к использованию компонента Data Forge. Для изучения расширенных возможностей ускоренной разработки с использованием этого компонента ознакомьтесь с детальным описанием Data Forge.

  1. Шаг 1. Добавьте службу DataWorks для использования ее компонента Data Forge.
    Рисунок 21. Добавление независимой службы DataWorks без какого-либо приложения
    Screenshot shows adding independent DataWorks service
    Screenshot shows adding independent DataWorks service
    Рисунок 22. Подтверждение добавления службы DataWorks на панель Bluemix
    Screenshot shows the added DataWorks service to your Bluemix dashboard
    Screenshot shows the added DataWorks service to your Bluemix dashboard
  2. Шаг 2. Добавьте источники данных, к которым необходимо применить формирование данных.
    Рисунок 23. Добавление SQL Database как источника данных
    Screenshot shows adding an SQL Database service
    Screenshot shows adding an SQL Database service
    Рисунок 24. Выбор требуемых таблиц для формирования данных
    Screenshot shows the added database to be shaped
    Screenshot shows the added database to be shaped
  3. Шаг 3. Проверьте качество исходных данных и определите области для улучшений. Затем выберите соответствующее действие для повышения качества исходных данных.
    Рисунок 25. Проверка качества выбранных данных
    Screenshot shows examining the quality of selected data
    Screenshot shows examining the quality of selected data
    Рисунок 26. Проверка качества выбранных данных
    Screenshot shows examining the quality of selected data
    Screenshot shows examining the quality of selected data
    Рисунок 27. Проверка качества выбранных данных
    Screenshot shows examining the quality of selected data
    Screenshot shows examining the quality of selected data
    Рисунок 28. Выбор соответствующего действия для повышения качества данных
    Screenshot shows selecting appropriate action to increase the data quality
    Screenshot shows selecting appropriate action to increase the data quality
    Рисунок 29. После исключения дублирования качество данных повысилось с 70% до 87%
    Screenshot shows that the data quality increased from 70% to 87% after removing duplicates
    Screenshot shows that the data quality increased from 70% to 87% after removing duplicates
  4. Шаг 4. Сохраните сформированные данные в целевой базе данных и проконтролируйте свои операции.
    Рисунок 30. Выбор целевой базы данных
    Screenshot of selecting target data source
    Screenshot of selecting target data source
    Рисунок 31. Мониторинг ваших операций загрузки
    Screenshot of monitoring your loading activity
    Screenshot of monitoring your loading activity

Заключение

Из этой статьи вы узнали, как можно легко выполнять загрузку, очистку, профилирование и формирование данных с использованием интерфейсов IBM DataWorks API и компонента DataWorks Forge. Они обеспечивают простой доступ и контроль для множества процессов интеграции данных и, несомненно, позволяют ускорить выполнение задач в сравнении с традиционными методами.

Вскоре будет опубликована вторая часть, охватывающая другие службы Analytics в Bluemix.


Ресурсы для скачивания


Похожие темы


Комментарии

Войдите или зарегистрируйтесь для того чтобы оставлять комментарии или подписаться на них.

static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=40
Zone=Information Management, Большие данные и аналитика
ArticleID=1030847
ArticleTitle=Интеграция и анализ данных как сервис: Часть 1. DataWorks
publish-date=04282016