Использование преимуществ корпоративной версии Hadoop

Почему коммерческие реализации Hadoop являются оптимальными для развертывания на предприятии

Технологии MapReduce широко используются предприятиями, которым необходимо анализировать большие данные в состоянии покоя. У компаний есть выбор между реализациями MapReduce с открытым исходным кодом (это в первую очередь, Apache Hadoop) и коммерческими реализациями. Авторы данной статьи утверждают, что корпоративным требованиям больше соответствуют такие основанные на Hadoop продукты, как InfoSphere® BigInsights™, а не простой Hadoop.

Ариб Камран, консультант по ERP-решениям, консультант

Areeb Kamran photoАриб Камран (Areeb Kamran) имеет ученую степень по технологиям вычислительных систем. Последние три года он работает в многонациональной компании, входящей в список Fortune 500, как консультант по ERP-технологиям, главным образом для управления материалами и цепочками поставок. Он также принимает активное участие в научных исследованиях в области машинного обучения и его применения в бизнесе для составления отчетов, прогнозирования и анализа.



Уль Хак, генеральный директор, TunaCode

Photo of Salman Ul HaqСалман Хак (Salman Haq) — один из основателей и генеральный директор компании TunaCode Inc., разрабатывающей высокопроизводительные вычислительные решения для визуализации данных с использованием собственной библиотеки CUVI GPU Imaging в таких отраслях, как производство, оборона, медицина и развлечения. Кроме того, компания является разработчиком решения gKrypt, обеспечивающего сверхскоростное шифрование в оборонной промышленности. Адрес электронной почты: salman@tunacode.com.



29.11.2013

Целью любого развертывания больших данных на предприятии является аналитика. Реляционные базы данных остаются лучшими технологиями для транзакционных приложений, играющих ключевую роль на большинства предприятиях, но в задачах анализа данных возможностей реляционных баз данных может быть недостаточно. Внедрение на предприятии Apache Hadoop (или основанных на Hadoop систем больших данных) отражает акцент на выполнении анализа, а не просто на хранении транзакций.

Для успешного внедрения Hadoop или основанных на Hadoop систем с возможностями анализа необходимо рассмотреть уровень готовности предприятия по четырем направлениям:

  • Безопасность – предотвращение кражи данных и управление доступом.
  • Поддержка – документация и консультирование.
  • Анализ – минимальный набор функций анализа, которые нужны предприятию.
  • Интеграция – интеграция с унаследованными продуктами и продуктами сторонних разработчиков с целью переноса данных или обмена данными.

Используя эти категории в качестве основы для сравнения, авторы статьи обосновывают целесообразность внедрения на предприятии коммерческих Hadoop-продуктов для анализа больших данных, таких как InfoSphere BigInsights, а не простых реализаций Hadoop с открытым исходным кодом.

InfoSphere BigInsights

InfoSphere BigInsights – это дистрибутив Hadoop, разработанный IBM. Он включает в себя ядро Hadoop (распределенная файловая система HDFS и MapReduce) и ряд других сервисов экосистемы Hadoop, таких как Pig, Hive, HBase и ZooKeeper; также в него добавлены оптимизирующие эксплуатацию функции, такие как оптимизированное сжатие больших данных, управление рабочей нагрузкой, возможности планирования и экосистема разработки и развертывания приложений. Познакомьтесь с дополнительной информацией и загрузите ознакомительную версию бесплатно.

Предотвращение кражи данных и управление доступом

Безопасность является типичной проблемой развертываний Hadoop. Hadoop хранит и обрабатывает неструктурированные данные, поступающие из множества источников. Это может вызывать проблемы управления доступом, разграничения доступа к данным и владения данными. ИТ-менеджерам необходимо управлять доступом к данным, входящим в систему и выходящим из нее. Тот факт, что Hadoop и основанные на Hadoop среды содержат данные с различными классификациями и уровнями конфиденциальности, может усугубить сложность управления доступом. Основными рисками являются кража данных и несанкционированный доступ или разглашение данных.

Кража данных является местной проблемой уровня предприятия. Атаки на корпоративные ИТ-системы являются общей проблемой. Эти проблемы решены в традиционных реляционных системах. Но внедрение систем больших данных – это совсем другое дело, учитывая новый набор технологий. По умолчанию большинство систем больших данных не шифрует данные в состоянии покоя, - проблема, которую необходимо решить в первую очередь. Также необходимо администрирование кластеров имеющихся данных. В реляционных системах подобные проблемы опять-таки уже решены. Но учитывая, что инструменты администрирования кластеров для Hadoop-систем пока отсутствуют, возможен нежелательный прямой доступ к файлам данных или процессам с данными узлов.

Кроме того, слияние нескольких наборов данных для анализа создает новый набор данных, который может требовать отдельного управления доступом. Роли, которые были применены к источникам данных, теперь необходимо определять для объединенных источников данных. Необходимо определить четкие границы технических и функциональных ролей. Ни один из вариантов не является совершенным. Функциональные роли делают возможным несанкционированный доступ к данным до и после слияния, но их легче администрировать при объединении наборов данных. Технические роли обеспечивают безопасность исходных узлов данных, но создают проблемы доступа при объединении узлов. Встроенные в файловую систему HDFS функции защиты и управления доступом не решают эту дилемму. Некоторые компании, использующие Hadoop, создают новые среды для объединенных наборов данных или защищают доступ к объединенным данным с помощью специальных сетевых экранов.

Помочь в обеспечении безопасности данных Hadoop-систем могут продукты, подобные InfoSphere Guardium® Data Security (см. раздел Ресурсы). InfoSphere Guardium Data Security автоматизирует весь процесс аудита соответствия в гетерогенных средах с помощью таких функций, как автоматическое обнаружение конфиденциальных данных, автоматизированная отчетность о соответствии требованиям и управление доступом на уровне данных.


Документация и консультирование

Отсутствие документации является еще одной распространенной корпоративной проблемой. Роли и спецификации меняются, а консультанты и сотрудники уходят. Если роли и спецификации плохо задокументированы, потребуется много усилий для реализации изменения с нуля. Это главная проблема систем Apache Hadoop с открытым исходным кодом. Напротив, предназначенные для предприятий Hadoop-продукты, такие как IBM InfoSphere BigInsights, решают эту проблему путем предоставления структурированной документации и поддержки на уровне предприятия. Дополнительным преимуществом является то, что каждая разработка для Hadoop-систем с открытым исходным кодом также работает и с BigInsights, поскольку BigInsights построен на Apache Hadoop.

Используя продукты, подобные InfoSphere BigInsights, предприятие получает внешнюю поддержку. По экономическим соображениям крупные предприятия обычно держат группу поддержки только для основных ИТ-функций. Выполнение сложных развертываний силами таких групп практически невозможно, учитывая уровень их технических знаний. Некоторые небольшие компании успешно специализируются на комплексном развертывании Hadoop-систем в крупных компаниях. Но небольшие компании не гарантируют долгосрочную поддержку, поскольку могут прекратить свое существование в долгосрочной перспективе.

Структурированные услуги консультирования и поддержки, предоставляемые крупным поставщиком, решают эти проблемы. Они могут удовлетворить потребности и ожидания предприятия путем развертывания, мониторинга и поддержки стандартной версии Hadoop. Кроме того, в роли штатных сотрудников могут выступать внешние консультанты, обладающие необходимыми навыками. Они могут использовать опыт и передовые методики целого ряда отраслей. Это особенно важное преимущество, учитывая новизну области больших данных. Можно привлечь консультантов по большим данным к обучению сотрудников предприятия с целью повышения их квалификации. Помощь консультантов можно также использовать для расширения проектов и регулярного обслуживания.


Аналитика как источник бизнес-ценности

Целью систем больших данных является извлечение максимальной выгоды из информации. Apache Hadoop предоставляет технические возможности и инфраструктуру, позволяющие справляться с "тремя V" больших данных: объемом (volume), разнообразием (variety) и скоростью (velocity). Но накопление и обработка данных не имеют никакого смысла, если данные нельзя проанализировать. Данные могут поступать из различных источников, таких как текстовые файлы, базы данных, пакетированные приложения, системы планирования корпоративных ресурсов (ERP), системы управления взаимоотношениями с клиентами (CRM) или потоки. Hadoop отлично умеет управлять данными и хранить их. Но управление данными и их хранение сами по себе не представляют никакой бизнес-ценности. Бизнес-ценность создает анализ данных. (Это то, что не удается реляционным базам данных. Они способны хранить большие объемы данных, но не могут эффективно обрабатывать их в режиме реального времени.)

Для анализа данных, хранящихся в Hadoop, необходимо разработать приложения поверх Hadoop. Это могут быть инструменты визуализации статистических данных или инструменты анализа. Чтобы не создавать их с нуля, можно с помощью API подключить к Hadoop такое ПО как IBM SPSS, SAS или R. Даже Google, разработчик подхода MapReduce, теперь использует его только для сбора и организации данных. Для анализа Google использует Dremel, масштабируемую систему запросов для анализа вложенных данных в режиме только чтения.

Даже у тех предприятий, которые не являются крупномасштабными интернет-компаниями, работающими с петабайтами данных, есть достаточно вариантов применения аналитики, например:

  • Анализ рисков в сфере финансовых услуг.
  • Выявление мошенничества.
  • Автоматизированная биржевая торговля.
  • Исследование поведения клиентов для целей страхования.
  • Исследование поведения клиентов для совершенствования управления кредитными рисками.
  • Анализ деятельности поставщиков в сфере высокоскоростных услуг или для оптимизации сопутствующих услуг.
  • Анализ в здравоохранении.
  • Производство и мониторинг интеллектуальных продуктов (таких как курьерская доставка или системы учета) с использованием встроенных радиочастотных идентификационных (RFID) меток.
  • Управление затратами.
  • Анализ данных датчиков.
  • Анализ транзакций клиентов в маркетинговых целях (например, телекоммуникационная отрасль часто предлагает пакеты услуг, учитывающие преобладающие предпочтения клиентов).
  • Маркетинговые кампании в социальных медиа.

Традиционные инструменты бизнес-аналитики и анализа данных не позволяют анализировать подобные объемы данных. Используемое программное обеспечение должно выполнять не только крупномасштабный анализ, но и детализацию информации для разработки конкретных мероприятий, соответствующих бизнес-целям. Возможность извлекать крупицы полезной информации является священным граалем аналитики. Это не удается большинству систем анализа больших данных. Чем крупнее масштаб анализа, тем меньше возможности детализации, и наоборот.

Система InfoSphere BigInsights обеспечивает крупномасштабный анализ и детализацию. Используя входящую в ее состав реализацию Hadoop, пакет InfoSphere BigInsights держит в памяти огромные объемы аналитической информации и позволяет выполнять исследование мультиструктурных данных с невозможной ранее детальностью. Она поддерживает встроенное сжатие данных и язык запросов JSON (JAQL) для обработки и анализа частично структурированных JSON-данных. Помимо всего этого, он поддерживает основанный на MapReduce анализ текста с использованием машинного обучения. Это имеет решающее значение при детализации крупномасштабных данных, поскольку часто неизвестно, что именно нужно найти. Машинное обучение используется при обнаружении закономерностей, прогнозировании тенденций и извлечении статистических моделей (если они есть) из неструктурированных данных.


Интеграция с унаследованными системами и системами сторонних разработчиков

Система PureData System for Hadoop

PureData System for Hadoop – это специализированная, основанная на стандартах, экспертная интегрированная система, интегрирующаяся с IBM InfoSphere BigInsights на архитектурном уровне. Она оптимизирует применение сервисов данных Hadoop для анализа больших данных и онлайн-архивирования. Она открывает предприятию возможности корпоративной версии Hadoop – простые в использовании инструменты анализа и визуализации для бизнес-аналитиков и специалистов по данным. Она предоставляет богатый инструментарий разработчика, мощные аналитические функции и исключительные возможности администрирования и управления, а также последние версии Hadoop и связанных с ним проектов. Также она предоставляет широкие возможности использования усовершенствованных инструментов для мониторинга, разработки и интеграции с другими системами предприятия.

Сегодняшние возможности Hadoop не позволяют строить поверх него продвинутые приложения, такие как ERP-системы. Поэтому приходится интегрировать с Hadoop-системами данные систем сторонних разработчиков. Наиболее распространенный способ доставки Web-данных – протокол SOAP. Для других приложений необходимы специализированные коннекторы, разрабатываемые в основном на Java™, .NET или C++. Вместо разработки специализированных программ интеграции можно использовать продукт IBM Netezza. Netezza предоставляет большую библиотеку распараллеленных передовых алгоритмов прогнозирования, а также позволяет создавать пользовательские сценарии анализа на ряде языков программирования (включая C, C++, Java, Perl, Python и R). Это позволяет интегрировать систему с SPSS® или аналитическим ПО таких компаний, как SAS, Revolution Analytics (для Enterprise R), Fuzzy Logix и Zementis. Кроме того, программный интерфейс Netezza открывает возможность интеграции практически с любыми ERP-системами, которые имеют коннекторы для C и Java (например, Java-коннектор Jco в SAP).

В InfoSphere BigInsights возможности интеграции систем сторонних разработчиков еще больше. Этот пакет поддерживает дистрибутив Cloudera Hadoop в дополнение к дистрибутиву IBM. Поддержка Cloudera очень важна, потому что Cloudera имеет большую клиентскую базу. Теперь клиенты Cloudera могут легко использовать инструменты BigInsights.

BigInsights может подключать потоки данных из различных источников непосредственно к DB2®, Netezza и PureData™. В состав BigInsights также входит MapReduce-инструмент BigIndex, который создает индексы для поиска с помощью аналитических приложений.


Заключение

Hadoop-система с интегрированными возможностями анализа является идеальным выбором для предприятия. Простая система Hadoop, не позволяющая легко воспользоваться аналитическими приложениями, сама по себе не представляет бизнес-ценности. Кроме того, разработка с нуля функций анализа, обмена данными и поддержки для простой Hadoop является трудоемкой, длительной и чрезвычайно дорогостоящей задачей. Корпоративные версии Hadoop, такие как InfoSphere BigInsights, решают технические проблемы развертывания, обеспечивают легкодоступную и стабильную поддержку, а также гарантируют органичную интеграцию с большим числом унаследованных и современных систем. Корпоративные версии Hadoop включают в себя передовые инструменты анализа для детализации данных и слияния их с интернет-данными и данными датчиков с целью извлечения полезной информации.

Ресурсы

Научиться

Получить продукты и технологии

Обсудить

Комментарии

developerWorks: Войти

Обязательные поля отмечены звездочкой (*).


Нужен IBM ID?
Забыли Ваш IBM ID?


Забыли Ваш пароль?
Изменить пароль

Нажимая Отправить, Вы принимаете Условия использования developerWorks.

 


Профиль создается, когда вы первый раз заходите в developerWorks. Информация в вашем профиле (имя, страна / регион, название компании) отображается для всех пользователей и будет сопровождать любой опубликованный вами контент пока вы специально не укажите скрыть название вашей компании. Вы можете обновить ваш IBM аккаунт в любое время.

Вся введенная информация защищена.

Выберите имя, которое будет отображаться на экране



При первом входе в developerWorks для Вас будет создан профиль и Вам нужно будет выбрать Отображаемое имя. Оно будет выводиться рядом с контентом, опубликованным Вами в developerWorks.

Отображаемое имя должно иметь длину от 3 символов до 31 символа. Ваше Имя в системе должно быть уникальным. В качестве имени по соображениям приватности нельзя использовать контактный e-mail.

Обязательные поля отмечены звездочкой (*).

(Отображаемое имя должно иметь длину от 3 символов до 31 символа.)

Нажимая Отправить, Вы принимаете Условия использования developerWorks.

 


Вся введенная информация защищена.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=40
Zone=Information Management
ArticleID=955066
ArticleTitle=Использование преимуществ корпоративной версии Hadoop
publish-date=11292013