Содержание


Использование преимуществ корпоративной версии Hadoop

Почему коммерческие реализации Hadoop являются оптимальными для развертывания на предприятии

Comments

Целью любого развертывания больших данных на предприятии является аналитика. Реляционные базы данных остаются лучшими технологиями для транзакционных приложений, играющих ключевую роль на большинства предприятиях, но в задачах анализа данных возможностей реляционных баз данных может быть недостаточно. Внедрение на предприятии Apache Hadoop (или основанных на Hadoop систем больших данных) отражает акцент на выполнении анализа, а не просто на хранении транзакций.

Для успешного внедрения Hadoop или основанных на Hadoop систем с возможностями анализа необходимо рассмотреть уровень готовности предприятия по четырем направлениям:

  • Безопасность – предотвращение кражи данных и управление доступом.
  • Поддержка – документация и консультирование.
  • Анализ – минимальный набор функций анализа, которые нужны предприятию.
  • Интеграция – интеграция с унаследованными продуктами и продуктами сторонних разработчиков с целью переноса данных или обмена данными.

Используя эти категории в качестве основы для сравнения, авторы статьи обосновывают целесообразность внедрения на предприятии коммерческих Hadoop-продуктов для анализа больших данных, таких как InfoSphere BigInsights, а не простых реализаций Hadoop с открытым исходным кодом.

Предотвращение кражи данных и управление доступом

Безопасность является типичной проблемой развертываний Hadoop. Hadoop хранит и обрабатывает неструктурированные данные, поступающие из множества источников. Это может вызывать проблемы управления доступом, разграничения доступа к данным и владения данными. ИТ-менеджерам необходимо управлять доступом к данным, входящим в систему и выходящим из нее. Тот факт, что Hadoop и основанные на Hadoop среды содержат данные с различными классификациями и уровнями конфиденциальности, может усугубить сложность управления доступом. Основными рисками являются кража данных и несанкционированный доступ или разглашение данных.

Кража данных является местной проблемой уровня предприятия. Атаки на корпоративные ИТ-системы являются общей проблемой. Эти проблемы решены в традиционных реляционных системах. Но внедрение систем больших данных – это совсем другое дело, учитывая новый набор технологий. По умолчанию большинство систем больших данных не шифрует данные в состоянии покоя, - проблема, которую необходимо решить в первую очередь. Также необходимо администрирование кластеров имеющихся данных. В реляционных системах подобные проблемы опять-таки уже решены. Но учитывая, что инструменты администрирования кластеров для Hadoop-систем пока отсутствуют, возможен нежелательный прямой доступ к файлам данных или процессам с данными узлов.

Кроме того, слияние нескольких наборов данных для анализа создает новый набор данных, который может требовать отдельного управления доступом. Роли, которые были применены к источникам данных, теперь необходимо определять для объединенных источников данных. Необходимо определить четкие границы технических и функциональных ролей. Ни один из вариантов не является совершенным. Функциональные роли делают возможным несанкционированный доступ к данным до и после слияния, но их легче администрировать при объединении наборов данных. Технические роли обеспечивают безопасность исходных узлов данных, но создают проблемы доступа при объединении узлов. Встроенные в файловую систему HDFS функции защиты и управления доступом не решают эту дилемму. Некоторые компании, использующие Hadoop, создают новые среды для объединенных наборов данных или защищают доступ к объединенным данным с помощью специальных сетевых экранов.

Помочь в обеспечении безопасности данных Hadoop-систем могут продукты, подобные InfoSphere Guardium® Data Security (см. раздел Ресурсы). InfoSphere Guardium Data Security автоматизирует весь процесс аудита соответствия в гетерогенных средах с помощью таких функций, как автоматическое обнаружение конфиденциальных данных, автоматизированная отчетность о соответствии требованиям и управление доступом на уровне данных.

Документация и консультирование

Отсутствие документации является еще одной распространенной корпоративной проблемой. Роли и спецификации меняются, а консультанты и сотрудники уходят. Если роли и спецификации плохо задокументированы, потребуется много усилий для реализации изменения с нуля. Это главная проблема систем Apache Hadoop с открытым исходным кодом. Напротив, предназначенные для предприятий Hadoop-продукты, такие как IBM InfoSphere BigInsights, решают эту проблему путем предоставления структурированной документации и поддержки на уровне предприятия. Дополнительным преимуществом является то, что каждая разработка для Hadoop-систем с открытым исходным кодом также работает и с BigInsights, поскольку BigInsights построен на Apache Hadoop.

Используя продукты, подобные InfoSphere BigInsights, предприятие получает внешнюю поддержку. По экономическим соображениям крупные предприятия обычно держат группу поддержки только для основных ИТ-функций. Выполнение сложных развертываний силами таких групп практически невозможно, учитывая уровень их технических знаний. Некоторые небольшие компании успешно специализируются на комплексном развертывании Hadoop-систем в крупных компаниях. Но небольшие компании не гарантируют долгосрочную поддержку, поскольку могут прекратить свое существование в долгосрочной перспективе.

Структурированные услуги консультирования и поддержки, предоставляемые крупным поставщиком, решают эти проблемы. Они могут удовлетворить потребности и ожидания предприятия путем развертывания, мониторинга и поддержки стандартной версии Hadoop. Кроме того, в роли штатных сотрудников могут выступать внешние консультанты, обладающие необходимыми навыками. Они могут использовать опыт и передовые методики целого ряда отраслей. Это особенно важное преимущество, учитывая новизну области больших данных. Можно привлечь консультантов по большим данным к обучению сотрудников предприятия с целью повышения их квалификации. Помощь консультантов можно также использовать для расширения проектов и регулярного обслуживания.

Аналитика как источник бизнес-ценности

Целью систем больших данных является извлечение максимальной выгоды из информации. Apache Hadoop предоставляет технические возможности и инфраструктуру, позволяющие справляться с "тремя V" больших данных: объемом (volume), разнообразием (variety) и скоростью (velocity). Но накопление и обработка данных не имеют никакого смысла, если данные нельзя проанализировать. Данные могут поступать из различных источников, таких как текстовые файлы, базы данных, пакетированные приложения, системы планирования корпоративных ресурсов (ERP), системы управления взаимоотношениями с клиентами (CRM) или потоки. Hadoop отлично умеет управлять данными и хранить их. Но управление данными и их хранение сами по себе не представляют никакой бизнес-ценности. Бизнес-ценность создает анализ данных. (Это то, что не удается реляционным базам данных. Они способны хранить большие объемы данных, но не могут эффективно обрабатывать их в режиме реального времени.)

Для анализа данных, хранящихся в Hadoop, необходимо разработать приложения поверх Hadoop. Это могут быть инструменты визуализации статистических данных или инструменты анализа. Чтобы не создавать их с нуля, можно с помощью API подключить к Hadoop такое ПО как IBM SPSS, SAS или R. Даже Google, разработчик подхода MapReduce, теперь использует его только для сбора и организации данных. Для анализа Google использует Dremel, масштабируемую систему запросов для анализа вложенных данных в режиме только чтения.

Даже у тех предприятий, которые не являются крупномасштабными интернет-компаниями, работающими с петабайтами данных, есть достаточно вариантов применения аналитики, например:

  • Анализ рисков в сфере финансовых услуг.
  • Выявление мошенничества.
  • Автоматизированная биржевая торговля.
  • Исследование поведения клиентов для целей страхования.
  • Исследование поведения клиентов для совершенствования управления кредитными рисками.
  • Анализ деятельности поставщиков в сфере высокоскоростных услуг или для оптимизации сопутствующих услуг.
  • Анализ в здравоохранении.
  • Производство и мониторинг интеллектуальных продуктов (таких как курьерская доставка или системы учета) с использованием встроенных радиочастотных идентификационных (RFID) меток.
  • Управление затратами.
  • Анализ данных датчиков.
  • Анализ транзакций клиентов в маркетинговых целях (например, телекоммуникационная отрасль часто предлагает пакеты услуг, учитывающие преобладающие предпочтения клиентов).
  • Маркетинговые кампании в социальных медиа.

Традиционные инструменты бизнес-аналитики и анализа данных не позволяют анализировать подобные объемы данных. Используемое программное обеспечение должно выполнять не только крупномасштабный анализ, но и детализацию информации для разработки конкретных мероприятий, соответствующих бизнес-целям. Возможность извлекать крупицы полезной информации является священным граалем аналитики. Это не удается большинству систем анализа больших данных. Чем крупнее масштаб анализа, тем меньше возможности детализации, и наоборот.

Система InfoSphere BigInsights обеспечивает крупномасштабный анализ и детализацию. Используя входящую в ее состав реализацию Hadoop, пакет InfoSphere BigInsights держит в памяти огромные объемы аналитической информации и позволяет выполнять исследование мультиструктурных данных с невозможной ранее детальностью. Она поддерживает встроенное сжатие данных и язык запросов JSON (JAQL) для обработки и анализа частично структурированных JSON-данных. Помимо всего этого, он поддерживает основанный на MapReduce анализ текста с использованием машинного обучения. Это имеет решающее значение при детализации крупномасштабных данных, поскольку часто неизвестно, что именно нужно найти. Машинное обучение используется при обнаружении закономерностей, прогнозировании тенденций и извлечении статистических моделей (если они есть) из неструктурированных данных.

Интеграция с унаследованными системами и системами сторонних разработчиков

Сегодняшние возможности Hadoop не позволяют строить поверх него продвинутые приложения, такие как ERP-системы. Поэтому приходится интегрировать с Hadoop-системами данные систем сторонних разработчиков. Наиболее распространенный способ доставки Web-данных – протокол SOAP. Для других приложений необходимы специализированные коннекторы, разрабатываемые в основном на Java™, .NET или C++. Вместо разработки специализированных программ интеграции можно использовать продукт IBM Netezza. Netezza предоставляет большую библиотеку распараллеленных передовых алгоритмов прогнозирования, а также позволяет создавать пользовательские сценарии анализа на ряде языков программирования (включая C, C++, Java, Perl, Python и R). Это позволяет интегрировать систему с SPSS® или аналитическим ПО таких компаний, как SAS, Revolution Analytics (для Enterprise R), Fuzzy Logix и Zementis. Кроме того, программный интерфейс Netezza открывает возможность интеграции практически с любыми ERP-системами, которые имеют коннекторы для C и Java (например, Java-коннектор Jco в SAP).

В InfoSphere BigInsights возможности интеграции систем сторонних разработчиков еще больше. Этот пакет поддерживает дистрибутив Cloudera Hadoop в дополнение к дистрибутиву IBM. Поддержка Cloudera очень важна, потому что Cloudera имеет большую клиентскую базу. Теперь клиенты Cloudera могут легко использовать инструменты BigInsights.

BigInsights может подключать потоки данных из различных источников непосредственно к DB2®, Netezza и PureData™. В состав BigInsights также входит MapReduce-инструмент BigIndex, который создает индексы для поиска с помощью аналитических приложений.

Заключение

Hadoop-система с интегрированными возможностями анализа является идеальным выбором для предприятия. Простая система Hadoop, не позволяющая легко воспользоваться аналитическими приложениями, сама по себе не представляет бизнес-ценности. Кроме того, разработка с нуля функций анализа, обмена данными и поддержки для простой Hadoop является трудоемкой, длительной и чрезвычайно дорогостоящей задачей. Корпоративные версии Hadoop, такие как InfoSphere BigInsights, решают технические проблемы развертывания, обеспечивают легкодоступную и стабильную поддержку, а также гарантируют органичную интеграцию с большим числом унаследованных и современных систем. Корпоративные версии Hadoop включают в себя передовые инструменты анализа для детализации данных и слияния их с интернет-данными и данными датчиков с целью извлечения полезной информации.


Ресурсы для скачивания


Похожие темы


Комментарии

Войдите или зарегистрируйтесь для того чтобы оставлять комментарии или подписаться на них.

static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=40
Zone=Information Management
ArticleID=955066
ArticleTitle=Использование преимуществ корпоративной версии Hadoop
publish-date=11292013