充分利用企业 Hadoop 的优势

为什么商业 Hadoop 实现最适合用于企业部署

MapReduce 实现是希望分析静止大数据的企业的首选技术。企业可以选择使用单纯的开源 MapReduce 实现(最著名的就是 Apache Hadoop),也可以选择使用商业实现。在这里,作者证明了以下情形:基于 Hadoop 的产品(比如 InfoSphere® BigInsights™)比不同的 Hadoop 更能满足企业需求。

Areeb Kamran, ERP 顾问, Consultant

Areeb Kamran 的照片Areeb Kamran 拥有计算机系统研究生学位。他过去 3 年一直在一家财富 500 强跨国公司担任 ERP 顾问,主要关注材料管理和供应链。他还积极参与机器学习及其在业务报告、预测和分析中的应用方面的学术研究。



Salman Ul Haq, CEO, TunaCode

Salman Ul Haq 的照片Salman Ul Haq 是来自巴基斯坦的一名技术企业家。他是 TunaCode 的 CEO 兼共同创立者,这家技术创业公司致力于向科学团体以及需要大规模计算能力的商业公司提供 GPU 计算解决方案。他还是 ProgrammerFish 的共同创立者兼首席编辑,这个著名的技术博客每天都会有数千人访问。他的主要工作包括编写和管理博客,以及与客户、读者和用户交流。



2013 年 10 月 24 日

分析是所有企业大数据部署的核心。关系数据库仍然是运行事务性应用程序的最佳技术(对于大多数企业当然是至关重要的),但谈到数据分析,关系数据库就显得有些压力。企业对 Apache Hadoop(或类似 Hadoop 的大数据系统)的采用反映了他们注重执行分析,而不是仅仅只注重存储事务。

要成功实现具有分析功能的 Hadoop 或类 Hadoop 系统,企业必须解决以下 4 个类别中的一些准备问题:

  • 安全性— 预防数据盗窃和控制访问
  • 支持— 文档和咨询
  • 分析— 企业需要的最少的分析特性
  • 集成— 与遗留或第三方产品集成,以实现数据迁移或数据交换

使用这 4 个类别作为比较的基础,本文将进行以下案例研究:企业为什么采用商业 Hadoop 产品(比如 InfoSphere BigInsights),而不是采用开源的 “普通” Hadoop 安装。

InfoSphere BigInsights

InfoSphere BigInsights 是 IBM 的 Hadoop 发行版。它包含核心的 Hadoop(Hadoop Distributed File System、MapReduce)功能和 Hadoop 生态系统中其他一些服务,比如 Apache Pig、Hive 和 ZooKeeper;它添加了一些出色的操作功能(比如大数据优化的压缩、工作负载管理和调度功能),以及一个应用程序开发和部署生态系统。了解更多信息免费试用

预防数据盗窃和控制访问

安全问题是 Hadoop 部署中的一个常见问题。根据设计,Hadoop 存储和处理来自多个来源的非结构化数据。这可能导致访问控制、数据授权和所有权问题。IT 经理需要控制对进入系统和离开系统的数据的访问。Hadoop(或类 Hadoop 环境)包含具有各种保密级别和敏感级别的数据,这一事实可能使访问控制问题恶化。最终导致数据盗窃、不当的数据访问或数据披露的风险。

数据盗窃是企业级别上的一个流行问题。企业 IT 系统经常遭受攻击。这些问题已在传统关系系统中得以解决。但为大数据系统实现解决方案有所不同,因为一些新的技术在发挥作用。默认情况下,大多数大数据系统均未对静止数据进行加密,这个问题必须首先解决。再次声明,关系系统已克服了类似问题。但考虑到类 Hadoop 系统还没有可用的集群管理工具,所以可能发生对数据文件或数据节点流程的不必要的直接访问。

此外,如果为分析而合并多个数据库,会创造了一个可能需要独立的访问控制的新数据集。现在,必须为这个数据源组合定义应用于各个数据源的角色。必须在技术或功能基础上为角色定义明确的边界。两种选择都不完美。在功能基础上建立角色可能助长对数据的窥探,但在合并了数据集后,管理员更容易实现它。技术基础可保护原始数据节点,但在合并节点后带来了访问问题。Hadoop Distributed File System (HDFS) 中内置的访问控制和安全特性无法解除这一困境。一些使用 Hadoop 的公司正在构建新环境来存储合并的数据集,或者正在通过自定义防火墙保护对合并数据的访问。

InfoSphere Guardium® Data Security(参见 参考资料)等产品可施以援手,确保基于 Hadoop 的系统中的数据的安全。InfoSphere Guardium Data Security 通过一些特性自动化了异构环境中的整个合规性审计流程,这些特性包括敏感数据的自动发现、自动化的合规性报告,以及数据集访问控制等。


文档和咨询

缺乏文档是另一个常见的企业问题。角色和规范不断更改,顾问和员工相继离去。除非角色和规范进行了明确备案,否则在发生变更时,许多工作必须从头开始做起。这是开源 Apache Hadoop 的一个主要问题。与此相反,专为企业设计的基于 Hadoop 的结构化产品(比如 IBM InfoSphere BigInsights)可解决此问题,提供结构化的文档和企业级支持。事实上每项针对开源 Hadoop 版本的开发都适用于 BigInsights,因为 BigInsights 构建于 Apache Hadoop 之上,而 BigInsights 在此基础上还增添了上述优势。

通过部署 InfoSphere BigInsights 这样的产品,企业能够获得外部支持所提供的优势。出于业务原因,大型企业通常仅为核心 IT 功能保留一个支持团队。受其技术经验水平的限制,复杂的部署对这些团队而言几乎是不可能完成的。一些小型公司专门致力帮助大型公司执行复杂的 Hadoop 部署。但不能依靠小型公司来提供长期支持。因为他们可能不会存在太久。

著名供应商所提供的结构化的咨询和支持解决了这些问题。可部署、跟踪和支持一个标准的 Hadoop 版本,以满足企业需求和期望。外部顾问也可承担全职员工的角色 — 但要具有合适的技能集。而且他们可应用从各行各业获得的经验和最佳实践。考虑到大数据仍然是一个缺乏专业经验的新领域,这是一项特别重要的优势。大数据咨询也可满足内部团队的培训需求,可用来充实拓展员工的技能集。咨询师支持可用于扩展项目和常规维护。


通过分析创造业务价值

大数据部署与最大化信息增益密切相关。Apache Hadoop 为处理数据的以下三个方面提供了技术威力和基础架构:数据量 (volume)、种类 (variety) 和速度 (velocity)。但是,除非数据可供分析,否则对所有数据的积累和处理毫无意义。数据可能来自多个数据源:平面文件、数据库、打包的应用程序、企业资源规划 (ERP) 或客户关系管理 (CRM) 系统,或者数据流。第一项工作就是管理数据并存储它,而 Hadoop 很擅长这项工作。但数据管理和存储本身没有提供任何业务价值。业务价值来源于对数据的分析。(这是关系数据库的薄弱之处。它们可存储海量数据,但无法实时地、高效地处理它们。)

要分析存储在 Hadoop 中的数据,为该用途设计的应用程序必须构建于 Hadoop 之上。它们可能是统计数据可视化工具或分析工具。如果它们不是从头构建的,那么 IBM SPSS、SAS 或 R 等软件必须通过 API 链接到 Hadoop。甚至 Google(它发明了 MapReduce)现在也仅使用它来收集和整理数据。对于分析,Google 使用 Dremel,这是一个分析只读的嵌套数据的可伸缩查询系统。

企业(甚至是不属于处理 PB 级数据的大规模互联网公司的企业)仍然拥有大量的分析使用情形,包括:

  • 金融服务中的风险分析
  • 欺诈检测
  • 程序性的瞬间交易
  • 为保险用途而理解客户行为
  • 理解客户行为以改进信用风险管理
  • 分析高速服务业务中的供应商绩效,或者为优化相关服务而分析供应商绩效
  • 医疗分析
  • 制造和监视智慧 产品,比如嵌入了射频 ID (RFID) 标记的产品(比如快递服务或库存系统)
  • 成本管理
  • 传感器数据分析
  • 用于营销用途的客户交易分析(例如在电信行业,商家常常基于流行的客户趋势而提供通话和数据服务包)
  • 通过社交媒体执行营销活动

传统的数据分析或商业智能工具无法分析用于这些用途的海量数据。您使用的软件不仅必须能够执行大规模分析,还必须能够下钻到某些细节,以确定实现分析的业务用途所需的操作。此功能(获取实用的信息金块)是分析的必杀技能。它也是大多数大数据分析的薄弱之处。您不能首尾兼顾:您执行的大规模分析越多,下钻细节的能力就越弱,反之亦然。

InfoSphere BigInsights 支持执行大规模分析和获取深入洞察。通过使用所包含的 Hadoop 实现,InfoSphere BigInsights 充分考虑了大量数据的探索性分析,实现了以前不可能获得的多结构数据洞察。它支持内置的数据压缩和特性,比如 JSON 查询语言 (JAQL),支持轻松地操作和分析半结构化的 JSON 数据。在此基础之上,它提供了基于 MapReduce 的文本和机器学习分析。这非常重要,因为在尝试从大规模数据获取洞察时,通常不可能知道到底要寻找什么。机器学习对发现和预测模式与趋势,以及从非结构化数据中提取统计模型(如果有)很有用。


与遗留系统和第三方系统集成

PureData System for Hadoop

PureData System for Hadoop 是一种特制的、基于标准的专家集成系统,它在架构上集成了 IBM InfoSphere BigInsights。它针对大数据分析和在线归档而优化了 Hadoop 数据服务,实现了设备的简单性。您可以通过适用于业务分析师和数据科学家的易用分析工具和可视化获得企业 Hadoop 功能。PureData System for Hadoop 提供了丰富的开发人员工具、强大的分析功能和优秀的管理功能,以及 Hadoop 和关联项目的最新版本。它通过增强的大数据工具提供了广泛的功能,包括监视、开发和与许多企业系统的集成。

出于实际原因,ERP 软件等高级应用程序目前无法在 Hadoop 基础之上构建。相反,来自第三方系统的数据必须与类 Hadoop 系统无缝地集成。引入基于 Web 的数据的最常见方法是通过 SOAP。对于其他应用程序,需要采用主要使用 Java™、.NET 或 C++ 构建的专业连接器。您可以开发这些自定义集成程序或使用 IBM Netezza 等产品。除了提供大量的并行化的高级和预测算法之外,Netezza 还使您能够使用众多编程语言创建自定义分析(包括 C、C++、Java、Perl、Python 和 R)。它支持集成 SPSS® 或来自 SAS、Revolution Analytics (for Enterprise R)、Fuzzy Logix 和 Zementis 等公司的分析软件。其程序化的接口还支持与几乎所有具有 C 和 Java 连接器(比如 SAP 的 Jco Java 连接器)的 ERP 系统进行集成。

InfoSphere BigInsights 在第三方集成类别上更进一步,不但支持 IBM 的 Hadoop 发行版,还支持 Cloudera 的 Hadoop 发行版。Cloudera 支持很重要,因为 Cloudera 拥有庞大的客户群。现在这些客户可以轻松地使用 BigInsights 工具。

对于来自多个来源的数据流,BigInsights 可直接连接到 DB2®、Netezza 和 PureData™。它还附带了 BigIndex,这是一个为基于搜索的分析应用程序构建索引的 MapReduce 工具。


结束语

充分利用了集成分析功能的 Hadoop 非常适合企业用途。普通的 Hadoop 无法轻松地利用分析应用程序,它们自身没有提供业务价值。从头开发分析特性以及跨应用程序特性和支持来支持普通的 Hadoop 是一项艰巨的、耗时的、可能极为昂贵的任务。企业 Hadoop 产品(比如 InfoSphere BigInsights)解决了与部署有关的技术问题,使咨询变得很容易并且可以持续,而且还能够与大量遗留系统和现代系统无缝集成。企业 Hadoop 包含尖端的分析工具,可从数据本身中获取洞察,并将洞察与互联网数据和传感器数据相结合,收集隐藏的实用信息金块。

参考资料

学习

获得产品和技术

讨论

条评论

developerWorks: 登录

标有星(*)号的字段是必填字段。


需要一个 IBM ID?
忘记 IBM ID?


忘记密码?
更改您的密码

单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件

 


这是您第一次登陆到 developerWorks,已经自动为您创建了您的概要文件。 选择您概要文件中可以公开的信息的信息(如姓名、国家/地区,以及公司),这些信息同时也会与您所发布的内容相关联。 您可以随时更新您的 IBM 账号。

所有提交的信息确保安全。

选择您的昵称



当您初次登录到 developerWorks 时,将会为您创建一份概要信息,您需要指定一个昵称。您的昵称将和您在 developerWorks 发布的内容显示在一起。

昵称长度在 3 至 31 个字符之间。 您的昵称在 developerWorks 社区中必须是唯一的,并且出于隐私保护的原因,不能是您的电子邮件地址。

标有星(*)号的字段是必填字段。

(昵称长度在 3 至 31 个字符之间)

单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件.

 


所有提交的信息确保安全。


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=10
Zone=Information Management
ArticleID=949944
ArticleTitle=充分利用企业 Hadoop 的优势
publish-date=10242013