原 文:http://www.ibmsystemsmag.com/mainframe/Business-Strategy/BI-and-Analytics/Hadoop-BigInsights/
适宜读者:(一年及以上主机经验)
背景知识:(z Systems, Analytics)
对于特定的问题,情形,产品,企业或是个体了解的越充分,就越可能做出更好的决策,并带来更好的业务产出。
今天,大部分的业务分析是基于存储在企业数据仓库中的数据,这些数据主要来源于交易和运营系统。这些数据本身蕴藏丰富的价值,并且是可信赖的、可理解的。
z Systems在全球关键业务信息系统中占据重要的位置,世界排名前100的银行中有92家,排名前10的保险机构和美国排名前25的零售企业中的23家使用了z Systems。据估计80%的企业数据驻留或产生于(保存或来源于)mainframe 系统,被调查的CIO中有91%的人表示新的面向客户的应用正在访问 mainframe。他们还表示55%的企业应用需要mainframe来完成交易,89%的人说mainframe工作负载正在增加,并且负载类型变得更加多样化。
尽管很有价值,但这些数据本身只能提供真实世界的一个视角。大数据范例重点关注整合这些企业数据与其他的信息,比如社交媒体,Web日志,邮件,文档,多媒体,文本信息和传感器信息来提供一个更完整的视图,来增加我们对世界的认识。
新技术应用
像hadoop这样的新技术,通过使用map/reduce来实现对分散在成百上千的节点上的大规模结构/非结构数据的并行处理。它将这些看似无法管理的数据量分割成小的、离散的分析作业,之后这些小的结果集被整合,从而提供一个完整的答案。
IBM InfoSphere BigInsights通过对Hadoop进行增强,来提供一个企业级关键业务分析方案。 Linux on z Systems平台上的IBM InfoSphere BigInsights与z Systems Hadoop连接器一起为客户带来两个关键的优势,包括:
- 在z/OS系统的安全保护下,存储在z System上的数据能同时驻留在该平台下并用于分析。同时数据可以高效地从z/OS DB2, IMS, VSAM中移动到部署在Linux on z 上的Hadoop 集群中。
- 拥有敏感信息的企业可以将数据保留在z Systems中来保证其安全性,或是将数据从其他安全性弱的坏境中移动到z Systems中。
Mainframe平台下IBM InfoSphere BigInsights允许客户同时拥有两种平台的优势。他们依然可以从用于处理关键业务数据的mainframe安全性和可靠性中受益,同时在不影响运营系统的安全性的情况下,可以利用Hadoop生态中的丰富的工具集。通过整合mainframe中的数据和其他平台的数据,企业能够获得业务更完整的视图,并获得更深入的洞察力来帮助他们提高效率,找到可能的营收机会,抑或降低成本。
接下来的几个小节,我们从架构的角度讨论,Hadoop如何部署到mainframe,InfoSphere BigInsights的功能,以及在 z Systems中运行Hadoop需要注意的一些独特的考量。
部署Hadoop
基于客户的一些需求,在mainframe上部署Hadoop或是IBM InfoSphere BigInsights可能具有以下的优势:
- Hadoop应用可以在z Systems安全性保护范围内运行
- 客户可以利用mainframe技术,包括HiperSockets进行安全地访问生产数据以及移动数据到Hadoop中
- 客户可以认识到在私有云基础设施上运行Hadoop的管理优势,提供灵活的配置,虚拟化的存储,同时可以避免管理离散的集群节点和分散的网络基础设施
- 客户可以扩展z Systems 的控制权至混合的Hadoop实现中
尽管Linux for z Systems可以运行在mainframe的中央处理器中,但客户通常会使用IFL (参考 Figure 1)部署Linux 环境。通过使用 z/VM虚拟化技术,一个LPARs可以分配一个或多个IFL处理器。每个z/VM LPAR可以运行一个或多个Hadoop 节点,其底层的系统资源是通过PR/SM映射到 LPAR。作为可选,多个 LPARs的资源可以被聚合,从而被一个单独的hadoop集群节点使用。
Mainframe附属存储,如IBM System Storage DS8000 阵列存储,也可被虚拟化。因为这些子系统提供全闪存和混合闪存的存储能力,可以提供比普通商用集群的本地磁盘更好的I/O性能。
当部署Hadoop集群时,通常至少有一个集群节点作为主节点,其他节点作为数据节点。在一个拥有五个节点的集群中,一个节点运行关键的服务如BigInsights web控制台,HDFS NameNode和JobTracker服务。数据节点通常支持分布式HDFS和多种Hadoop并行处理框架,比如 MapReduce, HBASE, Big SQL.
Hadoop无处不在
一个企业拥有多个Hadoop集群已经很常见。比如,有一个集群做市场分析,一个做安全相关分析,另一个做业务分析。在哪里部署BigInsights通常依赖于数据产生于何处,以及数据的类别。InfoSphere BigInsights 使得企业能够选择部署位置来最大化地满足它们的需求。如果数据是高度敏感的, InfoSphere BigInsights应该部署到mainframe。如果不是敏感数据,可以部署到其他平台。
对于Hadoop来说,最大的挑战在于如何高效地加载大规模的数据。 IBM InfoSphere z Systems Hadoop连接器解决了这个问题。 图形界面使得终端用户能点击mainframe上的数据源比如数据库,日志文件等,然后点击BigInsights或其他Hadoop发行版,之后数据能直接装载到HDFS中。 不需要编程,自动进行编码转换和格式化为Hadoop的数据格式。 转移数据到Hadoop集群的工作可以手动或通过定时任务完成。
为分析而生的Mainframe
Z13 mainframe已经进化为一款既能做交易处理又能做分析的强大且高效的平台。 该平台提供最高商业级安全性(EAL 5+), 99.999%的可用性,伸缩性及系统完整性。 z13相对于其他系统能够更快,更智能,更安全,更加集中地处理业务。
虽然z Systems 是以处理大规模交易的能力著称,但z Systems同时已经变成一个关键业务分析平台,能向数据仓库,数据集市提供低延迟的数据传输,并能够在服务质量稳定的情况下扩展分析的范围。 Linux on z平台下的InfoSphere BigInsights与 InfoSphere z Systems Hadoop连接器一起提供了一个基于Apache Hadoop的产品级的调查性分析方案。
企业能够体验到InfoSphere BigInsights 在分析大规模数据、获取更多洞察方面的超强能力与灵活性。 InfoSphere z Systems Hadoop连接器能够安全高效地移动数据到 BigInsights或其他 Hadoop实现,使得企业能够基于数据的安全类别和业务价值合理选择在哪种平台做分析。
参考资料:
译者:周运杰
邮箱:yunjiezATcn.ibm.com(替换AT为@)
内容声明:本文仅代表作者的个人观点,与IBM立场、策略和观点无关。文中专业名词因翻译原因,表述中难免存在差异。如有疑惑,请以英文为准。同时数据来源于实验室环境,仅供参考。如果您对我们的话题感兴趣,请通过电子邮箱联系我们。