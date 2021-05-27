标签
Hadoop 与 Spark：有何区别？

我们将介绍 Hadoop 与 Spark 的各自架构、两种大数据框架在多类场景下的对比，以及二者分别适配的最佳应用情境。

Hadoop 与 Spark 均由阿帕奇软件基金会开发，是大数据架构领域应用广泛的开源框架。两种框架各自具备一套功能完备的开源技术生态系统，可实现大数据集的预处理、加工、管理与分析全流程操作。

 

 

什么是 Apache Hadoop？

Apache Hadoop 是一款开源软件工具，它能够搭建计算机集群（或称“节点”网络），助力用户处理规模从千兆字节到千万亿字节的大数据集，高效解决复杂的大规模数据问题。该工具具备高可扩展性与高成本效益，可存储并处理结构化、半结构化及非结构化数据（例如互联网点击流记录、Web 服务器日志、物联网传感器数据等）。

Hadoop 框架的优势：

  • 在硬件故障期间提供数据保护
  • 支持从单台服务器平滑扩展至数千台机器的海量扩展能力
  • 对历史分析和决策过程进行实时分析

什么是 Apache Spark？

Apache Spark 同样是一款开源工具，是专门用于处理大数据集的数据处理引擎。与 Hadoop 类似，Spark 会将大型任务拆分到不同节点上并行执行。但相比之下，Spark 的运行速度通常更快，它采用随机存取存储器 (RAM) 缓存并处理数据，而非通过文件系统完成这项操作。这一特性让 Spark 能够应对诸多 Hadoop 无法处理的用例。

Spark 框架的优势：

  • 一款支持 SQL 查询、流数据处理、机器学习及图计算的统一引擎
  • 借助内存处理、磁盘数据存储等技术，在处理小规模工作负载时，其运行速度可比 Hadoop 快 100 倍（ibm.com 外部链接）
  • 专为半结构化数据处理与数据转换场景设计、具备高易用性的 API

Hadoop 生态系统

Hadoop 支持对已存储数据开展高级分析工作（例如预测分析、数据挖掘、机器学习等）。它能够将大数据分析处理任务拆分为多个子任务，借助 MapReduce 等算法实现子任务的并行执行，随后将这些子任务分发至 Hadoop 集群（即对大数据集执行并行计算的节点组）中进行处理。

Hadoop 生态系统由四个主要模块组成：

  1. Hadoop 分布式文件系统 (HDFS)：基于商用硬件运行的核心数据存储系统，可管理大规模数据集，同时提供高吞吐率的数据访问能力与高容错性。
  2. 另一种资源协调器 (YARN)：集群资源管理模块，负责为各类应用调度任务并分配计算资源（如 CPU 与内存）。
  3. Hadoop MapReduce：将大数据处理任务拆分为多个子任务，将子任务分发至不同节点后执行并行运算。
  4. Hadoop Common (Hadoop Core): 提供一套公共类库与工具集，是其他三大模块实现功能的依赖基础。

Spark 生态系统

Apache Spark 作为数据处理领域规模最大的开源项目，是唯一一款兼具数据处理与人工智能 (AI) 能力的计算框架。这一特性支持用户先开展大规模的数据转换与分析工作，再运行前沿的机器学习及 AI 算法。

Spark 生态系统由五个主要模块组成：

  1. Spark Core： Spark 的底层执行引擎，负责任务的调度与分发，同时协调各类输入输出操作。
  2. Spark SQL：采集结构化数据的相关信息，帮助用户实现结构化数据处理流程的优化。
  3. Spark Streaming 与 Structured Streaming：二者均为 Spark 提供流处理能力。Spark Streaming 从各类流数据来源采集数据，并将其切分为微批次数据，以此实现连续的流数据处理。Structured Streaming 构建于 Spark SQL 之上，具备更低的处理延迟，同时简化了流处理程序的开发流程。
  4. 机器学习库 (MLlib)：一套具备可扩展能力的机器学习算法集合同时配套特征选择工具与机器学习流水线构建工具。MLlib 的核心 API 为 DataFrames，该接口可确保 Java、Scala 及 Python 等不同编程语言实现语法与功能的统一。
  5. GraphX：一款易用性突出的计算引擎，支持用户以交互式方式构建、修改并分析具备可扩展能力的图结构数据。

比较 Hadoop 和 Spark

Spark 是对 Hadoop MapReduce 功能的增强版本。二者的核心差异在于：Spark 会将数据在内存中完成处理并留存，以供后续计算步骤调用；而 MapReduce 则是基于磁盘完成数据处理。这一特性使得在处理小规模工作负载时，Spark 的数据处理速度最高可比 MapReduce 快 100 倍（ibm.com 外部链接）。

此外，不同于 MapReduce 采用的两阶段执行流程，Spark 会构建有向无环图 (DAG) 来调度任务，并协调 Hadoop 集群内各节点的协同工作。这种任务追踪机制可实现容错功能，当出现故障时，系统会基于数据的历史状态，重新执行已记录的操作流程。

我们从六个核心维度详细剖析 Hadoop 与 Spark 的关键差异：

  1. 性能：Spark 的处理速度更快，原因在于它采用随机存取存储器 (RAM) 存储数据，无需将中间数据写入磁盘再读取。而 Hadoop 会将数据存储在多个数据源中，并通过 MapReduce 框架以批处理方式完成数据运算。
  2. 成本：Hadoop 的运行成本更低，因为它可基于任意类型的磁盘存储开展数据处理工作。Spark 的运行成本相对更高，因其依托内存计算实现实时数据处理，这就需要配备大容量的内存资源来支撑节点的启动与运行。
  3. 数据处理：尽管两款框架均支持分布式环境下的数据处理，但 Hadoop 更适用于批处理与线性数据处理场景。Spark 则更适配实时处理，以及实时非结构化数据流的加工分析。
  4. 可扩展性：当数据量激增时，Hadoop 可通过自身的分布式文件系统 (HDFS) 快速完成扩展，以满足业务需求。而 Spark 在处理海量数据时，同样需要依托具备容错能力的 HDFS 来提供支撑。
  5. 安全性能高：Spark 借助共享密钥认证或事件日志记录功能强化安全防护，而 Hadoop 则采用多种认证与访问控制手段保障安全。整体而言，Hadoop 的安全性更胜一筹，但 Spark 可与 Hadoop 集成，从而达到更高的安全等级。
  6. 机器学习：在该领域，Spark 是性能更优的平台。其内置的机器学习库 (MLlib) 可执行基于内存的迭代式机器学习运算，同时配备了回归分析、分类建模、模型持久化、流水线构建、效果评估等功能工具。

关于 Hadoop 和 Spark 的误解

关于 Hadoop 的常见误解

  • Hadoop 成本低廉：尽管 Hadoop 是开源工具且部署便捷，但维持服务器持续运行的成本实则不低。若启用内存计算、网络存储这类功能，大数据管理的相关成本最高可达 5000 美元。
  • Hadoop 是数据库：虽然 Hadoop 可用于分布式数据的存储、管理与分析，但在调取数据的过程中并不涉及查询操作。这一特性决定了 Hadoop 的定位是数据仓库，而非数据库。
  • Hadoop 对中小企业毫无帮助：“大数据”并非“大企业”的专属领域。Hadoop 配备了 Excel 报表生成这类简易功能，助力中小企业也能发挥其技术价值。部署一到两个 Hadoop 集群，就能显著提升小企业的业务处理效率。
  • Hadoop 部署难度高：尽管 Hadoop 的高阶运维工作难度较大，但市面上存在多款图形用户界面工具，能够简化 MapReduce 相关的编程操作。

关于 Spark 的常见误解

  • Spark 属于纯内存技术：尽管 Spark 会高效运用最近最少使用 (LRU) 算法管理数据，但它本身并非一项纯内存技术。
  • Spark 的速度始终比 Hadoop 快 100 倍：根据 Apache 官方的说法，Spark 在处理小规模工作负载时，速度最高可比 Hadoop 快 100 倍，但在处理大规模工作负载时，其速度通常仅能达到 Hadoop 的 3 倍左右（ibm.com 外部链接）。
  • Spark 开创了数据处理领域的全新技：尽管 Spark 能高效运用 LRU 算法并实现数据处理流水线化，但这些功能其实早已应用于大规模并行处理 (MPP) 数据库中。不过，Spark 与 MPP 数据库的核心差异在于，它具备开源属性。

Hadoop 和 Spark 用例

基于上述对比分析与事实信息，以下应用场景可充分体现 Hadoop 与 Spark 的整体适用性差异。

Hadoop 用例

Hadoop 最适用于以下业务场景：

  • 数据量超出可用内存的大数据集处理场景
  • 可充分利用磁盘读写操作的批处理任务
  • 预算有限的数据分析基础设施搭建需求
  • 对耗时无严格要求的任务执行场景
  • 历史数据与归档数据的分析工作

Spark 用例

Spark 最适用于以下业务场景：

  • 利用迭代算法处理并行操作链
  • 利用内存计算快速获得结果
  • 实时分析流数据
  • 对模型数据进行图形并行处理
  • 所有机器学习应用

Hadoop、Spark 和 IBM

IBM 提供多款产品助力企业充分发挥 Hadoop 与 Spark 的技术优势，以此优化大数据管理方案，同时达成各类综合性业务目标：

  • IBM Spectrum Conductor 是一款多租户平台，能够在通用共享资源集群上部署和管理 Spark 及其他应用框架。该平台具备工作负载管理、监控、告警、报表生成与诊断功能，可同时运行多个不同版本的 Spark 及其他框架。
  • IBM Db2 Big SQL 是一款混合型 Hadoop SQL 引擎，支持单数据库连接，可针对 Hadoop HDFS、WebHDFS、RDBMS、NoSQL 数据库及对象存储等多元大数据源，提供功能先进且安全性完备的数据查询服务。用户借助该引擎，可在执行临时查询与复杂查询时，获得低延迟、高性能、数据安全、SQL 兼容性及数据联邦等能力加持。
  • IBM Big Replicate 可实现对多环境 Hadoop 集群的统一管理，支持的集群部署环境包括 Cloudera Data Hub、Hortonworks Data Platform、IBM、亚马逊 S3、亚马逊 EMR、Microsoft Azure、OpenStack Swift 以及 Google Cloud Storage。该工具能够跨任意地域距离的集群与云对象存储，构建统一的虚拟命名空间。

作者

IBM Cloud Education Team

IBM Cloud Education