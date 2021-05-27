Spark 是对 Hadoop MapReduce 功能的增强版本。二者的核心差异在于：Spark 会将数据在内存中完成处理并留存，以供后续计算步骤调用；而 MapReduce 则是基于磁盘完成数据处理。这一特性使得在处理小规模工作负载时，Spark 的数据处理速度最高可比 MapReduce 快 100 倍（ibm.com 外部链接）。

此外，不同于 MapReduce 采用的两阶段执行流程，Spark 会构建有向无环图 (DAG) 来调度任务，并协调 Hadoop 集群内各节点的协同工作。这种任务追踪机制可实现容错功能，当出现故障时，系统会基于数据的历史状态，重新执行已记录的操作流程。

我们从六个核心维度详细剖析 Hadoop 与 Spark 的关键差异：