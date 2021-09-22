Apache Spark (Spark) 可轻松处理大规模数据集，是一种快速、通用的聚类系统，非常适合 PySpark。它旨在提供大数据所需的计算速度、可扩展性和可编程性，特别是流数据、图形数据、分析、机器学习、大规模数据处理和人工智能 (AI) 应用程序。

Spark 的分析引擎处理数据的速度比一些替代方案快 10 到 100 倍，例如用于较小工作量的 Hadoop。它通过在大型计算机聚类之间分配处理工作流来扩展，并具有内置的并行性和容错能力。它甚至包括深受数据分析师和数据科学家欢迎的编程语言的 API，包括 Scala、Java、Python 和 R。

Spark 经常被拿来与 Apache Hadoop 比较，特别是与 Hadoop 的本地数据处理组件 Hadoop MapReduce 比较。Spark 和 MapReduce 之间的主要区别在于，Spark 处理数据并将其保存在内存中以供后续步骤使用，而无需写入磁盘或从磁盘读取数据，从而大大加快了处理速度。(关于 Spark 与 Hadoop 的比较和互补，您可以在本文其他部分找到更多信息）。

Spark 于 2009 年由加州大学伯克利分校的 AMPLab 开发。如今，它由 Apache 软件基金会维护，拥有最大的大数据开源社区，拥有超过 1000 名贡献者。它也是多种商业大数据产品的核心组件。

