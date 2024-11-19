MapReduce 可将数据处理项目分解为更小的部件，以便它们可以更快地运行。

例如，使用一个处理器来分析包含 TB 或 PB 级数据的大型文件可能需要 10 个小时。一个 MapReduce 作业可以将同一个数据文件拆分为 10 个任务，在 10 个处理器上并行运行。运行此作业可能只需要一个小时或更短的时间。可以从分布式计算节点聚合数据以产生结果。

虽然映射和缩减是 MapReduce 模型的基本功能，但整个过程还包括一些其他步骤。

输入





MapReduce 应用程序接受输入数据，其中可以包括结构化或非结构化数据。MapReduce 应用程序通常使用存储在 Hadoop 分布式文件系统 (HDFS) 中的输入文件，但该模型也可以处理其他数据源。（有关更多信息，请参阅“Hadoop 生态系统中的 MapReduce”。）

对于特定作业，MapReduce 框架可帮助选择分布式服务器、管理通信和数据传输，并支持容错和冗余。

分割



输入数据被分割成较小的块。这些块分发给位于不同计算节点上的映射器，即下一步要执行映射的函数。MapReduce 框架的目标是在映射器之间实现大致均匀的数据分配，以实现有效的负载均衡。

映射



在每个节点上，映射函数处理它接收到的数据，将数据转换为键/值对。

映射器总数在 Hadoop 框架内根据数据总量和每个映射器上的可用内存块来确定。映射器、缩减器和输出格式的参数可以在 Hadoop 集群中设置。



洗牌



Hadoop 框架对映射输出进行排序，并将具有相同“键”（主题）的所有键/值对分配给同一个缩减器例如，在城市及其每日高温的数据集中，任何带有“Tokyo”键的数据都会进入同一个缩减器。

缩减器，顾名思义，就是执行缩减步骤的函数。

缩减



缩减函数处理映射器发出的键/值对。这可能涉及对数据进行合并、制表或其他操作，具体取决于所需处理的类型。

映射和缩减可以在同一组服务器上完成，但并不强制。

结果



每个缩减器都将其处理结果输出到 HDFS 或其他数据存储。