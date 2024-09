这是一个非常简单的 MapReduce 示例。 无论您需要分析的数据量如何,关键原则保持不变。

假设你有五个文件,每个文件包含两列(按照 Hadoop 的术语来说,一个键和一个值),表示一个城市和该城市在各种测量日记录的相应温度。 城市是键,温度是值。 例如:(Toronto, 20)。 在我们已收集的所有数据中,您想要在各个数据文件中找出每个城市的最高温度(注意,每个文件可能将相同的城市表示多次)。

使用 MapReduce 框架,可以将这种情况细分为五个映射任务,其中每个映射器处理五个文件之一。 映射器任务遍历数据,并返回每个城市的最高温度。

例如,针对上述数据从一个映射器任务生成的结果将类似于以下内容:(Toronto, 20) (Whitby, 25) (New York, 22) (Rome, 33)

假设其他四个映射器任务(处理此处未显示的其他四个文件)产生以下中间结果:

(Toronto, 18) (Whitby, 27) (New York, 32) (Rome, 37) (Toronto, 32) (Whitby, 20) (New York, 33) (Rome, 38) (Toronto, 22) (Whitby, 19) (New York, 20) (Rome, 31) (Toronto, 31) (Whitby, 22) (New York, 19) (Rome, 30)

所有这五个输出流都将馈送到缩减任务中,以组合输入结果并为每个城市输出单个值,产生如下所示的结果集:(Toronto, 32) (Whitby, 27) (New York, 33) (Rome, 38)。

打个比方,可以将映射和缩减任务想象成在罗马时代开展的人口普查,人口普查局将办事人员派遣到帝国的各个城市。 每个城市的每个人口普查办事人员都负责统计该城市中的人口数量,然后将其结果汇集到首都。 在首都,来自各个城市的结果将缩减为单个计数(所有城市的总和),以确定帝国的总人口。 这种将人口并行映射到城市,然后组合结果(缩减)的方法,相较于派遣一个人以串行方式统计帝国总人口的方法,要高效得多。