什么是 MapReduce？

作者

Jim Holdsworth

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

什么是 MapReduce？

MapReduce 是一种编程模型，使用并行处理来加速大规模数据处理过程。MapReduce 可在 Hadoop 集群中的数百或数千台服务器之间实现大规模可扩展性。

名称“MapReduce”是指该模型执行的两项任务，用以帮助将大型数据处理任务“分解”成许多可以更快并行运行的较小任务。

首先是“映射任务”，它获取一组数据并将其转换为另一组格式为“键/值”对的数据，例如城市（键）和每日高温（值）。
第二个是“缩减任务”，它获取映射任务的输出，聚合具有相同键的所有值，并处理数据以生成一组最终的键/值对。

MapReduce 编程模型是 Apache Hadoop 的核心处理组件之一；Apache Hadoop 是一个由 Apache 软件基金会支持并基于 Java 编程语言构建的开源软件框架。

MapReduce 模型也可以在 Hadoop 外部使用。

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯，了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。

MapReduce 的工作原理

MapReduce 可将数据处理项目分解为更小的部件，以便它们可以更快地运行。

例如，使用一个处理器来分析包含 TB 或 PB 级数据的大型文件可能需要 10 个小时。一个 MapReduce 作业可以将同一个数据文件拆分为 10 个任务，在 10 个处理器上并行运行。运行此作业可能只需要一个小时或更短的时间。可以从分布式计算节点聚合数据以产生结果。

虽然映射和缩减是 MapReduce 模型的基本功能，但整个过程还包括一些其他步骤。

AI Academy

数据管理是生成式 AI 的秘诀吗？

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

转到视频集

输入

MapReduce 应用程序接受输入数据，其中可以包括结构化或非结构化数据。MapReduce 应用程序通常使用存储在 Hadoop 分布式文件系统 (HDFS) 中的输入文件，但该模型也可以处理其他数据源。（有关更多信息，请参阅“Hadoop 生态系统中的 MapReduce”。）

对于特定作业，MapReduce 框架可帮助选择分布式服务器、管理通信和数据传输，并支持容错和冗余。

拆分

输入数据被分割成较小的块。这些块分发给位于不同计算节点上的映射器，即下一步要执行映射的函数。MapReduce 框架的目标是在映射器之间实现大致均匀的数据分配，以实现有效的负载均衡。

映射

在每个节点上，映射函数处理它接收到的数据，将数据转换为键/值对。

映射器总数在 Hadoop 框架内根据数据总量和每个映射器上的可用内存块来确定。映射器、缩减器和输出格式的参数可以在 Hadoop 集群中设置。

洗牌

Hadoop 框架对映射输出进行排序，并将具有相同“键”（主题）的所有键/值对分配给同一个缩减器例如，在城市及其每日高温的数据集中，任何带有“Tokyo”键的数据都会进入同一个缩减器。

缩减器，顾名思义，就是执行缩减步骤的函数。

归约

缩减函数处理映射器发出的键/值对。这可能涉及对数据进行合并、制表或其他操作，具体取决于所需处理的类型。

映射和缩减可以在同一组服务器上完成，但并不强制。

结果

每个缩减器都将其处理结果输出到 HDFS 或其他数据存储。

MapReduce 示例

无论组织想要分析多少数据，关键原则都保持不变。

对于此示例，数据集包括城市（键）以及为每个城市记录的相应每日气温（值）。示例键/值对可能类似于：<Toronto, 18>。

数据分布在多个文件中。每个文件可能包含来自许多城市的混合数据，并且可能多次包含同一城市。

从此数据集中，用户希望确定跟踪期间每个城市的“最高温度”。

用来处理此作业的 MapReduce 实现可能如下所示：

包含温度信息的数据文件作为输入送入 MapReduce 应用程序。
这些文件被拆分为多个映射任务，每个任务分配给其中一个映射器。
映射器将数据转换为键/值对。
对映射输出进行洗牌和排序，使具有相同城市键的所有值最终进入相同的缩减器。例如，多伦多的所有温度值都会发送到一个缩减器，而另一个缩减器汇总伦敦的所有值。
每个缩减器处理其数据以确定每个城市的最高气温值。然后，数据被缩减为每个城市的最高键/值对。
缩减阶段结束后，收集最高值即可得出结果：<Tokyo, 38> <London, 27> <New York, 33> <Toronto, 32>。

MapReduce 框架如何帮助处理数据的简化图

Hadoop 生态系统中的 MapReduce

Hadoop 生态系统是一套旨在协同工作以提高效率的开源模块。构成主要 Hadoop 框架的模块包括 MapReduce 外加其他 3 个模块：

Hadoop 分布式文件系统 (HDFS)

HDFS 是一种分布式文件系统，用于将应用程序数据存储在多达数千台商用服务器上。

HDFS 旨在为 Hadoop 提供容错能力并提供数据快速访问。默认情况下，数据块在加载或写入时跨多个节点复制。

HDFS 架构采用 NameNode 来管理文件系统命名空间和文件访问，同时有多个 DataNode 来管理数据存储。

Yet Another Resource Negotiator (YARN)

开源 Apache Hadoop (YARN) 是用于作业调度和集群资源管理的框架。它支持多种工作量，例如 SQL 查询、高级建模和实时流。

Hadoop Common

此模块是支持其他 Hadoop 模块的资源实用程序和库的集合。其也称为 Hadoop Core，包含多种用于自动故障恢复、文件系统级和操作系统级抽象、Java Archive (JAR) 文件和脚本等的资源。

其他模块

除了主 Hadoop 框架之外，Hadoop 生态系统还包括：

HBase （一种非关系型 NoSQL 数据库）
Mahout 和 Spark MLlib（机器学习算法库）
Oozie（作业调度程序）
Apache Hive 和 Apache Pig（基于查询的数据处理工具）
Solr 和 Lucene（用于搜索和建立索引）
Spark （内存数据处理引擎）
Zookeeper（群集协调）

MapReduce 的优点

MapReduce 编程具有多种优点，可以帮助组织从大数据分析中获得有价值的洞察分析，例如：

可扩展性：MapReduce 使组织能够在多个服务器或节点上处理存储在 HDFS 中的 PB 级数据。
处理速度更快：通过并行处理和最少的数据迁移，MapReduce 为海量数据提供了大数据处理的优化。
简便性：开发人员可以使用自己选择的编程语言（包括 Java、C++ 和 Python）编写 MapReduce 应用程序。
节省成本：作为开源程序，MapReduce 可以为组织节省一些软件费用预算。尽管如此，基础设施和数据工程人员的相关费用仍然存在。

MapReduce 用例

MapReduce 可以高效处理许多简单的用例，但是复杂的数据处理任务在其他应用程序上可能运行得更快。以下是一些适合 MapReduce 并行处理方法的应用：

数据集成，其中 MapReduce 框架用于运行提取、转换和加载 (ETL) 流程，为分析和存储准备数据。
图像处理，其中可以将图像分类等任务拆分为较小的数据集并并行处理。
日志分析，例如通过查看来自 Web 服务器或应用程序服务器的日志文件来识别趋势。
机器学习 (ML)，MapReduce 可以帮助完成机器学习训练任务，例如协同过滤、k 均值聚类和线性回归。
情绪分析，例如，MapReduce 可以帮助在网站上累加客户分数或识别响应集群。
制表，例如统计过去一年中按国家或地区续订帐户的客户数量。
文本挖掘，例如字数统计作业；此类作业可用于跟踪某一个字在特定输入集中出现的次数，例如评论板。

MapReduce 的历史

MapReduce 编程范式由 Google 计算机科学家 Jeffery Dean 和 Sanjay Ghemawat 于 2004 年创建。MapReduce 模型的目标是通过大型商用硬件集群上的大规模并行处理，简化大型数据集的转换和分析。它还使程序员能够专注于算法而不是数据管理。

虽然 Google 推出了第一个 MapReduce 框架，但 Apache Hadoop MapReduce 可能是最受欢迎的。

MapReduce 在推进大数据分析方面发挥了关键作用，但它确实有其缺点。例如，MapReduce 通常不会将数据保留在内存中，只有将 MapReduce 应用程序链接在一起才能实现迭代逻辑。这些因素都增加了复杂性，并可能导致处理时间延长。

虽然 MapReduce 仍被广泛使用（尤其是在旧版系统中），但许多组织正在转向更快或更专业的框架，例如针对大数据应用的 Apache Spark。

阅读《数据领导者指南》，了解如何让您组织的数据实现 AI 就绪。

资源

AI 智能体依赖数据运行——您的数据准备好了吗？

您的数据就是您的竞争优势。在这期简短的网络研讨会中，了解如何安全地解锁数据价值，并从 AI 中获得可衡量的投资回报率。

数据管理详解

IBM 出品的 Techsplainers 系列视频将 AI 所需的数据基础知识化繁为简，从核心概念到实际用例。每集清晰、简短，助您快速掌握基本要点。

统一并访问您的数据，助力扩展 AI

了解为何走向 AI 就绪数据之路往往始于有效访问结构化和非结构化数据，以及数据负责人可能面临的挑战。

将法务费用转化为战略性洞察分析

了解人工智能驱动的法律智能体如何加速决策、减少人工工作并提升合规性。

AI 学院：构建企业 AI 数据战略

在本集中，Cathy Reese 阐述了当今组织需要为高级 AI 做好准备的数据战略，这就要求企业利用好自身最高质量的数据资产。

面向 AI 的混合、开放湖仓一体

简化数据访问并实现数据治理自动化。了解将湖仓一体战略集成到数据架构中的强大功能，包括优化工作负载的成本、扩展 AI 和分析，以及随时随地使用所有数据。

《2025 年数据泄露成本报告》

数据泄露成本再创新高。获取关于网络安全威胁及其对企业造成的经济损失的最新洞察。

数据领导者的 AI 就绪数据指南

了解数据负责人可以采取哪些可行步骤来克服数据挑战，为可信赖的数据基础奠定根基，并帮助组织的数据为 AI 做好准备。

高级管理层如何将信息转化为影响

在这份面向数据领导者的跨行业报告中，深入了解 1700 位 CDO 的洞察分析。

什么是 MapReduce？

什么是 MapReduce？

辅以专家洞察分析的最新科技新闻

谢谢！您已订阅。

MapReduce 的工作原理

数据管理是生成式 AI 的秘诀吗？

输入

拆分

映射

洗牌

归约

结果

MapReduce 示例

Hadoop 生态系统中的 MapReduce

Hadoop 分布式文件系统 (HDFS)

Yet Another Resource Negotiator (YARN)

Hadoop Common

其他模块

MapReduce 的优点

MapReduce 用例

MapReduce 的历史

资源