Das MapReduce-Programmierparadigma wurde 2004 von den Google-Informatikern Jeffery Dean und Sanjay Ghemawat entwickelt. Das Ziel des MapReduce-Modells besteht darin, die Transformation und Analyse großer Datenmengen durch massive Parallelverarbeitung auf großen Clustern handelsüblicher Hardware zu vereinfachen. Außerdem können sich Programmierer auf Algorithmen anstatt auf die Datenverwaltung konzentrieren.
Google hat das erste MapReduce-Framework eingeführt, Apache Hadoop MapReduce ist jedoch wahrscheinlich das beliebteste.
MapReduce hat eine wichtige Rolle bei der Weiterentwicklung von Big-Data-Analysen gespielt, hat aber auch seine Nachteile. So werden beispielsweise Daten von MapReduce in der Regel nicht im Speicher aufbewahrt, und iterative Logik ist nur durch die Verkettung von MapReduce-Anwendungen möglich. Diese Faktoren erhöhen die Komplexität und können zu längeren Verarbeitungszeiten führen.
Während MapReduce nach wie vor weit verbreitet ist – insbesondere in Altlast-Systemen – wechseln viele Unternehmen für Big Data-Anwendungen zu schnelleren oder spezialisierteren Frameworks wie Apache Spark.