El paradigma de programación MapReduce fue creado en 2004 por los informáticos de Google Jeffery Dean y Sanjay Ghemawat. El objetivo del modelo MapReduce es simplificar la transformación y el análisis de grandes conjuntos de datos mediante un procesamiento paralelo masivo en grandes clústeres de hardware básico. También permite a los programadores centrarse en los algoritmos en lugar de en la gestión de datos.
Aunque Google introdujo el primer marco MapReduce, Apache Hadoop MapReduce es quizás el más popular.
MapReduce desempeñó un papel clave en el avance del análisis de big data, pero tiene sus inconvenientes. Por ejemplo, MapReduce no suele retener los datos en la memoria y la lógica iterativa solo es posible encadenando las aplicaciones de MapReduce. Estos factores añaden una mayor complejidad y pueden alargar los tiempos de procesamiento.
Aunque MapReduce sigue siendo muy utilizado, especialmente en sistemas heredados, muchas organizaciones se están pasando a marcos más rápidos o especializados, como Apache Spark, para aplicaciones de big data.