El paradigma de programación MapReduce fue creado en 2004 por los informáticos de Google Jeffery Dean y Sanjay Ghemawat. El objetivo del modelo MapReduce es simplificar la transformación y el análisis de grandes conjuntos de datos a través del procesamiento paralelo masivo en grandes clústeres de hardware básico. También permite a los programadores centrar en los algoritmos en lugar de en la gestión de datos.
Si bien Google introdujo el primer marco MapReduce, Apache Hadoop MapReduce es quizá el más popular.
MapReduce jugó un papel clave en el avance de los analytics de big data, pero también tiene sus desventajas. Por ejemplo, MapReduce normalmente no retiene los datos en la memoria y la lógica iterativa solo es posible encadenando aplicaciones de MapReduce. Estos factores agregan mayor complejidad y pueden dar lugar a tiempos de procesamiento más largos.
Si bien MapReduce sigue siendo ampliamente empleado, especialmente en sistemas existentes, muchas organizaciones están pasando a infraestructuras más rápidas o más especializadas, como Apache Spark, para aplicaciones de big data.