O paradigma de programação do MapReduce foi criado em 2004 pelos cientistas da computação do Google Jeffery Dean e Sanjay Ghemawat. O objetivo do modelo MapReduce é simplificar a transformação e a análise de grandes conjuntos de dados por meio de processamento paralelo maciço em grandes clusters de hardware comum. Ele também permite que os programadores se concentrem em algoritmos em vez de gerenciamento de dados.
Embora o Google tenha introduzido a primeira framework do MapReduce, o Apache Hadoop MapReduce talvez seja a mais popular.
O MapReduce desempenhou um papel fundamental no avanço da análise de big data, mas tem suas desvantagens. Por exemplo, os dados geralmente não são retidos na memória pelo MapReduce, e a lógica iterativa só é possível encadeando aplicativos MapReduce. Esses fatores aumentam a complexidade e podem levar a tempos de processamento mais longos.
Embora o MapReduce continue sendo amplamente utilizado, especialmente em sistemas legados, muitas organizações estão migrando para frameworks mais rápidas ou especializadas, como o Apache Spark, para aplicações de big data.