Il paradigma di programmazione MapReduce è stato creato nel 2004 dagli informatici di Google Jeffery Dean e Sanjay Ghemawat. L'obiettivo del modello MapReduce è semplificare la trasformazione e l'analisi di grandi set di dati attraverso un trattamento massiccio parallelo su grandi cluster di hardware di base. Consente inoltre ai programmatori di concentrarsi sugli algoritmi piuttosto che sulla gestione dei dati.
Sebbene Google abbia introdotto il primo framework MapReduce, Apache Hadoop MapReduce rimane forse quello più popolare.
MapReduce ha svolto un ruolo chiave nel progresso dell'analisi dei big data, ma ha i suoi svantaggi. Ad esempio, i dati di solito non vengono conservati in memoria da MapReduce e la logica iterativa è possibile solo concatenando le app MapReduce. Questi fattori aggiungono una maggiore complessità e possono portare a tempi di trattamento più lunghi.
Sebbene MapReduce rimanga ampiamente utilizzato, specialmente nei sistemi legacy, numerose organizzazioni stanno passando a framework più veloci o più specializzati, come Apache Spark, per applicazioni di big data.