Le paradigme de programmation MapReduce a été créé en 2004 par les informaticiens de Google Jeffery Dean et Sanjay Ghemawat. L’objectif du modèle MapReduce est de simplifier la transformation et l’analyse de grands jeux de données grâce à un traitement parallèle massif sur de grands clusters de matériel de base. Cela permet également aux programmeurs de se concentrer sur les algorithmes plutôt que sur la gestion des données.
Alors que Google a introduit le premier cadre des exigences MapReduce, Apache Hadoop MapReduce est peut-être le plus populaire.
MapReduce a joué un rôle clé dans l'avancement de l'analytique du big data, mais il présente des inconvénients. Par exemple, les données ne sont généralement pas conservées en mémoire par MapReduce, et la logique itérative n’est possible qu’en reliant les applications MapReduce. Ces facteurs augmentent la complexité et peuvent allonger les délais de traitement.
Alors que MapReduce reste largement utilisé, en particulier dans les systèmes héritage, de nombreuses organisations se tournent vers des cadres des exigences plus rapides ou plus spécialisés, tels qu’Apache Spark, pour les applications de big data.