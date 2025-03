Spark a été développé pour combler les lacunes de MapReduce, un modèle de programmation destiné à « fragmenter » une tâche de traitement de données de grande ampleur en tâches parallèles plus petites.

MapReduce peut être lent et inefficace. Il implique des processus de réplication (conservation de plusieurs copies de données à différents emplacements), de sérialisation (coordination de l’accès aux ressources utilisées par plusieurs programmes) et des E/S importantes (entrée/sortie du stockage sur disque).



Spark réduit spécifiquement les processus de traitement inutiles. Alors que MapReduce écrit des données intermédiaires sur le disque, Spark utilise des RDD pour mettre en cache et calculer les données en mémoire. De ce fait, le moteur d’analyse de Spark peut traiter les données 10 à 100 fois plus rapidement que MapReduce.1