O Spark foi desenvolvido para lidar com deficiências no MapReduce, um modelo de programação para "reduzir" uma grande tarefa de processamento de dados em tarefas paralelas menores.

O MapReduce pode ser lento e ineficiente. Exige replicação (manutenção de várias cópias de dados em diferentes locais), serialização (coordenação do acesso aos recursos usados por mais de um programa) e uso intenso de E/S (entrada/saída de armazenamento em disco).



O Spark reduz especificamente o processamento desnecessário. Enquanto o MapReduce escreve dados intermediários em disco, o Spark usa RDDs para armazenar em cache e calcular dados in-memory. O resultado é que o analytics engine do Spark pode processar dados de 10 a 100 vezes mais rápido do que o MapReduce.1