O Spark é um aprimoramento do Hadoop para o MapReduce. A principal diferença entre o Spark e o MapReduce é que o Spark processa e retém os dados na memória para as etapas subsequentes, enquanto o MapReduce processa os dados em disco. Como resultado, para cargas de trabalho menores, as velocidades de processamento de dados do Spark são até 100 vezes mais rápidas do que as do MapReduce (link externo a ibm.com).

Além disso, em oposição ao processo de execução em duas etapas do MapReduce, o Spark cria um DAG (gráfico acíclico dirigido) para programar tarefas e a orquestração de nós no cluster Hadoop. Esse processo de rastreamento de tarefas habilita a tolerância a falhas, que reaplica operações registradas aos dados de um estado anterior.

Vamos analisar mais de perto as principais diferenças entre o Hadoop e o Spark em seis contextos críticos: