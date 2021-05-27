Spark es una mejora de Hadoop para MapReduce. La principal diferencia entre Spark y MapReduce es que Spark procesa y conserva los datos en la memoria para los pasos posteriores, mientras que MapReduce procesa los datos en el disco. Como resultado, para cargas de trabajo más pequeñas, las velocidades de proceso de datos de Spark son hasta 100 veces más rápidas que las de MapReduce (enlace externo a ibm.com).

Además, a diferencia del proceso de ejecución en dos etapas de MapReduce, Spark crea un gráfico acíclico dirigido (DAG) para programar tareas y la orquestación de nodos en todo el clúster Hadoop. Este proceso de seguimiento de tareas permite la tolerancia a fallos, que vuelve a aplicar las operaciones registradas a los datos de un estado anterior.

Analicemos más de cerca las principales diferencias entre Hadoop y Spark en seis contextos críticos: