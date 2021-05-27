Spark adalah peningkatan Hadoop untuk MapReduce. Perbedaan utama antara Spark dan MapReduce adalah bahwa Spark memproses dan menyimpan data dalam memori untuk langkah-langkah selanjutnya, sedangkan MapReduce memproses data pada disk. Akibatnya, untuk beban kerja yang lebih kecil, kecepatan pemrosesan data Spark hingga 100x lebih cepat daripada MapReduce (tautan berada di luar ibm.com).

Selain itu, berlawanan dengan proses eksekusi dua tahap di MapReduce, Spark membuat Directed Acyclic Graph (DAG) untuk menjadwalkan tugas dan orkestrasi node di seluruh klaster Hadoop. Proses pelacakan tugas ini memungkinkan toleransi kesalahan, yang menerapkan kembali operasi yang direkam ke data dari status sebelumnya.

Mari kita lihat lebih dekat perbedaan utama antara Hadoop dan Spark dalam enam konteks penting: