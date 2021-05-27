Arsitektur masing-masing Hadoop dan Spark, serta bagaimana kedua kerangka kerja big data ini dibandingkan dalam berbagai konteks dan skenario yang paling sesuai untuk masing-masing solusi.
Hadoop dan Spark, keduanya dikembangkan oleh Apache Software Foundation, adalah kerangka kerja sumber terbuka yang banyak digunakan untuk arsitektur big data. Setiap kerangka kerja berisi ekosistem teknologi sumber terbuka yang mempersiapkan, memproses, mengelola, dan menganalisis big data.
Apache Hadoop adalah utilitas perangkat lunak sumber terbuka yang memungkinkan pengguna untuk mengelola big data (dari gigabyte hingga petabyte) dengan memungkinkan jaringan komputer (atau “node“) untuk memecahkan masalah data yang luas dan rumit. Ini adalah solusi yang sangat dapat diskalakan, hemat biaya yang menyimpan dan memproses data terstruktur, semi-terstruktur dan tidak terstruktur (misalnya, catatan aliran klik Internet, log server web, data sensor IoT, dll.).
Manfaat dari kerangka kerja Hadoop meliputi:
Apache Spark — yang juga merupakan sumber terbuka — adalah mesin pemrosesan data untuk big data. Seperti Hadoop, Spark membagi tugas besar di berbagai node. Namun, solusi ini cenderung bekerja lebih cepat daripada Hadoop dan menggunakan memori akses acak (RAM) untuk cache dan memproses data alih-alih sistem file. Ini memungkinkan Spark untuk menangani contoh penggunaan yang tidak dapat dilakukan Hadoop.
Manfaat kerangka kerja Spark meliputi:
Hadoop mendukung analitik lanjutan untuk data yang disimpan (misalnya, analisis prediktif, penambangan data, machine learning (ML), dll.). Ini memungkinkan tugas pemrosesan big data dibagi menjadi tugas-tugas yang lebih kecil. Tugas kecil dilakukan secara paralel dengan menggunakan algoritma (misalnya, MapReduce), dan kemudian didistribusikan di seluruh klaster Hadoop (yaitu, node yang melakukan perhitungan paralel pada big data).
Ekosistem Hadoop terdiri atas empat modul utama:
Apache Spark, proyek sumber terbuka terbesar dalam pemrosesan data, adalah satu-satunya kerangka kerja pemrosesan yang menggabungkan data dan kecerdasan buatan (AI). Hal ini memungkinkan pengguna untuk melakukan transformasi data dan analisis data skala besar, dan kemudian menjalankan algoritma machine learning (ML) dan AI yang canggih.
Ekosistem Spark terdiri atas lima modul utama:
Spark adalah peningkatan Hadoop untuk MapReduce. Perbedaan utama antara Spark dan MapReduce adalah bahwa Spark memproses dan menyimpan data dalam memori untuk langkah-langkah selanjutnya, sedangkan MapReduce memproses data pada disk. Akibatnya, untuk beban kerja yang lebih kecil, kecepatan pemrosesan data Spark hingga 100x lebih cepat daripada MapReduce (tautan berada di luar ibm.com).
Selain itu, berlawanan dengan proses eksekusi dua tahap di MapReduce, Spark membuat Directed Acyclic Graph (DAG) untuk menjadwalkan tugas dan orkestrasi node di seluruh klaster Hadoop. Proses pelacakan tugas ini memungkinkan toleransi kesalahan, yang menerapkan kembali operasi yang direkam ke data dari status sebelumnya.
Mari kita lihat lebih dekat perbedaan utama antara Hadoop dan Spark dalam enam konteks penting:
Berdasarkan analisis komparatif dan informasi faktual yang diberikan di atas, kasus-kasus berikut paling baik menggambarkan kegunaan keseluruhan Hadoop versus Spark.
Hadoop paling efektif untuk skenario yang melibatkan hal-hal berikut:
Spark paling efektif untuk skenario yang melibatkan hal-hal berikut:
