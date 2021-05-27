Tag
Cloud Analytics

Hadoop vs. Spark: Apa Perbedaannya?

Teknisi TI Pria Bekerja di Laptop di Pusat Big Data

Arsitektur masing-masing Hadoop dan Spark, serta bagaimana kedua kerangka kerja big data ini dibandingkan dalam berbagai konteks dan skenario yang paling sesuai untuk masing-masing solusi.

Hadoop dan Spark, keduanya dikembangkan oleh Apache Software Foundation, adalah kerangka kerja sumber terbuka yang banyak digunakan untuk arsitektur big data. Setiap kerangka kerja berisi ekosistem teknologi sumber terbuka yang mempersiapkan, memproses, mengelola, dan menganalisis big data.

 

 

Apa itu Apache Hadoop?

Apache Hadoop adalah utilitas perangkat lunak sumber terbuka yang memungkinkan pengguna untuk mengelola big data (dari gigabyte hingga petabyte) dengan memungkinkan jaringan komputer (atau “node“) untuk memecahkan masalah data yang luas dan rumit. Ini adalah solusi yang sangat dapat diskalakan, hemat biaya yang menyimpan dan memproses data terstruktur, semi-terstruktur dan tidak terstruktur (misalnya, catatan aliran klik Internet, log server web, data sensor IoT, dll.).

Manfaat dari kerangka kerja Hadoop meliputi:

  • Perlindungan data di tengah kegagalan perangkat keras
  • Skalabilitas yang luas dari satu server ke ribuan mesin
  • Analisis real-time untuk analisis historis dan proses pengambilan keputusan

Apa itu Apache Spark?

Apache Spark — yang juga merupakan sumber terbuka — adalah mesin pemrosesan data untuk big data. Seperti Hadoop, Spark membagi tugas besar di berbagai node. Namun, solusi ini cenderung bekerja lebih cepat daripada Hadoop dan menggunakan memori akses acak (RAM) untuk cache dan memproses data alih-alih sistem file. Ini memungkinkan Spark untuk menangani contoh penggunaan yang tidak dapat dilakukan Hadoop.

Manfaat kerangka kerja Spark meliputi:

Ekosistem Hadoop

Hadoop mendukung analitik lanjutan untuk data yang disimpan (misalnya, analisis prediktif, penambangan data, machine learning (ML), dll.). Ini memungkinkan tugas pemrosesan big data dibagi menjadi tugas-tugas yang lebih kecil. Tugas kecil dilakukan secara paralel dengan menggunakan algoritma (misalnya, MapReduce), dan kemudian didistribusikan di seluruh klaster Hadoop (yaitu, node yang melakukan perhitungan paralel pada big data).

Ekosistem Hadoop terdiri atas empat modul utama:

  1. Hadoop Distributed File System (HDFS): Sistem penyimpanan data utama yang mengelola kumpulan data besar yang berjalan pada perangkat keras komoditas. Ini juga menyediakan akses data throughput tinggi dan toleransi kesalahan yang tinggi.
  2. Yet Another Resource Negotiator (YARN): resource manager klaster yang menjadwalkan tugas dan mengalokasikan sumber daya (misalnya CPU dan memori) untuk aplikasi.
  3. Hadoop MapReduce: Membagi tugas pemrosesan big data menjadi yang lebih kecil, mendistribusikan tugas kecil di berbagai node, kemudian menjalankan setiap tugas.
  4. Hadoop Common (Hadoop Core): Kumpulan pustaka umum dan utilitas yang bergantung pada tiga modul lainnya.

Ekosistem Spark

Apache Spark, proyek sumber terbuka terbesar dalam pemrosesan data, adalah satu-satunya kerangka kerja pemrosesan yang menggabungkan data dan kecerdasan buatan (AI). Hal ini memungkinkan pengguna untuk melakukan transformasi data dan analisis data skala besar, dan kemudian menjalankan algoritma machine learning (ML) dan AI yang canggih.

Ekosistem Spark terdiri atas lima modul utama:

  1. Spark Core: Mesin eksekusi yang mendasari yang menjadwalkan dan mengirimkan tugas dan mengoordinasikan operasi input dan output (I/O).
  2. Spark SQL: Mengumpulkan informasi tentang data terstruktur untuk memungkinkan pengguna mengoptimalkan pemrosesan data terstruktur.
  3. Streaming Spark dan Streaming Terstruktur: Keduanya menambahkan kemampuan pemrosesan aliran. Spark Streaming mengambil data dari sumber streaming yang berbeda dan membaginya menjadi batch mikro untuk aliran berkelanjutan. Streaming Terstruktur, dibangun di Spark SQL, mengurangi latensi dan menyederhanakan pemrograman.
  4. Machine Learning Library (MLlib): Satu set algoritma machine learning untuk skalabilitas ditambah alat untuk pemilihan fitur dan membangun pipeline ML. API utama untuk MLLib adalah DataFrames, yang memberikan keseragaman di berbagai bahasa pemrograman seperti Java, Scala, dan Python.
  5. GraphX: Mesin komputasi yang mudah digunakan yang memungkinkan pembuatan interaktif, modifikasi, dan analisis data terstruktur grafik yang dapat diskalakan.

Membandingkan Hadoop dan Spark

Spark adalah peningkatan Hadoop untuk MapReduce. Perbedaan utama antara Spark dan MapReduce adalah bahwa Spark memproses dan menyimpan data dalam memori untuk langkah-langkah selanjutnya, sedangkan MapReduce memproses data pada disk. Akibatnya, untuk beban kerja yang lebih kecil, kecepatan pemrosesan data Spark hingga 100x lebih cepat daripada MapReduce (tautan berada di luar ibm.com).

Selain itu, berlawanan dengan proses eksekusi dua tahap di MapReduce, Spark membuat Directed Acyclic Graph (DAG) untuk menjadwalkan tugas dan orkestrasi node di seluruh klaster Hadoop. Proses pelacakan tugas ini memungkinkan toleransi kesalahan, yang menerapkan kembali operasi yang direkam ke data dari status sebelumnya.

Mari kita lihat lebih dekat perbedaan utama antara Hadoop dan Spark dalam enam konteks penting:

  1. Kinerja: Spark lebih cepat karena menggunakan memori akses acak (RAM) alih-alih membaca dan menulis data perantara ke disk. Hadoop menyimpan data pada beberapa sumber dan memprosesnya dalam batch melalui MapReduce.
  2. Biaya: Hadoop berjalan dengan biaya lebih rendah karena bergantung pada jenis penyimpanan disk apa pun untuk pemrosesan data. Spark berjalan dengan biaya yang lebih tinggi karena bergantung pada perhitungan dalam memori untuk pemrosesan data real-time, yang mengharuskannya menggunakan RAM dalam jumlah tinggi untuk memutar node.
  3. Pemrosesan: Meskipun kedua platform memproses data dalam lingkungan terdistribusi, Hadoop sangat ideal untuk pemrosesan batch dan pemrosesan data linier. Spark sangat ideal untuk pemrosesan real-time dan pemrosesan aliran data tidak terstruktur langsung.
  4. Skalabilitas: Ketika volume data tumbuh dengan cepat, Hadoop cepat menskalakan untuk mengakomodasi permintaan melalui Sistem File Terdistribusi Hadoop (HDFS). Pada gilirannya, Spark mengandalkan HDFS toleran kesalahan untuk volume data yang besar.
  5. Security: Spark meningkatkan keamanan dengan otentikasi melalui rahasia bersama atau pencatatan, sedangkan Hadoop menggunakan beberapa metode otentikasi dan kontrol akses. Meskipun, secara keseluruhan, Hadoop lebih aman, Spark dapat berintegrasi dengan Hadoop untuk mencapai tingkat keamanan yang lebih tinggi.
  6. Machine learning (ML): Spark adalah platform unggul dalam kategori ini karena termasuk MLlib, yang melakukan perhitungan ML dalam memori berulang. Ini juga mencakup alat yang melakukan regresi, klasifikasi, kegigihan, konstruksi pipeline, evaluasi, dll.

Kesalahpahaman tentang Hadoop dan Spark

Kesalahpahaman umum tentang Hadoop

  • Hadoop murah: Meskipun sumber terbuka dan mudah diatur, menjaga server tetap berjalan bisa mahal. Saat menggunakan fitur seperti komputasi dalam memori dan penyimpanan jaringan, pengelolaan big data dapat menelan biaya hingga 5.000 USD.
  • Hadoop adalah basis data: Meskipun Hadoop digunakan untuk toko, mengelola, dan menganalisis data terdistribusi, tidak ada kueri yang terlibat saat menarik data. Hal ini menjadikan Hadoop sebagai gudang data , bukan basis data.
  • Hadoop tidak membantu UKM: “Big data” tidak eksklusif untuk “perusahaan besar”. Hadoop memiliki fitur sederhana seperti pelaporan Excel yang memungkinkan perusahaan kecil untuk memanfaatkan kekuatannya. Memiliki satu atau dua klaster Hadoop dapat sangat meningkatkan kinerja perusahaan kecil.
  • Hadoop sulit diatur: Meskipun manajemen Hadoop sulit di tingkat yang lebih tinggi, ada banyak antarmuka pengguna grafis (GUI) yang menyederhanakan pemrograman untuk MapReduce.

Kesalahpahaman umum tentang Spark

  • Spark adalah teknologi dalam memori: Meskipun Spark secara efektif menggunakan algoritma yang paling jarang digunakan (LRU), itu sendiri bukan teknologi berbasis memori.
  • Spark selalu berkinerja 100x lebih cepat daripada Hadoop: Meskipun Spark dapat bekerja hingga 100x lebih cepat daripada Hadoop untuk beban kerja kecil, menurut Apache, biasanya hanya berkinerja hingga 3x lebih cepat untuk yang besar (tautan berada di luar ibm.com).
  • Spark memperkenalkan teknologi baru dalam pemrosesan data: Meskipun Spark secara efektif menggunakan algoritma LRU dan pemrosesan data pipeline, kemampuan ini sebelumnya ada dalam basis data pemrosesan paralel besar-besaran (MPP). Namun, yang membedakan Spark dari MPP adalah orientasi sumber terbuka.

Contoh penggunaan Hadoop dan Spark

Berdasarkan analisis komparatif dan informasi faktual yang diberikan di atas, kasus-kasus berikut paling baik menggambarkan kegunaan keseluruhan Hadoop versus Spark.

Contoh penggunaan Hadoop

Hadoop paling efektif untuk skenario yang melibatkan hal-hal berikut:

  • Memproses big data di lingkungan di mana ukuran data melebihi memori yang tersedia
  • Pemrosesan batch dengan tugas yang mengeksploitasi operasi baca dan tulis disk
  • Membangun infrastruktur analisis data dengan anggaran terbatas
  • Menyelesaikan pekerjaan yang tidak sensitif terhadap waktu
  • Analisis data historis dan arsip

Contoh penggunaan Spark

Spark paling efektif untuk skenario yang melibatkan hal-hal berikut:

  • Menangani rangkaian operasi paralel dengan menggunakan algoritma iteratif
  • Mencapai hasil cepat dengan perhitungan dalam memori
  • Menganalisis analisis data aliran secara real time
  • Pemrosesan paralel-grafis untuk memodelkan data
  • Semua aplikasi ML

Hadoop, Spark, dan IBM®

IBM® menawarkan beberapa produk untuk memanfaatkan manfaat Hadoop dan Spark untuk mengoptimalkan inisiatif big data Anda sekaligus mencapai tujuan bisnis komprehensif Anda:

  • IBM® Spectrum Conductor adalah platform multi-tenant yang menerapkan dan mengelola Spark dengan kerangka kerja aplikasi lain pada klaster Sumber Daya bersama yang umum. Spectrum Conductor menawarkan manajemen beban kerja, pemantauan, peringatan, pelaporan, dan diagnostik dan dapat menjalankan beberapa versi Spark saat ini dan berbeda dan kerangka kerja lainnya secara bersamaan.
  • IBM® Db2 Big SQL adalah mesin SQL-on-Hadoop hybrid yang menawarkan koneksi basis data tunggal dan memberikan kueri data yang canggih dan kaya keamanan di seluruh sumber data besar seperti Hadoop HDFS dan WebHDFS, RDMS, basis data NoSQL , dan penyimpanan objek. Pengguna mendapat manfaat dari latensi rendah, kinerja tinggi, keamanan data, kompatibilitas SQL, dan kemampuan federasi untuk kueri ad hoc dan kompleks.
  • IBM® Big Replicate menyatukan klaster Hadoop yang berjalan di Cloudera Data Hub, Hortonworks Data Platform, IBM®, Amazon S3 dan EMR, Microsoft Azure, OpenStack Swift, dan Google Cloud Storage. Big Replicate menyediakan satu namespace virtual di seluruh klaster dan cloud object storage pada jarak berapa pun.

Penulis

IBM Cloud Education Team

IBM Cloud Education