Apache Spark memiliki arsitektur primer/sekunder hierarkis. Spark Driver adalah node utama yang mengontrol manajer cluster, yang mengelola node sekunder dan mengirimkan hasil data ke klien aplikasi.

Berdasarkan kode aplikasi, Spark Driver menghasilkan SparkContext, yang bekerja dengan manajer cluster, Standalone Cluster Manager dari Spark atau manajer cluster lain seperti Hadoop YARN, Kubernetes, atau Mesos, untuk mendistribusikan dan memonitor eksekusi di seluruh node. Ini juga menciptakan Resilient Distributed Datasets (RDD), yang merupakan kunci kecepatan pemrosesan Spark yang luar biasa.

Resilient Distributed Dataset (RDD)



Resilient Distributed Datasets (RDD) adalah kumpulan elemen yang tahan terhadap kesalahan yang dapat didistribusikan di antara beberapa node dalam sebuah cluster dan dikerjakan secara paralel. RDD adalah struktur dasar di Apache Spark.



Spark memuat data dengan mereferensikan sumber data atau dengan memparalelkan koleksi yang sudah ada dengan metode paralelisasi SparkContext untuk menyimpan data ke dalam RDD untuk diproses. Setelah data dimuat ke dalam RDD, Spark melakukan transformasi dan tindakan pada RDD di memori, kunci kecepatan Spark. Spark juga menyimpan data dalam memori kecuali jika sistem kehabisan memori atau pengguna memutuskan untuk menulis data ke disk untuk persistensi.

Setiap kumpulan data dalam RDD dibagi menjadi partisi logis, yang dapat dihitung pada node yang berbeda dari cluster. Dan pengguna dapat melakukan dua jenis operasi RDD: transformasi dan tindakan. Transformasi adalah operasi yang diterapkan untuk membuat RDD baru. Tindakan digunakan untuk menginstruksikan Apache Spark untuk menerapkan komputasi dan meneruskan hasilnya kembali ke driver.

Spark mendukung berbagai tindakan dan transformasi pada RDD. Distribusi ini dilakukan oleh Spark, sehingga pengguna tidak perlu khawatir tentang menghitung distribusi yang tepat.

Directed Acyclic Graph (DAG)



Berlawanan dengan proses eksekusi dua tahap di MapReduce, Spark membuat Directed Acyclic Graph (DAG) untuk menjadwalkan tugas dan orkestrasi node-node pekerja di seluruh cluster. Ketika Spark bertindak dan mengubah data dalam proses eksekusi tugas, penjadwal DAG memfasilitasi efisiensi dengan mengatur node pekerja di seluruh cluster. Pelacakan tugas ini memungkinkan toleransi kesalahan, karena menerapkan kembali operasi yang direkam ke data dari status sebelumnya.



DataFrame dan Dataset



Selain RDD, Spark menangani dua tipe data lainnya: DataFrame dan Dataset.

DataFrame adalah antarmuka pemrograman aplikasi (API) terstruktur yang paling umum dan merepresentasikan tabel data dengan baris dan kolom. Meskipun RDD telah menjadi fitur penting bagi Spark, kini berada dalam mode pemeliharaan. Karena popularitas Machine Learning Library (MLlib) dari Spark, DataFrames telah mengambil peran utama sebagai API utama untuk MLlib (seperangkat algoritme machine learning untuk skalabilitas plus alat untuk pemilihan fitur dan membangun pipeline ML). Hal ini penting untuk diperhatikan ketika menggunakan API MLlib, karena DataFrame menyediakan keseragaman di berbagai bahasa, seperti Scala, Java, Python, dan R.

Dataset adalah ekstensi dari DataFrame yang menyediakan antarmuka pemrograman berorientasi objek yang tipe-aman. Dataset, secara default, adalah kumpulan objek JVM yang diketik dengan kuat, tidak seperti DataFrame.

Spark SQL memungkinkan data untuk dikueri dari DataFrame dan penyimpanan data SQL, seperti Apache Hive. Kueri SQL Spark mengembalikan DataFrame atau Dataset saat dijalankan dalam bahasa lain.

Spark Core



Spark Core adalah basis untuk semua pemrosesan data paralel dan menangani penjadwalan, optimasi, RDD, dan abstraksi data. Spark Core menyediakan dasar fungsional untuk pustaka Spark, Spark SQL, Spark Streaming, pustaka machine learning MLlib, dan pemrosesan data grafik GraphX. Spark Core dan pengelola cluster mendistribusikan data di seluruh cluster Spark dan mengabstraksinya. Distribusi dan abstraksi ini membuat penanganan Big Data menjadi sangat cepat dan ramah pengguna.



API Spark



Spark menyertakan berbagai antarmuka pemrograman aplikasi (API) untuk menghadirkan kekuatan Spark kepada khalayak luas. SQL Spark memungkinkan interaksi dengan data RDD secara relasional. Spark juga memiliki API yang terdokumentasi dengan baik untuk Scala, Java, Python, dan R. Setiap API bahasa di Spark memiliki nuansa spesifik dalam cara menangani data. RDD, DataFrame, dan Dataset tersedia dalam setiap API bahasa. Dengan API untuk berbagai bahasa, Spark membuat pemrosesan big data dapat diakses oleh kelompok orang yang lebih beragam dengan latar belakang dalam pengembangan, ilmu data, rekayasa data, dan statistik.