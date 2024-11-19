MapReduce membantu membagi proyek pemrosesan data menjadi bagian-bagian yang lebih kecil sehingga dapat berjalan lebih cepat.

Menggunakan satu prosesor untuk menganalisis file besar dengan terabyte atau petabyte data mungkin, misalnya, memakan waktu 10 jam. Pekerjaan MapReduce dapat membagi file data yang sama menjadi 10 tugas yang berjalan secara paralel pada 10 prosesor. Pekerjaan ini mungkin hanya membutuhkan waktu satu jam atau kurang untuk dijalankan. Data dapat dikumpulkan dari node komputasi terdistribusi untuk menghasilkan hasil.

Meskipun pemetaan dan pengurangan adalah fungsi penting dari model MapReduce, keseluruhan prosesnya mencakup beberapa langkah lagi.

Input





Aplikasi MapReduce menerima data input, yang dapat mencakup data terstruktur atau tidak terstruktur. Aplikasi MapReduce biasanya bekerja dengan file input yang disimpan dalam sistem file terdistribusi Hadoop (HDFS), tetapi model dapat bekerja dengan sumber data lain juga. (Untuk informasi lebih lanjut, lihat “MapReduce dalam ekosistem Hadoop.”)

Untuk pekerjaan tertentu, kerangka kerja MapReduce membantu memilih server terdistribusi, mengelola komunikasi dan transfer data dan mendukung toleransi kesalahan dan redundansi.

Pemisahan



Data input dibagi menjadi blok yang lebih kecil. Blok-blok ini didistribusikan ke pemeta—fungsi yang melakukan pemetaan pada langkah selanjutnya—yang terletak di berbagai node komputasi. Kerangka kerja MapReduce bertujuan untuk penugasan data yang kira-kira seragam di seluruh pemetaan untuk penyeimbangan beban yang efisien.

Pemetaan



Pada setiap node, fungsi peta memproses data yang diterimanya, mengubah data menjadi pasangan kunci/nilai.

Jumlah total pemeta ditentukan dalam kerangka kerja Hadoop, berdasarkan total volume data dan blok memori yang tersedia pada setiap pemeta. Parameter untuk pemetaan, reduksi dan hasil dapat diatur dalam cluster Hadoop.



Mengacak



Kerangka kerja Hadoop mengurutkan hasil peta dan menetapkan semua pasangan kunci/nilai dengan kunci "yang sama" (topik) ke pereduksi yang sama. Contohnya, dalam kumpulan data kota dan suhu tinggi hariannya, semua data dengan kunci "Tokyo" akan masuk ke peredam yang sama.

Peredam, seperti namanya, adalah fungsi yang melakukan langkah pengurangan.

Mengurangi



Fungsi kurangi memproses pasangan kunci/nilai yang dipancarkan pemetaan. Hal ini dapat melibatkan penggabungan, tabulasi, atau melakukan operasi lain pada data, tergantung pada jenis pemrosesan yang diperlukan.

Pemetaan dan pengurangan dapat dilakukan pada set server yang sama, tetapi ini opsional.

Hasil



Setiap peredam mengeluarkan hasil pengolahannya ke HDFS atau toko data lainnya.