Apache Hadoop adalah kerangka perangkat lunak sumber terbuka yang menyediakan pemrosesan terdistribusi kumpulan data besar yang sangat andal menggunakan model pemrograman sederhana.Hadoop, yang terkenal dengan skalabilitasnya, dibangun pada klaster komputer komoditas. Sehingga memberikan solusi hemat biaya untuk menyimpan dan memproses data terstruktur, semi-terstruktur, dan tidak terstruktur dalam jumlah besar tanpa persyaratan format.
Arsitektur data lake termasuk Hadoop dapat menawarkan solusi manajemen data yang fleksibel untuk inisiatif analitik big data Anda. Karena Hadoop adalah proyek perangkat lunak sumber terbuka dan mengikuti model komputasi terdistribusi, Hadoop dapat menawarkan total biaya kepemilikan yang lebih rendah untuk perangkat lunak dan solusi penyimpanan big data.
Hadoop juga dapat diinstal di server cloud untuk mengelola sumber daya komputasi dan penyimpanan yang diperlukan untuk big data dengan lebih baik. Vendor cloud terkemuka seperti Amazon Web Services (AWS) dan Microsoft Azure menawarkan berbagai solusi. Cloudera mendukung beban kerja Hadoop baik on-premise maupun di cloud, termasuk opsi untuk satu atau lebih lingkungan cloud publik dari beberapa vendor.
Kerangka kerja Hadoop, yang dibangun oleh Apache Software Foundation, meliputi:
Tingkatkan Hadoop dengan proyek perangkat lunak sumber terbuka tambahan.
Alat berbasis web untuk menyediakan, mengelola, dan memantau klaster Hadoop.
Sistem serialisasi data.
Database NoSQL yang dapat diskalakan dan dirancang agar bebas dari satu pun titik kegagalan.
Sistem pengumpulan data untuk memantau sistem terdistribusi besar; dibangun di atas HDFS dan MapReduce.
Layanan untuk mengumpulkan, menggabungkan, dan memindahkan data streaming dalam jumlah besar ke HDFS.
Database terdistribusi non-relasional yang dapat diskalakan dan mendukung penyimpanan data terstruktur untuk tabel berukuran sangat besar.
Infrastruktur gudang data untuk kueri dan analisis data dalam antarmuka mirip SQL.
Pustaka machine learning dan penambangan data yang skalabel.
Workload scheduler berbasis Java untuk mengelola pekerjaan Hadoop.
Bahasa aliran data tingkat tinggi dan kerangka kerja eksekusi untuk komputasi paralel.
Alat untuk mentransfer data secara efisien antara Hadoop dan penyimpanan data terstruktur seperti database relasional.
Platform AI terpadu untuk menjalankan machine learning dan beban kerja pembelajaran mendalam dalam kluster terdistribusi.
Kerangka pemrograman aliran data yang digeneralisasi, dibangun di atas YARN; diadopsi dalam ekosistem Hadoop untuk menggantikan MapReduce.
Layanan koordinasi berkinerja tinggi untuk aplikasi terdistribusi.
Apache Hadoop ditulis di Java, tetapi bergantung pada proyek big data-nya, pengembang dapat memprogram dalam bahasa pilihan mereka, seperti Python, R, atau Scala.Utilitas Hadoop Streaming yang disertakan memungkinkan pengembang membuat dan menjalankan pekerjaan MapReduce dengan skrip apa pun atau dapat dieksekusi sebagai mapper atau peredam.
Apache Spark sering dibandingkan dengan Hadoop karena juga merupakan kerangka kerja sumber terbuka untuk pemrosesan data besar.Faktanya, Spark pada awalnya dibuat untuk meningkatkan kinerja pemrosesan dan memperluas jenis komputasi yang mungkin dilakukan dengan Hadoop MapReduce.Spark menggunakan pemrosesan dalam memori, yang berarti jauh lebih cepat daripada kemampuan baca/tulis MapReduce.
Meskipun Hadoop paling baik untuk pemrosesan batch data dalam jumlah besar, Spark mendukung pemrosesan data batch dan real-time serta ideal untuk streaming data dan komputasi grafik.Baik Hadoop maupun Spark memiliki pustaka machine learning. Namun sekali lagi, karena pemrosesan dalam memori, pembelajaran mesin Spark jauh lebih cepat.
Keputusan berbasis data yang lebih baik: Mengintegrasikan data real-time (streaming audio, video, sentimen media sosial, dan data clickstream) dan data semi-terstruktur dan tidak terstruktur lainnya yang tidak digunakan dalam gudang data atau database relasional. Data yang lebih komprehensif menyumbang untuk keputusan yang lebih akurat.
Peningkatan akses dan analisis data: Dorong akses layanan mandiri secara real-time untuk ilmuwan data, pemilik lini bisnis (LOB), dan pengembang Anda. Hadoop mampu mendorong ilmu data, bidang interdisipliner yang menggunakan data, algoritme, pembelajaran mesin, dan AI untuk analisis tingkat lanjut guna mengungkap pola dan membuat prediksi.
Pembongkaran dan konsolidasi data: Rampingkan biaya di gudang data perusahaan Anda dengan memindahkan data “dingin” yang saat ini tidak digunakan ke distribusi berbasis Hadoop untuk penyimpanan. Atau konsolidasikan data di seluruh organisasi untuk meningkatkan aksesibilitas dan menurunkan biaya.
Mendukung analisis prediktif dan preskriptif untuk AI masa kini. Menggabungkan distribusi Hadoop tingkat perusahaan Cloudera dengan satu ekosistem produk dan layanan terintegrasi dari IBM dan Cloudera untuk meningkatkan penemuan data, pengujian, ad hoc, dan kueri hampir real-time.Manfaatkan kolaborasi antara IBM dan Cloudera untuk menghadirkan solusi Hadoop bagi perusahaan.
Gunakan mesin SQL-on-Hadoop hibrida yang sesuai dengan ANSI tingkat perusahaan untuk menghasilkan pemrosesan paralel besar-besaran (MPP) dan kueri data tingkat lanjut.
Mereplikasi data saat dialirkan sehingga file tidak perlu ditulis atau ditutup sepenuhnya sebelum ditransfer.
Memanfaatkan data besar secara lebih hemat biaya dengan database sumber terbuka dari vendor terkemuka seperti MongoDB dan EDB.
Lihat cara mereka mendorong analisis tingkat lanjut dengan data lake berbasis sumber terbuka tingkat perusahaan yang aman dan terkelola.
Tambahkan data lake ke strategi pengelolaan data Anda untuk mengintegrasikan lebih banyak data tidak terstruktur demi mendapatkan insight yang lebih mendalam.
Jelajahi penyimpanan dan tata kelola teknologi yang dibutuhkan data lake Anda untuk menghasilkan data yang siap AI.
Lihat bagaimana solusi tata kelola yang telah terbukti mampu mendorong integrasi, kualitas, dan keamanan data yang lebih baik untuk data lake Anda.
Pilih jalur pembelajaran Anda, berdasarkan tingkat keahlian, mulai dari kursus gratis dalam ilmu data, AI, big data, dan banyak lagi.
Bergabunglah dengan komunitas IBM untuk manajemen data sumber terbuka untuk kolaborasi, sumber daya, dan banyak lagi.