Apache Hadoop adalah kerangka kerja perangkat lunak sumber terbuka yang dikembangkan oleh Douglas Cutting, yang saat itu bekerja di Yahoo, yang menyediakan pemrosesan terdistribusi yang sangat andal untuk kumpulan data besar menggunakan model pemrograman sederhana.
Hadoop mengatasi keterbatasan skalabilitas Nutch, dan dibangun di atas kluster komputer komoditas, memberikan solusi hemat biaya untuk menyimpan dan memproses data terstruktur, semi-terstruktur, dan tidak terstruktur dalam jumlah besar tanpa persyaratan format.
Arsitektur data lake termasuk Hadoop dapat menawarkan solusi manajemen data yang fleksibel untuk inisiatif analisis big data Anda. Karena Hadoop adalah proyek sumber terbuka dan mengikuti model komputasi terdistribusi, Hadoop bisa menawarkan harga yang lebih hemat untuk perangkat lunak big data dan solusi penyimpanan.
Hadoop juga dapat diinstal di server cloud untuk mengelola sumber daya komputasi dan penyimpanan yang diperlukan untuk big data dengan lebih baik. Untuk kenyamanan yang lebih baik, agen OS Linux, agen OS UNIX, dan agen OS Windows telah dikonfigurasikan sebelumnya dan dapat dimulai secara otomatis. Vendor cloud terkemuka seperti Amazon Web Services (AWS) dan Microsoft Azure menawarkan berbagai solusi. Cloudera mendukung beban kerja Hadoop baik on premises maupun di cloud, termasuk opsi untuk satu atau lebih lingkungan cloud publik dari beberapa vendor. Gunakan API pemantauan Hadoop untuk menambah, memperbarui, menghapus dan melihat klaster dan layanan pada klaster, dan untuk semua jenis pemantauan lainnya di Hadoop.
Kerangka kerja Hadoop, yang dibangun oleh Apache Software Foundation, meliputi:
Tingkatkan Hadoop dengan proyek perangkat lunak sumber terbuka tambahan.
Alat berbasis web untuk menyediakan, mengelola, dan memantau klaster Hadoop.
Sistem serialisasi data.
Database NoSQL yang dapat diskalakan dan dirancang agar bebas dari satu pun titik kegagalan.
Sistem pengumpulan data untuk memantau sistem terdistribusi besar; dibangun di atas HDFS dan MapReduce.
Layanan untuk mengumpulkan, menggabungkan, dan memindahkan data streaming dalam jumlah besar ke HDFS.
Database terdistribusi non-relasional yang dapat diskalakan dan mendukung penyimpanan data terstruktur untuk tabel berukuran sangat besar.
Infrastruktur gudang data untuk kueri data, penyimpanan metadata untuk tabel dan analisis dalam antarmuka seperti SQL.
Pustaka machine learning dan penambangan data yang skalabel.
Workload scheduler berbasis Java untuk mengelola pekerjaan Hadoop.
Bahasa aliran data tingkat tinggi dan kerangka kerja eksekusi untuk komputasi paralel.
Alat untuk mentransfer data secara efisien antara Hadoop dan penyimpanan data terstruktur seperti database relasional.
Platform AI terpadu untuk menjalankan machine learning dan beban kerja pembelajaran mendalam dalam kluster terdistribusi.
Kerangka pemrograman aliran data yang digeneralisasi, dibangun di atas YARN; diadopsi dalam ekosistem Hadoop untuk menggantikan MapReduce.
Layanan koordinasi berkinerja tinggi untuk aplikasi terdistribusi.
Apache Hadoop ditulis di Java, tetapi bergantung pada proyek big data-nya, pengembang dapat memprogram dalam bahasa pilihan mereka, seperti Python, R, atau Scala. Utilitas Hadoop Streaming yang disertakan memungkinkan pengembang membuat dan menjalankan pekerjaan MapReduce dengan skrip apa pun atau dapat dieksekusi sebagai mapper atau peredam.
Apache Spark sering dibandingkan dengan Hadoop karena juga merupakan kerangka kerja sumber terbuka untuk pemrosesan data besar.Faktanya, Spark pada awalnya dibuat untuk meningkatkan kinerja pemrosesan dan memperluas jenis komputasi yang mungkin dilakukan dengan Hadoop MapReduce.Spark menggunakan pemrosesan dalam memori, yang berarti jauh lebih cepat daripada kemampuan baca/tulis MapReduce.
Meskipun Hadoop paling baik untuk pemrosesan batch data dalam jumlah besar, Spark mendukung pemrosesan data batch dan real-time serta ideal untuk streaming data dan komputasi grafik.Baik Hadoop maupun Spark memiliki pustaka machine learning. Namun sekali lagi, karena pemrosesan dalam memori, pembelajaran mesin Spark jauh lebih cepat.
Keputusan berbasis data yang lebih baik: Mengintegrasikan data real-time (streaming audio, video, sentimen media sosial, dan data clickstream) dan data semi-terstruktur dan tidak terstruktur lainnya yang tidak digunakan dalam gudang data atau database relasional. Data yang lebih komprehensif menyumbang untuk keputusan yang lebih akurat.
Peningkatan akses dan analisis data: Dorong akses layanan mandiri secara real-time untuk ilmuwan data, pemilik lini bisnis (LOB), dan pengembang Anda. Hadoop mampu mendorong ilmu data, bidang interdisipliner yang menggunakan data, algoritme, pembelajaran mesin, dan AI untuk analisis tingkat lanjut guna mengungkap pola dan membuat prediksi.
Pembongkaran dan konsolidasi data: Sederhanakan biaya di pusat data perusahaan Anda dengan memindahkan data “dingin” yang saat ini tidak digunakan ke distribusi berbasis Hadoop untuk penyimpanan. Atau konsolidasikan data di seluruh organisasi untuk meningkatkan aksesibilitas dan menurunkan biaya.
Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.
watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.
Dapatkan nilai data perusahaan dengan IBM Consulting, untuk membangun organisasi berbasis insight yang memberikan keuntungan bisnis.