Apa itu Apache Hadoop?

Beragam kelompok desainer yang bekerja pada komputer di kantor

Apa itu Apache Hadoop?

Apache Hadoop adalah kerangka kerja perangkat lunak sumber terbuka yang dikembangkan oleh Douglas Cutting, yang saat itu bekerja di Yahoo, yang menyediakan pemrosesan terdistribusi yang sangat andal untuk kumpulan data besar menggunakan model pemrograman sederhana.

Hadoop mengatasi keterbatasan skalabilitas Nutch, dan dibangun di atas kluster komputer komoditas, memberikan solusi hemat biaya untuk menyimpan dan memproses data terstruktur, semi-terstruktur, dan tidak terstruktur dalam jumlah besar tanpa persyaratan format.

Arsitektur data lake termasuk Hadoop dapat menawarkan solusi manajemen data yang fleksibel untuk inisiatif analisis big data Anda. Karena Hadoop adalah proyek sumber terbuka dan mengikuti model komputasi terdistribusi, Hadoop bisa menawarkan harga yang lebih hemat untuk perangkat lunak big data dan solusi penyimpanan.

Hadoop juga dapat diinstal di server cloud untuk mengelola sumber daya komputasi dan penyimpanan yang diperlukan untuk big data dengan lebih baik. Untuk kenyamanan yang lebih baik, agen OS Linux, agen OS UNIX, dan agen OS Windows telah dikonfigurasikan sebelumnya dan dapat dimulai secara otomatis. Vendor cloud terkemuka seperti Amazon Web Services (AWS) dan Microsoft Azure menawarkan berbagai solusi. Cloudera mendukung beban kerja Hadoop baik on premises maupun di cloud, termasuk opsi untuk satu atau lebih lingkungan cloud publik dari beberapa vendor. Gunakan API pemantauan Hadoop untuk menambah, memperbarui, menghapus dan melihat klaster dan layanan pada klaster, dan untuk semua jenis pemantauan lainnya di Hadoop.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Ekosistem Hadoop

Kerangka kerja Hadoop, yang dibangun oleh Apache Software Foundation, meliputi:

  • Hadoop Common: Utilitas dan pustaka umum yang mendukung modul Hadoop lainnya. Juga dikenal sebagai Hadoop Core.

  • Hadoop HDFS (Hadoop Distributed File System): Sistem file terdistribusi untuk menyimpan data aplikasi pada perangkat keras komoditas. HDFS dirancang untuk memberikan toleransi kesalahan pada Hadoop dan menyediakan bandwidth data agregat yang tinggi serta akses throughput yang tinggi pada data. Secara default, blok data direplikasi di beberapa node pada waktu pemuatan atau penulisan. Tingkat replikasi dapat dikonfigurasi: replikasi default adalah tiga. Arsitektur HDFS memiliki fitur NameNode untuk mengelola namespace sistem file dan akses file serta beberapa DataNode untuk mengelola penyimpanan data. Dengan mengaktifkan ketersediaan tinggi, simpul sekunder dapat digunakan ketika node aktif mati.

  • Hadoop YARN: Apache Hadoop YARN sumber terbuka adalah kerangka kerja untuk penjadwalan pekerjaan dan manajemen sumber daya klaster yang dapat digunakan dengan IBM® Spectrum Symphony on Linux® dan Linux on POWER®. YARN adalah singkatan dari Yet Another Resource Negotiator. YARN mendukung lebih banyak beban kerja, seperti SQL interaktif, pemodelan tingkat lanjut, dan streaming real time.

  • Hadoop MapReduce: Sistem berbasis YARN yang menyimpan data pada beberapa sumber dan kekuatan untuk pemrosesan paralel sejumlah besar data. Beberapa teknik pengoptimalan tersedia untuk MapReduce untuk mempercepat pekerjaan.

  • Hadoop Ozone: Penyimpanan objek yang skalabel, redundan, dan terdistribusi yang dirancang untuk aplikasi big data .
AI Academy

Apakah manajemen data merupakan rahasia AI generatif?

Jelajahi mengapa data berkualitas tinggi sangat penting untuk keberhasilan penggunaan AI generatif.

Mendukung proyek Apache

Tingkatkan Hadoop dengan proyek perangkat lunak sumber terbuka tambahan.

Ambari

Alat berbasis web untuk menyediakan, mengelola, dan memantau klaster Hadoop.

Avro

Sistem serialisasi data.

Cassandra

Database NoSQL yang dapat diskalakan dan dirancang agar bebas dari satu pun titik kegagalan.

Chukwa

Sistem pengumpulan data untuk memantau sistem terdistribusi besar; dibangun di atas HDFS dan MapReduce.

Flume

Layanan untuk mengumpulkan, menggabungkan, dan memindahkan data streaming dalam jumlah besar ke HDFS.

HBase

Database terdistribusi non-relasional yang dapat diskalakan dan mendukung penyimpanan data terstruktur untuk tabel berukuran sangat besar.

Hive

Infrastruktur gudang data untuk kueri data, penyimpanan metadata untuk tabel dan analisis dalam antarmuka seperti SQL.

Mahout

Pustaka machine learning dan penambangan data yang skalabel.

Oozie

Workload scheduler berbasis Java untuk mengelola pekerjaan Hadoop.

Pig

Bahasa aliran data tingkat tinggi dan kerangka kerja eksekusi untuk komputasi paralel.

Sqoop

Alat untuk mentransfer data secara efisien antara Hadoop dan penyimpanan data terstruktur seperti database relasional.

Submarine

Platform AI terpadu untuk menjalankan machine learning dan beban kerja pembelajaran mendalam dalam kluster terdistribusi.

Tez

Kerangka pemrograman aliran data yang digeneralisasi, dibangun di atas YARN; diadopsi dalam ekosistem Hadoop untuk menggantikan MapReduce.

Zookeeper

Layanan koordinasi berkinerja tinggi untuk aplikasi terdistribusi.

Hadoop untuk pengembang

Apache Hadoop ditulis di Java, tetapi bergantung pada proyek big data-nya, pengembang dapat memprogram dalam bahasa pilihan mereka, seperti Python, R, atau Scala. Utilitas Hadoop Streaming yang disertakan memungkinkan pengembang membuat dan menjalankan pekerjaan MapReduce dengan skrip apa pun atau dapat dieksekusi sebagai mapper atau peredam.

Spark vs. Hadoop

Apache Spark sering dibandingkan dengan Hadoop karena juga merupakan kerangka kerja sumber terbuka untuk pemrosesan data besar.Faktanya, Spark pada awalnya dibuat untuk meningkatkan kinerja pemrosesan dan memperluas jenis komputasi yang mungkin dilakukan dengan Hadoop MapReduce.Spark menggunakan pemrosesan dalam memori, yang berarti jauh lebih cepat daripada kemampuan baca/tulis MapReduce.

Meskipun Hadoop paling baik untuk pemrosesan batch data dalam jumlah besar, Spark mendukung pemrosesan data batch dan real-time serta ideal untuk streaming data dan komputasi grafik.Baik Hadoop maupun Spark memiliki pustaka machine learning. Namun sekali lagi, karena pemrosesan dalam memori, pembelajaran mesin Spark jauh lebih cepat.

Contoh penggunaan Hadoop

Keputusan berbasis data yang lebih baik: Mengintegrasikan data real-time (streaming audio, video, sentimen media sosial, dan data clickstream) dan data semi-terstruktur dan tidak terstruktur lainnya yang tidak digunakan dalam gudang data atau database relasional. Data yang lebih komprehensif menyumbang untuk keputusan yang lebih akurat.

Peningkatan akses dan analisis data: Dorong akses layanan mandiri secara real-time untuk ilmuwan data, pemilik lini bisnis (LOB), dan pengembang Anda. Hadoop mampu mendorong ilmu data, bidang interdisipliner yang menggunakan data, algoritme, pembelajaran mesin, dan AI untuk analisis tingkat lanjut guna mengungkap pola dan membuat prediksi.

Pembongkaran dan konsolidasi data: Sederhanakan biaya di pusat data perusahaan Anda dengan memindahkan data “dingin” yang saat ini tidak digunakan ke distribusi berbasis Hadoop untuk penyimpanan. Atau konsolidasikan data di seluruh organisasi untuk meningkatkan aksesibilitas dan menurunkan biaya.

Solusi terkait
Perangkat lunak dan solusi manajemen data

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

Jelajahi solusi manajemen data
IBM watsonx.data™

watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.

Temukan watsonx.data
Layanan konsultasi data dan analitik

Dapatkan nilai data perusahaan dengan IBM Consulting, untuk membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik
Ambil langkah selanjutnya

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

Jelajahi solusi manajemen data Temukan watsonx.data