Apa itu Hadoop?

Apache Hadoop adalah kerangka perangkat lunak sumber terbuka yang menyediakan pemrosesan terdistribusi kumpulan data besar yang sangat andal menggunakan model pemrograman sederhana.Hadoop, yang terkenal dengan skalabilitasnya, dibangun pada klaster komputer komoditas. Sehingga memberikan solusi hemat biaya untuk menyimpan dan memproses data terstruktur, semi-terstruktur, dan tidak terstruktur dalam jumlah besar tanpa persyaratan format.

Arsitektur data lake termasuk Hadoop dapat menawarkan solusi manajemen data yang fleksibel untuk inisiatif analitik big data Anda. Karena Hadoop adalah proyek perangkat lunak sumber terbuka dan mengikuti model komputasi terdistribusi, Hadoop dapat menawarkan total biaya kepemilikan yang lebih rendah untuk perangkat lunak dan solusi penyimpanan big data.

Hadoop juga dapat diinstal di server cloud untuk mengelola sumber daya komputasi dan penyimpanan yang diperlukan untuk big data dengan lebih baik. Vendor cloud terkemuka seperti Amazon Web Services (AWS) dan Microsoft Azure menawarkan berbagai solusi. Cloudera mendukung beban kerja Hadoop baik on-premise maupun di cloud, termasuk opsi untuk satu atau lebih lingkungan cloud publik dari beberapa vendor.

Ekosistem Hadoop

Kerangka kerja Hadoop, yang dibangun oleh Apache Software Foundation, meliputi:

Hadoop Common: Utilitas dan pustaka umum yang mendukung modul Hadoop lainnya. Juga dikenal sebagai Hadoop Core.
Hadoop HDFS (Hadoop Distributed File System): Sistem file terdistribusi untuk menyimpan data aplikasi pada perangkat keras komoditas.Sistem ini memberikan akses throughput tinggi ke data dan toleransi kesalahan yang tinggi.Arsitektur HDFS memiliki fitur NameNode untuk mengelola namespace sistem file dan akses file serta beberapa DataNode untuk mengelola penyimpanan data.
Hadoop YARN: Kerangka kerja untuk mengelola klaster sumber daya dan menjadwalkan pekerjaan. YARN adalah singkatan dari Yet Another Resource Negotiator. YARN mendukung lebih banyak beban kerja, seperti SQL interaktif, pemodelan tingkat lanjut, dan streaming real time.
Hadoop MapReduce: Sistem berbasis YARN untuk pemrosesan paralel kumpulan data besar.
Hadoop Ozone: Penyimpanan objek yang skalabel, redundan, dan terdistribusi yang dirancang untuk aplikasi big data .

Mendukung proyek Apache

Tingkatkan Hadoop dengan proyek perangkat lunak sumber terbuka tambahan.

Ambari

Alat berbasis web untuk menyediakan, mengelola, dan memantau klaster Hadoop.

Avro

Sistem serialisasi data.

Cassandra

Database NoSQL yang dapat diskalakan dan dirancang agar bebas dari satu pun titik kegagalan.

Chukwa

Sistem pengumpulan data untuk memantau sistem terdistribusi besar; dibangun di atas HDFS dan MapReduce.

Flume

Layanan untuk mengumpulkan, menggabungkan, dan memindahkan data streaming dalam jumlah besar ke HDFS.

HBase

Database terdistribusi non-relasional yang dapat diskalakan dan mendukung penyimpanan data terstruktur untuk tabel berukuran sangat besar.

Hive

Infrastruktur gudang data untuk kueri dan analisis data dalam antarmuka mirip SQL.

Mahout

Pustaka machine learning dan penambangan data yang skalabel.

Oozie

Workload scheduler berbasis Java untuk mengelola pekerjaan Hadoop.

Pig

Bahasa aliran data tingkat tinggi dan kerangka kerja eksekusi untuk komputasi paralel.

Sqoop

Alat untuk mentransfer data secara efisien antara Hadoop dan penyimpanan data terstruktur seperti database relasional.

Submarine

Platform AI terpadu untuk menjalankan machine learning dan beban kerja pembelajaran mendalam dalam kluster terdistribusi.

Tez

Kerangka pemrograman aliran data yang digeneralisasi, dibangun di atas YARN; diadopsi dalam ekosistem Hadoop untuk menggantikan MapReduce.

Zookeeper

Layanan koordinasi berkinerja tinggi untuk aplikasi terdistribusi.

Hadoop untuk pengembang

Apache Hadoop ditulis di Java, tetapi bergantung pada proyek big data-nya, pengembang dapat memprogram dalam bahasa pilihan mereka, seperti Python, R, atau Scala.Utilitas Hadoop Streaming yang disertakan memungkinkan pengembang membuat dan menjalankan pekerjaan MapReduce dengan skrip apa pun atau dapat dieksekusi sebagai mapper atau peredam.

Spark vs. Hadoop

Apache Spark sering dibandingkan dengan Hadoop karena juga merupakan kerangka kerja sumber terbuka untuk pemrosesan data besar.Faktanya, Spark pada awalnya dibuat untuk meningkatkan kinerja pemrosesan dan memperluas jenis komputasi yang mungkin dilakukan dengan Hadoop MapReduce.Spark menggunakan pemrosesan dalam memori, yang berarti jauh lebih cepat daripada kemampuan baca/tulis MapReduce.

Meskipun Hadoop paling baik untuk pemrosesan batch data dalam jumlah besar, Spark mendukung pemrosesan data batch dan real-time serta ideal untuk streaming data dan komputasi grafik.Baik Hadoop maupun Spark memiliki pustaka machine learning. Namun sekali lagi, karena pemrosesan dalam memori, pembelajaran mesin Spark jauh lebih cepat.

Pelajari selengkapnya tentang Apache Spark

Contoh penggunaan Hadoop

Keputusan berbasis data yang lebih baik: Mengintegrasikan data real-time (streaming audio, video, sentimen media sosial, dan data clickstream) dan data semi-terstruktur dan tidak terstruktur lainnya yang tidak digunakan dalam gudang data atau database relasional. Data yang lebih komprehensif menyumbang untuk keputusan yang lebih akurat.

Peningkatan akses dan analisis data: Dorong akses layanan mandiri secara real-time untuk ilmuwan data, pemilik lini bisnis (LOB), dan pengembang Anda. Hadoop mampu mendorong ilmu data, bidang interdisipliner yang menggunakan data, algoritme, pembelajaran mesin, dan AI untuk analisis tingkat lanjut guna mengungkap pola dan membuat prediksi.

Pembongkaran dan konsolidasi data: Rampingkan biaya di gudang data perusahaan Anda dengan memindahkan data “dingin” yang saat ini tidak digunakan ke distribusi berbasis Hadoop untuk penyimpanan. Atau konsolidasikan data di seluruh organisasi untuk meningkatkan aksesibilitas dan menurunkan biaya.

Solusi terkait

{Label kategori produk umum}

IBM dan Cloudera

Mendukung analisis prediktif dan preskriptif untuk AI masa kini. Menggabungkan distribusi Hadoop tingkat perusahaan Cloudera dengan satu ekosistem produk dan layanan terintegrasi dari IBM dan Cloudera untuk meningkatkan penemuan data, pengujian, ad hoc, dan kueri hampir real-time.Manfaatkan kolaborasi antara IBM dan Cloudera untuk menghadirkan solusi Hadoop bagi perusahaan.

Jelajahi IBM dan Cloudera

{Label kategori produk umum}

IBM Db2 Big SQL

Gunakan mesin SQL-on-Hadoop hibrida yang sesuai dengan ANSI tingkat perusahaan untuk menghasilkan pemrosesan paralel besar-besaran (MPP) dan kueri data tingkat lanjut.

Jelajahi Db2 Big SQL

{Label kategori produk umum}

IBM Big Replicate

Mereplikasi data saat dialirkan sehingga file tidak perlu ditulis atau ditutup sepenuhnya sebelum ditransfer.

Jelajahi Big Replicate

Database sumber terbuka

Memanfaatkan data besar secara lebih hemat biaya dengan database sumber terbuka dari vendor terkemuka seperti MongoDB dan EDB.

Jelajahi database sumber terbuka

Sumber daya

IBM + Cloudera

Lihat cara mereka mendorong analisis tingkat lanjut dengan data lake berbasis sumber terbuka tingkat perusahaan yang aman dan terkelola.

Cara menghubungkan lebih banyak data

Tambahkan data lake ke strategi pengelolaan data Anda untuk mengintegrasikan lebih banyak data tidak terstruktur demi mendapatkan insight yang lebih mendalam.

Data lake yang tangguh dan terkelola untuk AI

Jelajahi penyimpanan dan tata kelola teknologi yang dibutuhkan data lake Anda untuk menghasilkan data yang siap AI.

Tata kelola data lake

Lihat bagaimana solusi tata kelola yang telah terbukti mampu mendorong integrasi, kualitas, dan keamanan data yang lebih baik untuk data lake Anda.

Kursus analisis big data

Pilih jalur pembelajaran Anda, berdasarkan tingkat keahlian, mulai dari kursus gratis dalam ilmu data, AI, big data, dan banyak lagi.

Komunitas sumber terbuka

Bergabunglah dengan komunitas IBM untuk manajemen data sumber terbuka untuk kolaborasi, sumber daya, dan banyak lagi.

Ambil langkah selanjutnya

IBM dan Cloudera telah bermitra untuk menciptakan layanan data dan AI tingkat perusahaan yang terdepan di industri menggunakan ekosistem sumber terbuka, yang semuanya dirancang untuk mencapai data dan analitik yang lebih cepat dalam skala besar. Bangun model secara kolaboratif untuk diterapkan pada banyak aliran dan menganalisis data dalam jumlah besar secara real-time. Pahami data Anda (teks, video, audio, geospasial, dan sensor tidak terstruktur) sehingga Anda dapat melihat peluang dan risiko yang terjadi.

Jelajahi solusi IBM dan Cloudera