Gudang data vs. data lake vs. data lakehouse 

20 November 2024

Penyusun

Matthew Kosinski

Enterprise Technology Writer

Gudang data vs. data lake vs. data lakehouse

Gudang data, data lake, dan data lakehouse adalah berbagai jenis solusi manajemen data dengan fungsi yang berbeda:

  • Gudang data mengumpulkan, membersihkan, dan menyiapkan data sehingga dapat digunakan untuk upaya intelijen bisnis (BI) dan analisis data. 

  • Data lake menyimpan sejumlah besar data mentah dengan biaya rendah. 

  • Data lakehouse menggabungkan penyimpanan data lake yang fleksibel dan kemampuan analitik kinerja tinggi dari gudang menjadi satu solusi.

Karena solusi ini memiliki fitur yang berbeda dan melayani tujuan yang berbeda, banyak arsitektur data perusahaan menggunakan 2 atau ketiganya dalam struktur data holistik:

  • Organisasi dapat menggunakan data lake sebagai solusi penyimpanan tujuan umum untuk semua data yang masuk dalam format apa pun.

  • Data dari data lake dapat diumpankan ke gudang data yang disesuaikan dengan masing-masing unit bisnis, di mana data tersebut dapat menginformasikan pengambilan keputusan.

Data lakehouse juga populer sebagai jalur modernisasi untuk arsitektur data yang ada. Organisasi dapat mengimplementasikan lakehouse baru tanpa membongkar dan mengganti data lake dan gudang data mereka saat ini, merampingkan transisi ke solusi penyimpanan dan analisis data terpadu.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Karakteristik utama gudang data

Gudang data mengumpulkan data dari sumber data yang berbeda,database, aplikasi bisnis, dan umpan media sosial, dalam satu toko. Fitur yang menentukan dari alat pergudangan data adalah membersihkan dan menyiapkan kumpulan data yang menyerapnya. 

Gudang data menggunakan pendekatan yang disebut “schema-on-write,” yang menerapkan skema yang konsisten untuk semua data saat ditulis ke penyimpanan. Ini membantu mengoptimalkan data untuk intelijen bisnis dan analitik.

Sebagai contoh, sebuah gudang untuk data penjualan retail akan membantu memastikan bahwa detail seperti tanggal, jumlah dan nomor transaksi diformat dengan benar dan ditetapkan ke sel yang tepat dalam tabel relasional. 

Pasar data adalah jenis gudang data yang berisi data khusus untuk lini bisnis atau departemen tertentu daripada seluruh perusahaan. Misalnya, tim pemasaran mungkin memiliki pasar data sendiri, SDM mungkin memiliki data sendiri, dan seterusnya. 

Arsitektur gudang data  

Gudang data pada umumnya memiliki 3 lapisan:

  • Lapisan tengah dibangun di sekitar analytics engine, seperti sistem pemrosesan analitik daring (OLAP) atau mesin berbasis SQL. Lapisan tengah ini memungkinkan pengguna untuk menanyakan kumpulan data dan menjalankan analitik langsung di gudang. 

  • Lapisan teratas mencakup antarmuka pengguna dan alat pelaporan yang memungkinkan pengguna untuk melakukan analisis data ad hoc pada data bisnis mereka.  

Gudang data awal di-host di lokasi, tetapi banyak yang sekarang di-host di cloud atau dikirimkan sebagai layanan cloud. Pendekatan hibrida juga umum. 

Karena gudang data tradisional bergantung pada sistem basis data relasional dan skema yang ketat, gudang data ini paling efektif dengan data terstruktur. Beberapa gudang modern telah berevolusi untuk mengakomodasi data semiterstruktur dan tidak terstruktur, namun banyak organisasi lebih memilih data lake dan lakehouse untuk jenis data ini.

Contoh penggunaan gudang data

Gudang data digunakan oleh analis bisnis, ilmuwan data, dan insinyur data untuk melakukan upaya analisis layanan mandiri.  

Menerapkan skema yang ditentukan untuk semua data akan meningkatkan konsistensi data, yang membuat data lebih dapat diandalkan dan lebih mudah digunakan. Karena gudang data menyimpan data dalam skema relasional terstruktur, ini mendukung kueri bahasa kueri terstruktur (SQL) berkinerja tinggi.

Organisasi dapat menggunakan alat BI dan analitik data terintegrasi atau terhubung untuk menganalisis data transaksional dan data historis, menghasilkan visualisasi data, dan membuat dasbor untuk mendukung pengambilan keputusan berbasis data.

Tantangan gudang data

Gudang bisa mahal untuk dirawat. Data harus diubah sebelum dimuat ke gudang, yang membutuhkan waktu dan sumber daya. Karena penyimpanan dan komputasi digabungkan erat di gudang tradisional, penskalaan bisa mahal. Jika data tidak dikelola dengan benar, kinerja kueri dapat menurun. 

Karena mereka dapat berjuang dengan set data yang tidak terstruktur dan semistruktur, gudang datae tidak cocok untuk beban kerja AI dan ML.

AI Academy

Apakah manajemen data merupakan rahasia AI generatif?

Jelajahi mengapa data berkualitas tinggi sangat penting untuk keberhasilan penggunaan AI generatif.

Karakteristik utama data lake

Data lake adalah solusi penyimpanan data berbiaya rendah yang dirancang untuk menangani data dalam jumlah besar. Data lake menggunakan pendekatan schema-on-read, yang berarti mereka tidak menerapkan format standar untuk data yang masuk. Sebaliknya, skema diberlakukan ketika pengguna mengakses data melalui alat analitik atau antarmuka lainnya.

Data lake menyimpan data dalam format aslinya. Hal ini memungkinkan data lake untuk menyimpan data terstruktur, data tidak terstruktur, dan data semistruktur semuanya dalam platform data yang sama.  

Danau data muncul untuk membantu organisasi mengelola banjir big data dari Web 2.0 dan kebangkitan komputasi cloud dan mobile pada akhir 2000-an dan awal 2010-an. Organisasi mendapati diri mereka berurusan dengan lebih banyak data daripada sebelumnya, sebagian besar dalam format tidak terstruktur, seperti teks dan gambar bentuk bebas, yang tidak dapat dikelola dengan mudah oleh gudang tradisional.

Arsitektur data lake 

Sebelumnya, data lake biasanya dibangun di atas sistem file terdistribusi Apache Hadoop (HDFS). Danau data modern sering menggunakan penyimpanan objek cloud, seperti Amazon Simple penyimpanan Service (S3), Microsoft Azure Blob penyimpanan atau IBM® Cloud Object Storage.

Data lake memisahkan penyimpanan data dari sumber daya komputasi, yang membuatnya lebih hemat biaya dan dapat diskalakan daripada gudang data. Organisasi dapat menambahkan lebih banyak penyimpanan tanpa menskalakan sumber daya komputasi di sampingnya. Penyimpanan cloud mendukung skalabilitas lebih lanjut, karena organisasi dapat menambah lebih banyak penyimpanan tanpa memperluas sumber daya on premises.

Untuk memproses data di danau data, pengguna dapat menghubungkan alat pemrosesan data eksternal seperti Apache Spark. Tidak seperti gudang data, alat pemrosesan ini tidak dibangun ke dalam data lake.

Contoh penggunaan data lake

Data lake adalah pilihan populer untuk penyimpanan data tujuan umum karena biaya rendah, skalabilitas, dan kemampuan untuk menyimpan data dalam format apa pun.

Organisasi sering menggunakan data lake untuk memelihara cadangan dan mengarsipkan data lama dan tidak terpakai. Organisasi juga dapat menggunakan danau untuk menyimpan semua data baru yang masuk, termasuk data tanpa tujuan yang ditentukan. Data dapat tetap berada di danau sampai organisasi membutuhkannya.

Organisasi juga menggunakan data lake untuk menyimpan kumpulan data untuk ML, AI, dan beban kerja analitik big data, seperti penemuan data, pelatihan model, dan proyek analitik eksperimental.  

Tantangan data lake

Karena mereka tidak menerapkan skema yang ketat dan tidak memiliki alat pemrosesan bawaan, data lake dapat berjuang dengan tata kelola data dan kualitas data. Mereka juga kurang cocok untuk BI sehari-hari dan upaya analisis data pengguna bisnis.

Organisasi sering kali membutuhkan alat bantu terpisah—seperti katalog data yang komprehensif dan sistem manajemen metadata-untuk menjaga keakuratan dan kualitas. Tanpa alat seperti itu, data lake dapat dengan mudah menjadi rawa data.

Karakteristik utama dari data lakehouse

Data lakehouse menggabungkan fitur inti data lake dan gudang data ke dalam satu solusi manajemen data. 

Seperti halnya data lake, data lakehouse dapat menyimpan data dalam format apa pun, yaitu terstruktur, tidak terstruktur, atau semistruktur, dengan biaya rendah. 

Seperti gudang, data lakehouse mendukung kueri cepat dan analisis yang dioptimalkan.

Arsitektur data lakehouse

Rumah data lakehouse menggabungkan berbagai teknologi dan alat yang sebelumnya berbeda ke dalam solusi holistik. Arsitektur lakehouse yang khas mencakup lapisan-lapisan ini:

Lapisan penyerapan

Lapisan serapan mengumpulkan data streaming batch dan real-time dari berbagai sumber. Sementara lakehouse dapat menggunakan proses ETL untuk menangkap data, banyak yang menggunakan strategi ekstrak, muat, dan transformasi (ELT). Lakehouse dapat memuat data mentah ke dalam penyimpanan dan mengubahnya nanti ketika diperlukan untuk analisis.

Lapisan penyimpanan

Lapisan penyimpanan biasanya merupakan cloud object storage, seperti di data lake. 

Lapisan metadata

Lapisan metadata menyediakan katalog metadata terpadu untuk setiap objek dalam lapisan penyimpanan. Lapisan metadata ini membantu lakehouse melakukan banyak hal yang tidak dapat dilakukan oleh lake: mengindeks data untuk kueri yang lebih cepat, menegakkan skema, serta menerapkan tata kelola dan kontrol kualitas.

Lapisan antarmuka pemrograman aplikasi (API)

Lapisan API memungkinkan pengguna menghubungkan alat untuk analitik lanjutan.

Lapisan konsumsi

Lapisan konsumsi menghosting aplikasi dan alat klien untuk BI, ML, dan proyek ilmu data dan analitik lainnya.

Seperti di data lake, sumber daya komputasi dan penyimpanan terpisah, memungkinkan skalabilitas.

Data lake sangat bergantung pada teknologi sumber terbuka. Format data seperti Apache Parquet dan Apache Iceberg memungkinkan organisasi untuk memindahkan beban kerja secara bebas di antara lingkungan. Delta Lake, lapisan penyimpanan sumber terbuka, mendukung fitur yang membantu pengguna menjalankan analitik pada kumpulan data mentah, seperti versi dan transaksi ACID. “ACID” adalah kependekan dari atomisitas, konsistensi, isolasi, dan daya tahan; sifat-sifat utama yang membantu memastikan integritas dalam transaksi data.

Organisasi dapat membangun rumah danau mereka sendiri dari komponen komponen, atau menggunakan penawaran bawaan seperti Databricks, Snowflake, atau IBM® watsonx.data™.

Contoh penggunaan data lakehouse

Rumah data lake dapat membantu organisasi mengatasi beberapa batasan dan kompleksitas gudang dan data lake.  

Karena gudang data dan data lake melayani tujuan yang berbeda, banyak organisasi menerapkan keduanya dalam tumpukan data mereka. Namun, itu berarti pengguna perlu mengangkangi 2 sistem data yang berbeda, terutama untuk proyek analitik yang lebih canggih. Hal ini dapat menyebabkan alur kerja yang tidak efisien, data duplikat, tantangan tata kelola, dan masalah lainnya.

Lakehouse dapat membantu menyederhanakan upaya analisis dengan mendukung integrasi data. Semua data, apa pun jenisnya, dapat disimpan di repositori pusat yang sama, sehingga mengurangi kebutuhan akan duplikasi. Semua jenis pengguna bisnis dapat menggunakan lakehouse untuk proyek mereka, termasuk BI, analisis prediktif, AI, dan ML.

Data lakehouse juga dapat berfungsi sebagai jalur modernisasi untuk arsitektur data yang ada. Karena arsitektur lakehouse terbuka dapat dengan mudah disatukan dengan data lake dan gudang data yang sudah ada, organisasi dapat mulai beralih ke solusi baru yang terintegrasi tanpa perlu membongkar dan mengganti.

Tantangan data lakehouse

Meskipun lakehouse dapat menyederhanakan banyak alur kerja data, bisa jadi rumit untuk menjalankannya. Pengguna mungkin juga mengalami kurva belajar, karena menggunakan lakehouse dapat berbeda dari gudang yang biasa mereka gunakan. Lakehouse juga merupakan teknologi yang relatif baru dan kerangka kerjanya masih berkembang.

Bagaimana gudang data, data lakes, dan data lakehouse bekerja bersama dalam arsitektur data

Gudang data, data lake, dan data lakehouse melayani kebutuhan bisnis dan data yang berbeda. Banyak organisasi menggunakan 2 atau semua 3 sistem ini dalam kombinasi untuk merampingkan alur data dan mendukung AI, ML, dan analitik.   

Sebagai analogi, pertimbangkan dapur komersial. Setiap hari, dapur ini menerima pengiriman bahan makanan (data) yang tiba dengan truk (basis data transaksional, aplikasi bisnis, dan sebagainya).  

Semua bahan, terlepas dari jenisnya, mendarat di dermaga pemuatan (data lake). Bahan-bahan diproses dan disortir ke dalam lemari es, dapur, dan area penyimpanan lainnya (gudang data). Di sana, bahan-bahannya siap digunakan oleh koki tanpa pemrosesan tambahan.  

Proses ini cukup efisien, tetapi memang memperlihatkan beberapa tantangan dari data lake dan gudang data tradisional. Seperti bahan makanan di dermaga pemuatan, data di data lake tidak dapat digunakan tanpa pemrosesan lebih lanjut. Seperti bahan makanan di dapur, data di gudang data harus dipersiapkan dengan baik dan dikirim ke tempat yang tepat sebelum dapat digunakan.

Data lakehouse seperti menggabungkan dermaga pemuatan, dapur, dan lemari es ke dalam satu lokasi. Tentu saja, kombinasi ini mungkin tidak realistis untuk dapur komersial. Namun, dalam dunia data perusahaan, hal ini memungkinkan organisasi untuk mendapatkan nilai yang sama dari data, sekaligus mengurangi biaya pemrosesan, redudansi, dan silo data.

Perbandingan cepat dan perbedaan utama

Gudang data vs. data lake

  • Gudang data menyimpan data yang dibersihkan dan diproses, sedangkan data lake menyimpan data mentah dalam format aslinya. 

  • Gudang data memiliki mesin analitik dan alat pelaporan bawaan, sedangkan data lake membutuhkan alat bantu eksternal untuk pemrosesan.

  • Data lake memiliki penyimpanan yang lebih murah, fleksibel, dan dapat diskalakan. Gudang data menawarkan kinerja kueri yang dioptimalkan.

  • Gudang paling cocok untuk mendukung upaya intelijen bisnis dan analisis data pengguna bisnis. Operasi data lake paling sesuai untuk operasi yang membutuhkan volume besar data dalam berbagai format data, seperti kecerdasan buatan, machine learning, dan ilmu data. 

  • Gudang mendukung transaksi ACID. Data lake tidak.

Gudang data vs. data lakehouse

  • Lakehouse dan gudang memiliki kemampuan analisis dan kueri yang serupa, tetapi lakehouse dapat mendukung beban kerja AI dan ML yang kompleks dengan lebih baik daripada gudang.

  • Lakehouse menawarkan penyimpanan yang lebih murah, fleksibel, dan dapat diskalakan untuk semua jenis data. Gudang terutama mendukung data terstruktur.

  • Gudang menggunakan ETL, sedangkan lakehouse dapat menggunakan ETL atau ELT.

  • Lakehouse dapat menangani data batch dan streaming. Gudang berfungsi dalam batch.  

Data lake vs. data lakehouse

  • Baik data lake dan lakehouse dapat mendukung volume data yang besar dan berbagai struktur data. Keduanya menggunakan sistem penyimpanan data serupa, yang biasanya adalah cloud object storage. 

  • Data lake tidak menerapkan skema pada data yang diserap. Rumah data memiliki opsi untuk menerapkan skema.

  • Baik data lake maupun lakehouse dapat mendukung beban kerja AI dan ML, tetapi rumah danau menawarkan dukungan yang lebih baik untuk upaya BI dan analisis data daripada data lake.

  • Lakehouse memiliki alat analitik bawaan atau terintegrasi erat dengan kerangka kerja analitik. Data lake memerlukan alat eksternal untuk pemrosesan data.  

  • Lakehouse memiliki tata kelola data, integritas, dan kontrol kualitas yang lebih kuat daripada data lake.  

  • Lakehouse mendukung transaksi ACID; data lake tidak.

  • Data lake sering dibuat untuk pemrosesan batch dan mungkin tidak mendukung streaming data. Lakehouse dapat mendukung data batch dan streaming.

Solusi terkait
Perangkat lunak dan solusi manajemen data

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

Jelajahi solusi manajemen data
IBM watsonx.data™

watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.

Temukan watsonx.data
Layanan konsultasi data dan analitik

Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik
Ambil langkah selanjutnya

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

Jelajahi solusi manajemen data Temukan watsonx.data