Apa yang dimaksud dengan lakehouse data?

Gambar kabin di danau biru dengan pepohonan

Penyusun

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

Apa yang dimaksud dengan lakehouse data?

Data lakehouse adalah platform data yang menggabungkan penyimpanan data yang fleksibel dari data lake dengan kemampuan analitik berkinerja tinggi dari gudang data.
 

Data lake dan gudang data biasanya digunakan bersama-sama. Data lake bertindak sebagai sistem catch-all untuk data baru, dan gudang data menerapkan struktur hilir ke data.

Namun, mengoordinasikan sistem ini untuk menyediakan data yang andal dapat memakan waktu dan sumber daya yang mahal. Waktu pemrosesan yang lama berkontribusi pada keusangan data dan lapisan tambahan ETL (ekstrak, transformasi, muat) menimbulkan risiko kualitas data. 

Data lakehouse mengkompensasi kekurangan dalam data warehouse dan data lake dengan kemampuan yang membentuk sistem manajemen data yang lebih baik. Mereka memasangkan struktur data dari gudang data dengan penyimpanan berbiaya rendah dan fleksibilitas danau data.

Data lakehouses memberdayakan tim data untuk menyatukan sistem data mereka yang berbeda, mempercepat pemrosesan data untuk analitik yang lebih canggih (seperti machine learning (ML)), mengakses big data secara efisien, dan meningkatkan kualitas data. 

Munculnya data lakehouses

Data lakehouse ada untuk menyelesaikan tantangan gudang data dan data lake dan untuk membawa manfaatnya di bawah satu arsitektur data.

Misalnya, gudang data berkinerja lebih baik daripada data lake, baik menyimpan maupun mengubah data perusahaan. Namun, pergudangan data memerlukan skema yang ketat (biasanya skema bintang dan skema kepingan salju). 

Oleh karena itu, gudang data tidak bekerja dengan baik dengan data tidak terstruktur atau semi-terstruktur, yang penting untuk kecerdasan buatan (AI) dan contoh penggunaan ML. Mereka juga terbatas dalam kemampuan untuk menskalakan.

Data lake, di sisi lain, memungkinkan organisasi untuk menggabungkan semua jenis data—data terstruktur, data tidak terstruktur, dan data semi-terstruktur—dari berbagai sumber data dan di satu lokasi. Mereka memungkinkan penyimpanan data yang lebih dapat diskalakan dan terjangkau, tetapi tidak memiliki alat pemrosesan data bawaan.

Data lakehouse menggabungkan aspek gudang data dan data lake. Mereka menggunakan penyimpanan objek cloud untuk menyimpan data dalam format apa pun dengan biaya rendah. Dan, di atas penyimpanan itu terdapat infrastruktur analitik bergaya gudang, yang mendukung kueri berkinerja tinggi, analisis nyaris seketika, dan upaya intelijen bisnis (BI).

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Gudang data vs. data lake vs. data lakehouse

Gudang data, data lake, dan data lakehouse semuanya merupakan repositori data, tetapi dengan perbedaan utama. Mereka sering digunakan bersama untuk mendukung arsitektur data terintegrasi untuk berbagai contoh penggunaan.

Gudang data

Gudang data mengumpulkan data mentah dari berbagai sumber ke dalam repositori pusat dan mengaturnya ke dalam infrastruktur basis data relasional. Sistem manajemen data ini terutama mendukung analisis data dan aplikasi intelijen bisnis, seperti pelaporan perusahaan.

Sistem menggunakan proses ETL untuk mengekstrak, mengubah, dan memuat data ke tujuannya. Akan tetapi, hal itu dibatasi oleh inefisiensi dan biayanya, terutama karena bertambahnya jumlah sumber data dan kuantitas data.

Sementara gudang data secara tradisional di-host secara lokal di mainframe, saat ini banyak gudang data di-host di cloud dan dikirimkan sebagai layanan cloud.

Data lake

Data lake awalnya dibangun di atas platform big data seperti Apache Hadoop. Tetapi inti dari danau data modern adalah layanan cloud object storage, yang memungkinkan mereka menyimpan semua jenis data. Layanan umum termasuk Amazon Simple Storage Service (Amazon S3), Microsoft Azure Blob Storage, Google Cloud Storage, dan IBM Cloud Object Storage. 

Karena sebagian besar perusahaan menghasilkan data yang tidak terstruktur, kemampuan penyimpanan ini merupakan perbedaan penting. Hal ini memungkinkan lebih banyak proyek ilmu data dan kecerdasan buatan (AI), yang pada gilirannya mendorong lebih banyak wawasan dan pengambilan keputusan yang lebih baik di seluruh organisasi. 

Namun, ukuran dan kompleksitas data lake dapat memerlukan keahlian lebih banyak pengguna teknis, seperti ilmuwan data dan insinyur data. Dan, karena tata kelola data terjadi di bagian hilir dalam sistem ini, data lake dapat rentan terhadap silo data, dan kemudian berkembang menjadi rawa data (di mana data yang baik tidak dapat diakses karena manajemen yang buruk).

Data Lakehouse

Data lakehouse dapat menyelesaikan tantangan inti di gudang data dan data lake untuk menghasilkan solusi manajemen data yang lebih ideal bagi organisasi. Mereka memanfaatkan cloud object storage untuk penyimpanan cepat dan berbiaya rendah di berbagai jenis data, sekaligus memberikan kemampuan analitik kinerja tinggi. Organisasi dapat menggunakan data lakehouse di samping data lake dan data warehouse yang sudah ada tanpa perlu melakukan pembongkaran dan pembangunan ulang.

Manfaat data lakehouse

Data lakehouses memberikan beberapa manfaat utama bagi pengguna, mereka dapat membantu:

  • Mengurangi redundansi data
  • Biaya lebih rendah
  • Mendukung berbagai beban kerja
  • Meningkatkan tata kelola data
  • Meningkatkan skalabilitas
  • Mengaktifkan streaming real-time

Kurangi redundansi data

Sistem penyimpanan data tunggal menciptakan platform yang efisien untuk memenuhi semua kebutuhan data bisnis, mengurangi duplikasi data. Rumah data juga menyederhanakan observabilitas data menyeluruh dengan mengurangi jumlah data yang bergerak melalui pipa data ke berbagai sistem.

Biaya lebih rendah

Data lakehouse memanfaatkan biaya cloudobject storage yang lebih rendah, sehingga lebih hemat biaya daripada gudang data. Selain itu, arsitektur hybrid dari data lakehouse menghilangkan kebutuhan untuk memelihara beberapa sistem penyimpanan data, sehingga lebih murah untuk dioperasikan.

Mendukung berbagai beban kerja

Data lakehouse dapat menangani contoh penggunaan yang berbeda di seluruh siklus hidup manajemen data. Mereka juga mendukung alur kerja intelijen bisnis dan visualisasi berbasis data atau ilmu data yang lebih kompleks.

Peningkatan tata kelola data

Arsitektur data lakehouse mengurangi masalah tata kelola data. Misalnya, saat data diserap dan diunggah, lakehouse dapat memastikannya memenuhi persyaratan skema yang ditentukan, sehingga mengurangi masalah kualitas data hilir.

Memperbaiki skalabilitas

Dalam gudang data tradisional, komputasi dan penyimpanan digabungkan. Data lakehouses memisahkan penyimpanan dan komputasi, memungkinkan tim data mengakses penyimpanan data yang sama sambil menggunakan node komputasi yang berbeda untuk aplikasi yang berbeda. Pengkopelan ini menghasilkan lebih banyak skalabilitas dan fleksibilitas.

Mengaktifkan streaming real-time

Data lakehouse dibangun untuk bisnis dan teknologi saat ini. Banyak sumber data berisi data streaming real-time dari perangkat, seperti perangkat Internet of Things. Sistem lakehouse mendukung sumber-sumber ini melalui penyerapan data real-time.

AI Academy

Apakah manajemen data merupakan rahasia AI generatif?

Jelajahi mengapa data berkualitas tinggi sangat penting untuk keberhasilan penggunaan AI generatif.

Apa itu Delta Lake?

Dikembangkan oleh Databricks pada tahun 2016, Delta Lake adalah format penyimpanan data sumber terbuka yang menggabungkan file data Apache Parquet dengan log metadata yang kuat. Format ini menambahkan fungsi manajemen data utama ke danau data, seperti penegakan skema, perjalanan waktu, dan transaksi ACID. (ACID adalah singkatan dari "atomisitas, konsistensi, isolasi, dan daya tahan," yang merupakan sifat-sifat utama yang mendefinisikan transaksi untuk memastikan integritas data).

Fungsi-fungsi ini membantu membuat data lake lebih andal dan intuitif. Mereka juga memungkinkan pengguna untuk menjalankan kueri structured query language (SQL), beban kerja analitik dan aktivitas lainnya di data lake, merampingkan intelijen bisnis, intelijen data (DI), AI, dan ML.

Delta Lake menjadi sumber terbuka pada tahun 2019. Sejak itu, data lakehouse biasanya dibuat dengan membangun lapisan penyimpanan Delta Lake di atas data lake, kemudian mengintegrasikannya dengan mesin pemrosesan data seperti Apache Spark atau Hive. 

Data lakehouse yang diaktifkan sumber terbuka sering disebut sebagai data lakehouse terbuka. Format tabel terbuka lainnya termasuk Apache Iceberg (format kinerja tinggi untuk tabel analitik besar) dan Apache Hudi (dirancang untuk pemrosesan data tambahan).

Koridor pusat data

Data lakehouse hybrid terbuka untuk AI

Sederhanakan akses data dan otomatiskan tata kelola data. Temukan kekuatan mengintegrasikan strategi data lakehouse ke dalam arsitektur data Anda, termasuk mengoptimalkan biaya beban kerja Anda dan menskalakan AI dan analitik dengan semua data Anda, di mana saja.

Lapisan arsitektur data lakehouse

Arsitektur data lakehouse biasanya terdiri dari lima lapisan:

  • Lapisan penyerapan
  • Lapisan penyimpanan
  • Lapisan metadata
  • Lapisan API
  • Lapisan konsumsi

Lapisan penyerapan

Lapisan pertama ini mengumpulkan data dari berbagai sumber dan mengubahnya menjadi format data yang dapat disimpan dan dianalisis oleh rumah danau. Lapisan penyerapan dapat menggunakan protokol untuk terhubung dengan sumber internal dan eksternal seperti sistem manajemen database, database NoSQL, dan media sosial. 

Lapisan penyimpanan

Di lapisan ini, kumpulan dataterstruktur, tidak terstruktur, dan semi-terstruktur disimpan dalam format file sumber terbuka, seperti Parquet atau Optimized Row Columnar (ORC). Lapisan ini memberikan manfaat utama dari data lakehouse—kemampuannya untuk menerima semua jenis data dengan biaya terjangkau.

Lapisan metadata

Lapisan metadata adalah katalog terpadu yang memberikan metadata untuk setiap objek di penyimpanan danau, membantu mengatur dan memberikan informasi tentang data dalam sistem. Lapisan ini juga menawarkan transaksi ACID, caching file dan pengindeksan untuk kueri yang lebih cepat. Pengguna dapat menerapkan skema yang telah ditentukan di sini, yang memungkinkan tata kelola data dan kemampuan audit.

Lapisan API

Data Lakehouse menggunakan antarmuka pemrograman aplikasi (API) untuk meningkatkan pemrosesan tugas dan melakukan analitik yang lebih canggih. Secara khusus, lapisan ini memberikan kesempatan kepada konsumen dan/atau pengembang untuk menggunakan berbagai bahasa dan pustaka, seperti TensorFlow, pada tingkat abstrak. API dioptimalkan untuk konsumsi aset data.

Lapisan konsumsi data

Lapisan terakhir dari arsitektur data lakehouse ini menjadi tempat bagi aplikasi dan alat-alat, yang memiliki akses ke semua metadata dan data yang disimpan di dalam data lake. Hal ini membuka akses data ke pengguna di seluruh organisasi, yang dapat menggunakan lakehouse untuk melakukan tugas-tugas seperti dasbor intelijen bisnis, visualisasi data, dan pekerjaan machine learning.

Solusi terkait
IBM watsonx.data

Manfaatkan data Anda, di mana pun data tersebut berada, dengan data lakehouse terbuka hybrid untuk AI dan analitik.

Temukan watsonx.data
Solusi Data Lake

Atasi tantangan data saat ini dengan arsitektur lakehouse. Terhubung ke data dalam hitungan menit, dengan cepat mendapatkan insight tepercaya dan mengurangi biaya gudang data Anda.

Jelajahi solusi data lake IBM
Layanan konsultasi data dan analitik

Dapatkan nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik