Data Lakehouse vs. Struktur Data vs Jaring Data

Penulis

Sandipan Sarkar

Distinguished Engineer

IBM Consulting

Arsitektur platform data memiliki sejarah yang menarik. Menjelang pergantian milenium, perusahaan mulai menyadari bahwa beban kerja pelaporan dan intelijen bisnis memerlukan solusi baru daripada aplikasi transaksional. Platform yang dioptimalkan untuk membaca yang dapat mengintegrasikan data dari berbagai aplikasi muncul. Itu adalah Gudang data.

Dalam dekade berikutnya, internet dan mobile mulai menghasilkan data volume, variasi, dan kecepatan yang tidak terduga. Kondisi ini membutuhkan solusi platform data yang berbeda. Oleh karena itu, Data Lake muncul, yang menangani data tidak terstruktur dan terstruktur dengan volume besar.

Namun satu dekade lagi berlalu. Dan menjadi jelas bahwa data lake dan gudang data tidak lagi cukup untuk menangani kompleksitas bisnis dan beban kerja baru perusahaan. Biayanya terlalu mahal. Nilai proyek data sulit untuk direalisasikan. Platform data sulit untuk diubah. Sekali lagi, keadaan menuntut solusi baru.

Coba tebak? Kali ini, setidaknya tiga solusi platform data yang berbeda muncul: Data Lakehouse, Stuktur Data, dan Jaring Data. Meskipun menggembirakan, hal ini juga menciptakan kebingungan di pasar. Konsep dan nilai yang ada saling tumpang tindih. Terkadang interpretasi yang berbeda muncul tergantung pada siapa yang ditanya.

Artikel ini berusaha untuk meringankan kebingungan tersebut. Konsep-konsep tersebut akan dijelaskan. Dan kemudian kerangka kerja akan diperkenalkan, yang akan menunjukkan bagaimana ketiga konsep ini dapat mengarah satu sama lain atau digunakan satu sama lain.

Data lakehouse: Platform yang sebagian besar baru

Konsep lakehouse dipopulerkan oleh Databricks. Databricks mendefinisikannya sebagai: “Data lakehouse adalah arsitektur manajemen data terbuka baru yang menggabungkan fleksibilitas, efisiensi biaya, dan skala data lake dengan manajemen data dan transaksi ACID dari gudang data, memungkinkan intelijen bisnis (BI) dan machine learning (ML) pada semua data.”

Sementara gudang data tradisional menggunakan proses Ekstrak-Transformasi-Muat (ETL) untuk menyerap data, data lake malah bergantung pada proses Ekstrak-Muat-Transformasi (ELT). Data yang diekstraksi dari berbagai sumber dimuat ke penyimpanan BLOB yang murah, kemudian diubah dan disimpan ke gudang data, yang menggunakan penyimpanan blok mahal.

Arsitektur penyimpanan ini tidak fleksibel dan tidak efisien. Transformasi harus dilakukan terus menerus untuk menjaga BLOB dan penyimpanan gudang data tetap sinkron, menambah biaya. Dan transformasi berkelanjutan masih memakan waktu. Saat data mencapai tahap siap dianalisis, nilai insight yang dihasilkan cenderung tidak lagi relevan karena sudah tertinggal dari keadaan terbaru sistem transaksional.

Selain itu, penyimpanan gudang data tidak dapat mendukung beban kerja seperti Kecerdasan Buatan (AI) atau Machine Learning (ML), yang membutuhkan sejumlah besar data untuk pelatihan model. Untuk beban kerja ini, vendor data lake biasanya merekomendasikan mengekstraksi data ke dalam file datar untuk digunakan semata-mata untuk pelatihan model dan tujuan pengujian. Ini menambahkan langkah ETL tambahan, membuat data menjadi lebih basi.

Data lakehouse diciptakan untuk memecahkan masalah ini. Lapisan penyimpanan gudang data dihapus dari arsitektur lakehouse. Sebaliknya, transformasi data berkelanjutan dilakukan dalam penyimpanan BLOB. Beberapa API ditambahkan sehingga berbagai jenis beban kerja dapat menggunakan wadah penyimpanan yang sama. Ini adalah arsitektur yang sangat cocok untuk cloud karena AWS S3 atau Azure DLS2 dapat menyediakan penyimpanan yang diperlukan.

Struktur data: Arsitektur yang sebagian besar baru

Struktur data mewakili generasi baru arsitektur platform data. Hal ini dapat didefinisikan sebagai: Kumpulan layanan terdistribusi yang digabungkan secara longgar, yang memungkinkan data yang tepat tersedia dalam bentuk yang tepat, pada waktu dan tempat yang tepat, dari sumber yang heterogen yang bersifat transaksional dan analitis, di seluruh platform cloud dan on-premises, biasanya melalui layanan mandiri, sambil memenuhi persyaratan non-fungsional termasuk efektivitas biaya, kinerja, tata kelola, keamanan, dan kepatuhan.

Struktur data bertujuan memastikan data bisa diakses kapan saja dan di mana saja, sekaligus menyembunyikan kerumitan teknis terkait pemindahan, transformasi, dan integrasi data agar semua orang dapat memanfaatkannya. Beberapa karakteristik utama dari struktur data adalah:

Jaringan node data

Sebuah struktur data terdiri dari jaringan node data (misalnya, platform data dan basis data), semuanya berinteraksi satu sama lain untuk memberikan nilai yang lebih besar. Node data tersebar di seluruh ekosistem komputasi hybrid dan multicloud perusahaan.

Setiap node dapat berbeda dari yang lain

Sebuah struktur data dapat terdiri atas beberapa gudang data, data lake, perangkat IoT/Edge dan basis data transaksional. Ini dapat mencakup teknologi yang berkisar dari Oracle, Teradata dan Apache Hadoop hingga Snowflake di Azure, RedShift di AWS atau MS SQL di pusat data lokal, untuk menyebutkan beberapa saja.

Semua fase siklus hidup data-informasi

Struktur data mencakup semua fase siklus hidup data-informasi-insight. Satu node dari struktur dapat memberikan data mentah ke yang lain yang, pada gilirannya, melakukan analitik. Analisis ini dapat diekspos sebagai REST API di dalam struktur, sehingga dapat dikonsumsi oleh sistem rekaman transaksional untuk pengambilan keputusan.

Dunia analitis dan transaksional menjadi satu

Stuktur data dirancang untuk menyatukan dunia analitis dan transaksional. Di sini, semuanya adalah node, dan node berinteraksi satu sama lain melalui berbagai mekanisme. Beberapa di antaranya memerlukan pergerakan data, sementara yang lain memungkinkan akses data tanpa gerakan. Ide yang mendasarinya adalah bahwa silo data (dan diferensiasi) pada akhirnya akan hilang dalam arsitektur ini.

Keamanan dan tata kelola ditegakkan di seluruh

Kebijakan keamanan dan tata kelola diberlakukan setiap kali data bergerak atau diakses di seluruh struktur data. Sama seperti Istio menerapkan tata kelola keamanan ke kontainer di Kubernetes, struktur data akan menerapkan kebijakan ke data sesuai dengan prinsip yang sama, secara real time.

Kemampuan untuk menemukan data

Stuktur data mendorong penemuan data. Di sini, aset dapat dipublikasikan ke dalam kategori, menciptakan pasar digital di seluruh perusahaan. Pasar ini menyediakan mekanisme pencarian, memanfaatkan metadata dan grafik pengetahuan untuk memungkinkan penemuan aset. Ini memungkinkan akses ke data di semua tahap siklus hidup nilainya.

Munculnya struktur data membuka peluang baru untuk mengubah budaya perusahaan dan model operasi. Karena struktur data didistribusikan tetapi inklusif, penggunaannya mempromosikan tata kelola federasi tetapi terpadu. Ini akan membuat data lebih dapat dipercaya dan dapat diandalkan. Pasar akan memudahkan pemangku kepentingan di seluruh bisnis untuk menemukan dan menggunakan data untuk berinovasi. Tim yang beragam akan merasa lebih mudah untuk berkolaborasi, dan mengelola aset data bersama dengan tujuan bersama.

Stuktur data adalah arsitektur merangkul, di mana beberapa teknologi baru (misalnya, virtualisasi data) memainkan peran kunci. Tetapi memungkinkan basis data dan platform data yang ada untuk berpartisipasi dalam jaringan, di mana katalog data atau pasar data dapat membantu dalam menemukan aset baru. Metadata memainkan peran kunci di sini dalam menemukan aset data.

Jaring data: Budaya yang sebagian besar baru

Data mesh sebagai konsep diperkenalkan oleh Thoughtworks. Mereka mendefinisikannya sebagai:"... Arsitektur data analitik dan model operasi di mana data diperlakukan sebagai produk dan dimiliki oleh tim yang paling mengetahui dan menggunakan data tersebut." Konsep ini berdiri di atas empat prinsip: kepemilikan domain, data sebagai produk, platform data swalayan, dan tata kelola komputasi federasi.

Stuktur data dan jaring data sebagai konsep saling tumpang tindih. Misalnya, keduanya merekomendasikan arsitektur terdistribusi – tidak seperti platform terpusat seperti gudang data, data lake, dan data lakehouse. Keduanya ingin memunculkan ide produk data yang ditawarkan melalui pasar.

Perbedaan juga ada. Seperti yang jelas dari definisi di atas, tidak seperti struktur data, data mesh adalah tentang data analitis. Fokusnya lebih sempit daripada stuktur data. Kedua, ini menekankan model operasional dan budaya, yang berarti lebih dari sekadar arsitektur seperti struktur data. Sifat produk data dapat bersifat umum dalam struktur data, sedangkan mesh data jelas menentukan kepemilikan produk data yang digerakkan oleh domain.

Hubungan antara data lakehouse, struktur data, dan jaring data

Jelas, ketiga konsep ini memiliki fokus dan kekuatannya sendiri. Namun, terjadi tumpang tindih.

Lakehouse memiliki perbedaan yang jelas dibandingkan dua model lainnya. Ini adalah teknologi baru, seperti pendahulunya. Teknologi ini bisa dikodifikasi. Beberapa produk ada di pasar, termasuk Databricks, Azure Synapse, dan Amazon Athena.

Jaring data membutuhkan model operasi baru dan perubahan budaya. Seringkali perubahan budaya semacam itu membutuhkan pergeseran pola pikir kolektif perusahaan. Akibatnya, jaring data dapat bersifat revolusioner. Jaring data dapat dibangun dari bawah ke atas di bagian yang lebih kecil dari organisasi sebelum menyebar ke seluruh bagian.

Stuktur data tidak memiliki prasyarat seperti jaring data. Kita tidak mengharapkan perubahan budaya seperti itu. Data dapat dibangun menggunakan aset yang ada, di mana perusahaan telah berinvestasi selama periode bertahun-tahun. Dengan demikian, pendekatannya bersifat evolusioner.

Jadi bagaimana sebuah perusahaan dapat merangkul semua konsep ini?

Mengatasi platform data lama dengan mengadopsi data lakehouse

Metode ini dapat merangkul adopsi lakehouse sebagai bagian dari perjalanan evolusi platform datanya sendiri. Misalnya, bank dapat menyingkirkan gudang data berusia satu dekade dan mengirimkan semua contoh penggunaan BI dan AI dari satu platform data, dengan menerapkan rumah danau.

Mengatasi kompleksitas data dengan arsitektur struktur data

Jika perusahaan kompleks dan memiliki banyak platform data, jika penemuan data merupakan tantangan, jika pengiriman data di berbagai bagian organisasi sulit – struktur data mungkin merupakan arsitektur yang baik untuk diadopsi. Seiring dengan node platform data yang ada, satu atau beberapa node rumah danau juga dapat berpartisipasi di sana. Bahkan basis data transaksional juga dapat bergabung dengan jaringan kain sebagai node untuk menawarkan atau menggunakan aset data.

Mengatasi kompleksitas bisnis dengan perjalanan jaring data

Untuk mengatasi kompleksitas bisnis, jika perusahaan memulai pergeseran budaya menuju kepemilikan data berbasis domain, mempromosikan layanan mandiri dalam penemuan dan pengiriman data, dan mengadopsi tata kelola federasi – mereka berada dalam perjalanan mesh data. Jika arsitektur struktur data sudah ada, perusahaan dapat menggunakannya sebagai enabler kunci dalam perjalanan mesh data mereka. Misalnya, pasar struktur data dapat menawarkan produk data yang berpusat pada domain – hasil jaring data utama – darinya. Penemuan berbasis metadata yang sudah ditetapkan sebagai kemampuan melalui struktur data dapat berguna dalam menemukan produk data baru yang keluar dari jaring.

Setiap perusahaan dapat melihat tujuan bisnis masing-masing dan memutuskan titik masuk mana yang paling cocok untuk mereka. Tetapi meskipun titik masuk atau motivasi dapat berbeda, perusahaan dapat dengan mudah menggunakan ketiga konsep tersebut bersama-sama dalam pencariannya menuju sentrisitas data.

IBM dinobatkan sebagai Pemimpin dalam Integrasi iPaaS, Forrester Wave Q3 2025

Baca laporan untuk mengetahui mengapa Forrester menempatkan IBM sebagai Pemimpin dengan skor tertinggi dalam kategori Penawaran Terkini. Pelajari bagaimana kepemimpinan ini memperkuat IBM WebMethods MFT dengan memberikan transfer file yang aman dan dapat diskalakan dalam strategi integrasi perusahaan yang lebih luas.

Trinitas platform data: Kompetitif atau saling melengkapi?