Apa itu Data Lake?

Danau besar, dengan pegunungan di latar belakang

Penyusun

Matthew Kosinski

Staff Editor

IBM Think

Apa itu Data Lake?

Data lake adalah lingkungan penyimpanan data berbiaya rendah yang dirancang untuk menangani data mentah dalam jumlah besar dalam format apa pun, termasuk data terstruktur, semi-terstruktur, dan tidak terstruktur. Sebagian besar data lake menggunakan penyimpanan objek berbasis cloud, seperti AWS S3, Google Cloud Storage atau IBM Cloud Object Storage.

Data lake hadir untuk membantu organisasi menghadapi banjir big data—yang sebagian besar tidak terstruktur—diciptakan oleh aplikasi dan layanan yang terhubung ke internet pada akhir tahun 2000-an dan awal 2010-an.  

Tidak seperti basis data tradisional dan gudang data, data lake tidak mengharuskan semua data mengikuti satu skema yang ditentukan. Sebaliknya, data lake dapat menyimpan berbagai jenis data dalam berbagai format dalam satu tempat penyimpanan terpusat. Data lake juga memanfaatkan komputasi cloud untuk membuat penyimpanan data menjadi lebih dapat diskalakan dan terjangkau.

Data lake adalah komponen inti dari banyak arsitektur data organisasi saat ini. Menurut IBM CDO Study, 75% dari chief data officer (CDO) terkemuka berinvestasi di data lake. 

Berkat penyimpanannya yang fleksibel, data lake dapat membantu organisasi merobohkan silo data dan membangun data fabric yang holistik. Data lake juga berguna bagi para ilmuwan data dan insinyur data, yang sering menggunakan data lake untuk mengelola kumpulan data tak terstruktur yang sangat besar yang diperlukan untuk beban kerja kecerdasan buatan (AI) dan machine learning (ML).

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Evolusi data lake

Untuk waktu yang lama, organisasi mengandalkan basis data relasional (dikembangkan pada tahun 1970-an) dan gudang data (dikembangkan pada tahun 1980-an) untuk mengelola data mereka. Solusi-solusi ini masih menjadi bagian penting dari ekosistem TI banyak organisasi, tetapi solusi-solusi ini dirancang terutama untuk kumpulan data yang terstruktur.

Dengan pertumbuhan internet—dan terutama dengan hadirnya media sosial dan media streaming—organisasi mendapati diri mereka berurusan dengan lebih banyak data yang tidak terstruktur, seperti teks dan gambar dalam bentuk bebas. Karena skema yang ketat dan biaya penyimpanan yang relatif mahal, gudang dan basis data relasional tidak siap untuk menangani masuknya data ini.  

Pada tahun 2011, James Dixon, yang saat itu menjabat sebagai chief technology officer di Pentaho, menciptakan istilah "data lake". Dixon melihat data lake ini sebagai alternatif dari gudang data. Jika gudang memberikan data yang telah diproses untuk contoh penggunaan bisnis yang ditargetkan, Dixon membayangkan data lake sebagai kumpulan data yang disimpan dalam format alami. Pengguna dapat mengambil data yang mereka butuhkan dari data lake ini dan menggunakannya sesuka hati.

Banyak dari data lake pertama dibangun di atas Apache Hadoop, sebuah kerangka kerja sumber terbuka untuk pemrosesan terdistribusi dari kumpulan data. Data lake awal ini di-host di lokasi, tetapi hal ini dengan cepat menjadi masalah karena volume data terus melonjak.

Komputasi cloud menawarkan solusi: memindahkan data lake ke layanan cloud object storage yang lebih dapat diskalakan.

Data lake masih terus berkembang hingga saat ini. Banyak solusi data lake yang kini menawarkan fitur-fitur di luar penyimpanan yang murah dan dapat diskalakan, seperti alat keamanan dan tata kelola data, katalog data, dan manajemen metadata.

Data lake juga merupakan komponen inti dari data lakehouse, solusi manajemen data yang relatif baru yang menggabungkan penyimpanan berbiaya rendah dari sebuah danau dan kemampuan analitik berkinerja tinggi dari sebuah gudang. (Untuk informasi lebih lanjut, lihat "Data lake vs. data lakehouse").

AI Academy

Apakah manajemen data merupakan rahasia AI generatif?

Jelajahi mengapa data berkualitas tinggi sangat penting untuk keberhasilan penggunaan AI generatif.

Arsitektur data lake

Sementara data lake paling awal dibangun di Hadoop, inti dari data lake modern adalah layanan penyimpanan objek cloud. Pilihan umum termasuk Amazon Simple Storage Service (Amazon S3), Microsoft Azure Blob Storage, Google Cloud Storage dan IBM Cloud Object Storage

Cloud object storage memungkinkan organisasi untuk menyimpan berbagai jenis data mentah dalam penyimpanan yang sama. Ini juga umumnya lebih dapat diskalakan dan lebih hemat biaya daripada penyimpanan on premises. Penyedia penyimpanan memungkinkan pengguna untuk menjalankan cluster besar sesuai permintaan, dan hanya perlu membayar untuk penyimpanan yang digunakan.

Sumber daya penyimpanan dan komputasi dipisahkan satu sama lain dalam arsitektur data lake. Untuk memproses data, pengguna harus menghubungkan alat pemrosesan data eksternal. Apache Spark, yang mendukung antarmuka seperti Python, R dan Spark SQL, adalah pilihan yang populer.

Pemisahan penyimpanan dan komputasi membantu menekan biaya dan meningkatkan skalabilitas. Organisasi dapat menambahkan lebih banyak penyimpanan tanpa harus menskalakan sumber daya komputasi di dalamnya.  

Penyimpanan data lake pusat terhubung ke berbagai sumber data-seperti basis data, aplikasi, perangkat Internet of Things (IoT), dan sensor—melalui lapisan penyerapan.  

Sebagian besar data lake menggunakan proses ekstrak, muat, transformasi (ELT), alih-alih proses ekstrak, transformasi, muat (ETL ) untuk menyerap data. Data tetap dalam kondisi aslinya saat data lake menyerapnya, dan tidak ditransformasikan hingga dibutuhkan. Pendekatan ini—menerapkan skema hanya ketika data diakses—disebut "skema-saat-dibaca."

Selain komponen inti ini, organisasi dapat membangun lapisan lain ke dalam arsitektur data lake mereka agar lebih aman dan lebih dapat digunakan. Lapisan-lapisan ini dapat mencakup:

  • Beberapa lapisan penyimpanan yang berbeda untuk mengakomodasi berbagai tahap pemrosesan data. Misalnya, data lake mungkin memiliki satu lapisan untuk data mentah, satu lapisan untuk data yang telah dibersihkan, dan satu lapisan untuk data aplikasi tepercaya. 

  • Katalog data untuk membantu pengguna menemukan data dengan mudah dengan menggunakan filter metadata atau metode lainnya.

Data lake, gudang data, dan data lakehouse

Data lake, gudang, dan lakehouse merupakan jenis alat bantu manajemen data, tetapi ketiganya memiliki perbedaan penting. Ketiganya sering digunakan bersama dalam arsitektur data terintegrasi untuk mendukung berbagai contoh penggunaan.  

Data lake vs. gudang data

Seperti halnya data lake, gudang data mengumpulkan data dari berbagai sumber data yang berbeda dalam satu penyimpanan, biasanya berupa sistem basis data relasional. Perbedaan utamanya adalah gudang data membersihkan dan menyiapkan data yang mereka menyerap sehingga siap digunakan untuk analisis data.

Gudang data pada dasarnya dirancang untuk mendukung kueri berkinerja tinggi, analitik hampir real-time, dan upaya intelijen bisnis (BI). Dengan demikian, gudang data dioptimalkan untuk data terstruktur dan terintegrasi erat dengan mesin analitik, dasbor, dan alat visualisasi data .

Gudang cenderung memiliki penyimpanan yang lebih mahal, kurang fleksibel, dan kurang dapat diskalakan daripada data lake. Organisasi umumnya menggunakan gudang untuk proyek analitik tertentu sambil mengandalkan data lake untuk penyimpanan serbaguna skala besar

Data lake vs. data lakehouse

Data lakehouse adalah solusi manajemen data yang menggabungkan penyimpanan data fleksibel dari sebuah danau dan kemampuan analitik berkinerja tinggi dari sebuah gudang.

Seperti data lake, data lakehouse dapat menyimpan data dalam format apa pun dengan biaya rendah. Data lakehouse juga membangun infrastruktur analitik bergaya gudang di atas sistem penyimpanan data lake cloud itu, menggabungkan fitur dari kedua solusi.  

Organisasi dapat menggunakan lakehouse untuk mendukung berbagai beban kerja, termasuk AI, ML, BI, dan analisis data. Lakehouse juga dapat berfungsi sebagai jalur modernisasi untuk arsitektur data. Organisasi dapat menempatkan rlakehouse di samping data lake dan gudang yang ada tanpa upaya merombak dan mengganti yang mahal.  

Contoh penggunaan data lake

Penyimpanan serbaguna

Banyak organisasi menggunakan data lake sebagai solusi penyimpanan serbaguna untuk data masuk karena data lake ini dapat dengan mudah menampung petabyte data dalam format apa pun.  

Alih-alih menyiapkan pipeline data yang berbeda untuk jenis data yang berbeda, organisasi dapat menempatkan semua data yang masuk ke dalam penyimpanan data lake. Pengguna dapat mengakses data dari data lake secara langsung atau memindahkan data ke gudang atau platform data lainnya sesuai kebutuhan.

Organisasi bahkan dapat menggunakan data lake untuk menyimpan data “just-in-case” dengan contoh penggunaan yang belum ditentukan. Karena data lake murah dan dapat diskalakan, organisasi tidak perlu khawatir menghabiskan sumber daya pada data yang mungkin belum mereka butuhkan.

Cadangan, arsip, dan data tidak aktif 

Kapasitas penyimpanan yang tinggi dan biaya penyimpanan yang rendah membuat data lake menjadi pilihan umum untuk cadangan dan pemulihan bencana.

Data lake juga dapat menjadi cara untuk menyimpan data dingin atau tidak aktif dengan harga murah. Hal ini berguna untuk mengarsipkan data lama dan menyimpan catatan historis yang dapat membantu dalam audit kepatuhan, pertanyaan dari pihak berwenang, atau bahkan analisis baru di kemudian hari.

Beban kerja AI dan ML

Data lake memainkan peran penting dalam beban kerja AI, ML, dan analitik big data, seperti membangun model prediktif dan melatih aplikasi AI generatif (gen AI). Proyek-proyek ini membutuhkan big data tidak terstruktur dalam jumlah besar, yang dapat ditangani oleh data lake secara murah dan efisien.  

Menurut IBM CEO Study, 72% CEO dengan kinerja terbaik setuju bahwa memiliki alat AI generatif yang paling canggih akan memberikan keunggulan kompetitif bagi sebuah organisasi. Mengingat pentingnya AI dan ML, masuk akal jika data lake telah menjadi investasi arsitektur data inti bagi banyak organisasi.

Integrasi data 

Data lake dapat membantu mendukung inisiatif integrasi data, yang bertujuan untuk menggabungkan dan menyelaraskan data dari berbagai sumber sehingga dapat digunakan untuk berbagai tujuan analisis, operasional, dan pengambilan keputusan.

Menurut data benchmarking dari IBM Institute for Business Value, 64% organisasi mengatakan bahwa meruntuhkan hambatan organisasi dalam berbagi data merupakan salah satu tantangan terbesar terkait sumber daya manusia. Penelitian menunjukkan bahwa hingga 68% data organisasi tidak pernah dianalisis. Organisasi tidak dapat menyadari manfaat penuh dari data mereka jika orang-orang tidak dapat menggunakannya saat mereka membutuhkannya.

Data lake dapat memfasilitasi akses data dan berbagi data dengan memberikan organisasi cara yang mudah untuk menyimpan semua jenis data dalam repositori pusat yang dapat diakses.

Manfaat data lake

Data lake dapat membantu organisasi mendapatkan nilai lebih dari data bisnis mereka dengan membuatnya lebih mudah untuk menyimpan, berbagi, dan menggunakan data tersebut. Secara lebih spesifik, data lake dapat menyediakan:

  • Fleksibilitas: Data lake dapat menyerap kumpulan data terstruktur, semi-terstruktur, dan tidak terstruktur. Organisasi tidak perlu mengelola penyimpanan terpisah untuk berbagai jenis data, yang dapat membantu menyederhanakan arsitektur data.

  • Biaya rendah: Data tidak perlu melalui proses pembersihan dan transformasi yang mahal untuk penyimpanan, dan cloud object storage umumnya lebih murah daripada alternatif di lokasi. Organisasi dapat mengoptimalkan anggaran dan sumber daya mereka secara lebih efektif di seluruh inisiatif manajemen data.

  • Skalabilitas: Karena data lake memisahkan sumber daya komputasi dan penyimpanan, dan karena mereka biasanya menggunakan layanan penyimpanan cloud, mereka lebih mudah untuk menskalakan atau diturunkan skalanya dibandingkan banyak solusi penyimpanan data lainnya. 

  • Lebih sedikit silo data: Menurut data pembandingan dari IBM Institute for Business Value, 61% organisasi mengatakan bahwa silo data adalah salah satu tantangan utama mereka. Data lake dapat membantu merobohkan silo data dengan menghilangkan kebutuhan untuk menyimpan berbagai jenis data di tempat yang berbeda. Data lake pusat atau kumpulan data lake dapat lebih mudah diakses daripada penyimpanan data yang berbeda yang tersebar di seluruh unit bisnis.  

Tantangan data lake

Tata kelola dan kualitas data

Karena tidak menerapkan skema yang ketat dan menerima berbagai jenis data dari berbagai sumber, data lake dapat mengalami kesulitan dalam hal tata kelola data dan kualitas data. Tanpa pengelolaan yang tepat, data lake dapat dengan mudah menjadi "rawa-rawa data"—rawa-rawa yang berantakan dengan data yang tidak dapat diandalkan yang menyulitkan pengguna untuk mendapatkan insight yang dapat ditindaklanjuti.

Untuk memerangi rawa-rawa data, organisasi bisa berinvestasi pada alat penandaan dan klasifikasi, seperti sistem manajemen metadata dan katalog data, yang mempermudah navigasi. 

Solusi tata kelola dan keamanan data, seperti kontrol akses, alat pencegahan kehilangan data, serta solusi deteksi dan respons data, dapat membantu memastikan bahwa data tidak diakses, digunakan, atau diubah tanpa izin.  

Kinerja

Data lake tidak memiliki alat pemrosesan dan kueri bawaan seperti yang dimiliki oleh banyak gudang dan lakehouse. Selain itu, kinerja kueri dan analitik dapat menurun seiring dengan bertambahnya volume data yang dimasukkan ke dalam data lake, terutama jika data tidak dioptimalkan untuk diambil.

Menggunakan alat dan konfigurasi yang tepat—seperti format penyimpanan dan mesin kueri yang dioptimalkan — dapat membantu memastikan kinerja tinggi, terlepas dari ukuran data lake.

Solusi terkait
IBM watsonx.data

Manfaatkan data Anda, di mana pun data tersebut berada, dengan data lakehouse terbuka hybrid untuk AI dan analitik.

Temukan watsonx.data
Solusi Data Lake

Atasi tantangan data saat ini dengan arsitektur lakehouse. Terhubung ke data dalam hitungan menit, dengan cepat mendapatkan insight tepercaya dan mengurangi biaya gudang data Anda.

Jelajahi solusi data lake IBM
Layanan konsultasi data dan analitik

Dapatkan nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik
Ambil langkah selanjutnya

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

Jelajahi solusi manajemen data Temukan watsonx.data