Data Lakes I IBM

Apa itu Data Lake?

Awalnya diciptakan oleh mantan CTO Pentaho, data lake adalah lingkungan penyimpanan berbiaya rendah, yang biasanya menampung petabyte data mentah. Tidak seperti gudang data, data lake dapat menyimpan data terstruktur dan tidak terstruktur, dan tidak memerlukan skema yang ditentukan untuk menyimpan data, sebuah karakteristik yang dikenal sebagai "schema-on-read." Fleksibilitas dalam kebutuhan penyimpanan ini sangat berguna bagi para ilmuwan data, insinyur data, dan pengembang, yang memungkinkan mereka untuk mengakses data untuk latihan penemuan data dan proyek machine learning.

Laporan Voice of the Enterprise baru-baru ini (tautan ada di luar ibm.com) dari 451 Penelitian menetapkan bahwa hampir “tiga perempat (71%) perusahaan saat ini menggunakan atau menguji coba lingkungan data lake atau berencana untuk melakukannya dalam 12 bulan ke depan, dan 53% responden sudah dalam penerapan atau POC.” Responden dalam laporan ini menyoroti ketangkasan bisnis sebagai manfaat utama dari penerapan tersebut, yang dapat bervariasi. Mereka juga menemukan bahwa data lake biasanya di-hosting di cloud, atau “on premises” melalui pusat data organisasi.

Meskipun para pengadopsi menemukan nilai dalam data lake, ada pula yang menjadi korban data swamp atau data pit. Data swamp adalah hasil dari pengelolaan data lake yang buruk, yaitu kurangnya kualitas data dan praktik tata kelola data yang tepat untuk memberikan pembelajaran yang mendalam. Tanpa pengawasan yang tepat, data dalam repositori ini akan menjadi tidak berguna. Di sisi lain, data pit serupa dengan data swamp karena hanya memberikan sedikit nilai bisnis, namun sumber masalah data dalam hal ini tidak jelas. Demikian pula, keterlibatan tim tata kelola data dan ilmu data dapat membantu terlindung dari kendala tersebut.

Kini tersedia: watsonx.data

Tingkatkan beban kerja AI, untuk semua data Anda, di mana saja

Konten terkait

The Forrester Wave: Manajemen Data untuk Analitik, Q1 2023

Berlangganan saluran Youtube IBM

Berlangganan buletin IBM

Data lake vs. gudang data

Meskipun data lake dan gudang data sama-sama menyimpan data, namun masing-masing repositori memiliki persyaratan penyimpanannya sendiri, yang menjadikannya pilihan ideal untuk berbagai skenario. Misalnya, gudang data memerlukan skema yang ditentukan agar sesuai dengan kebutuhan analitik data tertentu untuk keluaran data, seperti dasbor, visualisasi data, dan tugas intelijen bisnis lainnya. Persyaratan ini biasanya ditentukan oleh pengguna bisnis dan pemangku kepentingan terkait lainnya, yang akan menggunakan hasil pelaporan secara berkala. Struktur yang mendasari gudang data biasanya diatur sebagai sistem relasional (yaitu dalam format data terstruktur), dengan sumber data dari basis data transaksional. Di sisi lain, data lake menggabungkan data dari sistem relasional dan non-relasional, sehingga para ilmuwan data mampu menggabungkan data terstruktur dan tidak terstruktur ke dalam lebih banyak proyek ilmu data.

Setiap sistem juga memiliki kelebihan dan kekurangannya sendiri. Misalnya, gudang data cenderung lebih berkinerja, tetapi datang dengan biaya yang lebih tinggi. Data lake mungkin lebih lambat dalam mengembalikan hasil kueri, tetapi mereka memiliki biaya penyimpanan yang lebih rendah. Selain itu, kapasitas penyimpanan data lake membuatnya ideal untuk data perusahaan.

Data lake vs. data lakehouse

Meskipun adopsi untuk data lake dan gudang data hanya akan meningkat seiring dengan pertumbuhan sumber data baru, keterbatasan kedua repositori data tersebut mengarah pada konvergensi teknologi ini. Data lakehouse menggabungkan manfaat biaya dari data lake dengan struktur data dan kemampuan manajemen data dari data warehouse. Menurut laporan survei lain (tautan berada di luar ibm.com) dari 415 Research, "dua pertiga perusahaan telah menggunakan atau mengujicobakan lingkungan data lakehouse, atau berencana melakukannya dalam waktu 12 bulan." Selain itu, mereka menemukan bahwa 93% organisasi yang telah menggunakan data lake juga berencana untuk mengadopsi data lakehouse dalam 12 bulan ke depan.

Arsitektur data lake

Data lake juga biasanya dikaitkan dengan Apache Hadoop, sebuah kerangka kerja peranti lunak sumber terbuka yang menyediakan pemrosesan terdistribusi berbiaya rendah dan andal untuk penyimpanan data besar. Mereka secara tradisional diterapkan on premises, tetapi seperti yang ditunjukkan dalam laporan 451 Research, para pengadopsi dengan cepat berpindah ke lingkungan cloud karena memberikan lebih banyak fleksibilitas kepada pengguna akhir. Tidak seperti penerapan on premises, penyedia penyimpanan awan memungkinkan pengguna untuk membentuk klaster besar sesuai kebutuhan, hanya memerlukan pembayaran untuk penyimpanan yang ditentukan. Artinya, jika Anda membutuhkan daya komputasi tambahan untuk menjalankan pekerjaan dalam beberapa jam dibandingkan beberapa hari, Anda dapat dengan mudah melakukannya di platform cloud dengan membeli node komputasi tambahan. Forrester Research ( tautan berada di luar ibm.com) melaporkan bahwa bisnis yang menggunakan data lake cloud dibandingkan data lake on premises mengalami penghematan sekitar 25%.

Di dalam Hadoop, Hadoop Distributed File System (HDFS) menyimpan dan mereplikasi data di beberapa server, sementara Yet Another Resource Negotiator (YARN) menentukan cara mengalokasikan sumber daya di server-server tersebut. Anda kemudian dapat menggunakan Apache Spark untuk membuat satu ruang memori yang besar untuk pemrosesan data, sehingga pengguna yang lebih mahir dapat mengakses data melalui antarmuka menggunakan Python, R, dan Spark SQL.

Karena volume data tumbuh dengan kecepatan eksponensial, data lake berfungsi sebagai komponen penting dari pipeline data.

Contoh penggunaan dari sebuah data lake

Karena data lake terutama dimanfaatkan karena kemampuannya untuk menyimpan data mentah dalam jumlah besar, tujuan bisnis dari data tersebut tidak perlu didefinisikan di awal. Meskipun demikian, dua contoh penggunaan utama untuk data lake dapat ditemukan di bawah ini:

- Bukti konsep (Proof of Concepts/POC): Penyimpanan data lake sangat ideal untuk proyek-proyek pembuktian konsep. Kemampuannya untuk menyimpan berbagai jenis data sangat bermanfaat untuk model machine learning, memberikan kesempatan untuk menggabungkan data terstruktur dan tidak terstruktur ke dalam model prediktif. Hal ini dapat berguna untuk contoh penggunaan, seperti klasifikasi teks, karena ilmuwan data tidak dapat menggunakan basis data relasional untuk hal ini (setidaknya tidak tanpa data yang telah diproses sebelumnya agar sesuai dengan persyaratan skema). Data lake juga dapat bertindak sebagai kotak pasir untuk proyek analisis data besar lainnya. Hal ini dapat berkisar dari pengembangan dasbor berskala besar hingga dukungan aplikasi IoT, yang biasanya membutuhkan data streaming secara real-time. Setelah tujuan dan nilai data ditentukan, data tersebut kemudian dapat menjalani pemrosesan ETL atau ELT untuk disimpan di gudang data hilir.

- Pencadangan dan Pemulihan Data: Kapasitas penyimpanan yang tinggi dan biaya penyimpanan yang rendah memungkinkan data lake bertindak sebagai alternatif penyimpanan untuk insiden pemulihan bencana. Mereka juga dapat bermanfaat untuk audit data untuk menegakkan jaminan kualitas karena data disimpan dalam format aslinya (yaitu tanpa transformasi). Hal ini bisa sangat berguna jika gudang data tidak memiliki dokumentasi yang sesuai seputar pemrosesan datanya, sehingga memungkinkan tim untuk memeriksa ulang pekerjaan dari pemilik data sebelumnya.

Akhirnya, karena data di data lake tidak selalu memerlukan tujuan langsung untuk penyimpanan, itu juga bisa menjadi cara untuk menyimpan data dingin atau tidak aktif dengan harga yang hemat biaya, yang mungkin berguna di kemudian hari untuk pertanyaan peraturan atau analisis baru bersih.

Manfaat data lake

Lebih fleksibel: Data lake dapat menyerap kumpulan data terstruktur, semi-terstruktur, dan tidak terstruktur, menjadikannya ideal untuk analisis tingkat lanjut dan proyek machine learning.

Biaya: Karena danau data tidak memerlukan banyak perencanaan di muka untuk menyerap data (mis. definisi skema dan transformasi), lebih sedikit uang yang perlu diinvestasikan ke sumber daya manusia. Selain itu, biaya penyimpanan aktual danau data lebih rendah dibandingkan dengan repositori penyimpanan lainnya, seperti gudang data. Hal ini memungkinkan perusahaan untuk mengoptimalkan anggaran dan sumber daya mereka secara lebih efektif di seluruh inisiatif manajemen data.

Skalabilitas: Data lake dapat membantu bisnis berskala dalam beberapa cara. Fungsionalitas layanan mandiri dan kapasitas penyimpanan keseluruhan membuat data lake lebih dapat diskalakan dibandingkan dengan layanan penyimpanan lainnya. Selain itu, data lake menyediakan sandbox bagi pekerja untuk mengembangkan POC yang sukses. Setelah proyek menunjukkan nilai pada skala yang lebih kecil, lebih mudah untuk memperluas alur kerja itu dalam skala yang lebih besar menggunakan otomatisasi.

Mengurangi silo data: Dari perawatan kesehatan hingga rantai pasokan, perusahaan di berbagai industri mengalami silo data dalam organisasi mereka. Karena data lake menyerap data mentah di berbagai fungsi, dependensi tersebut mulai menghilangkannya sendiri karena tidak ada lagi pemilik tunggal untuk himpunan data tertentu.

Meningkatkan pengalaman pelanggan: Meskipun manfaat ini tidak akan langsung terlihat, bukti konsep yang berhasil dapat meningkatkan pengalaman pengguna secara keseluruhan, memungkinkan tim untuk lebih memahami dan mempersonalisasi perjalanan pelanggan melalui analisis yang benar-benar baru dan mendalam.

Tantangan-tantangan dari sebuah data lake

Meskipun data lake memberikan sejumlah manfaat, namun bukan berarti tanpa tantangan. Beberapa di antaranya termasuk:

- Kinerja: Seiring dengan bertambahnya volume data yang dimasukkan ke dalam data lake, hal ini akan mengorbankan kinerja, yang sudah lebih lambat daripada sistem penyimpanan data alternatif lainnya.

-Pemerintah: Sementara kemampuan data lake untuk menyerap berbagai sumber data memberi perusahaan keuntungan dalam praktik manajemen data mereka, itu juga membutuhkan tata kelola yang kuat untuk mengelola dengan tepat. Data harus ditandai dan diklasifikasikan dengan metadata yang relevan untuk menghindari data swamp, dan informasi ini harus mudah diakses melalui katalog data, memungkinkan fungsionalitas layanan-mandiri bagi staf yang kurang teknis, seperti analis bisnis. Akhirnya, pagar pembatas juga harus dipasang untuk memenuhi standar privasi dan peraturan; Ini dapat mencakup kontrol akses, enkripsi data, dan banyak lagi.

Solusi terkait

Solusi Data Lake

Memberdayakan aplikasi, analitik, dan AI Anda dengan data apa pun dalam data cloud terbuka.

Jelajahi solusi data lake

Sumber daya

IBM + Cloudera

Pelajari lebih lanjut tentang kemitraan IBM dan Cloudera untuk menghadirkan platform data perusahaan untuk cloud hybrid.

Tata kelola data yang cerdas dan data lake

Pelajari praktik terbaik untuk memastikan kualitas, aksesibilitas, dan keamanan data sebagai fondasi arsitektur data yang berpusat pada AI.

Bank Negara India

Pelajari bagaimana State Bank of India menggunakan beberapa solusi IBM, bersama dengan metodologi IBM Garage™, untuk mengembangkan platform perbankan online yang komprehensif.

Apa yang dimaksud dengan lakehouse data?

Pelajari tentang evolusi solusi manajemen data berikutnya di pasar.

Ambil langkah selanjutnya

Meskipun ada banyak penyedia layanan yang bisa dipilih, IBM dan Cloudera telah bermitra untuk menghadirkan solusi data lake kelas perusahaan untuk membantu Anda mengganti silo data dengan platform yang tangkas dan terukur yang bisa mengumpulkan, menyimpan, mengatur, dan mengamankan data mentah dari seluruh bisnis Anda, sehingga siap untuk dianalisis. Tersedia on premises atau di cloud, platform data canggih Cloudera yang dikombinasikan dengan produk, layanan, dan dukungan multivendor IBM memosisikan Anda untuk membuka nilai AI. Untuk informasi lebih lanjut tentang data lake dan layanan penyimpanan IBM, daftar ke IBMid dan buat akun IBM Cloud Anda.

Jelajahi solusi data lake