Beranda
Topics
Apa yang dimaksud dengan lakehouse data?
Data lakehouse berupaya menyelesaikan tantangan inti di seluruh gudang data dan data lake untuk menghasilkan solusi manajemen data yang lebih ideal bagi organisasi. Mereka mewakili evolusi berikutnya dari solusi manajemen data di pasar.
Data lakehouse adalah platform data, yang menggabungkan aspek-aspek terbaik dari data warehouse dan data lake ke dalam satu solusi manajemen data. Gudang data cenderung lebih berkinerja daripada data lake, tetapi mereka bisa lebih mahal dan terbatas dalam kemampuannya untuk menskalakan. Rumah data lake mencoba mengatasi hal ini dengan memanfaatkan penyimpanan objek cloud untuk menyimpan berbagai jenis data yang lebih luas-yaitu data terstruktur, data tidak terstruktur, dan data semi-terstruktur. Dengan membawa manfaat-manfaat ini ke dalam satu arsitektur data, tim data dapat mempercepat pemrosesan data mereka karena mereka tidak perlu lagi mengangkangi dua sistem data yang berbeda untuk menyelesaikan dan meningkatkan skala analisis yang lebih canggih, seperti pembelajaran mesin.
Pelajari tentang hambatan adopsi AI, terutama kurangnya tata kelola AI dan solusi manajemen risiko.
Karena data lakehouse muncul dari tantangan data warehouse dan data lake, ada baiknya mendefinisikan repositori data yang berbeda ini dan memahami perbedaannya.
Sebuah gudang data mengumpulkan data mentah dari berbagai sumber ke dalam repositori pusat dan mengaturnya ke dalam infrastruktur database relasional. Sistem manajemen data ini terutama mendukung analisis data dan aplikasi intelijen bisnis, seperti pelaporan perusahaan. Sistem menggunakan proses ETL untuk mengekstrak, mengubah, dan memuat data ke tujuannya. Namun, metode ini dibatasi oleh ketidakefisienan dan biayanya, terutama karena jumlah sumber data dan kuantitas data bertambah seiring waktu.
Data lake biasanya dibangun pada platform data besar seperti Apache Hadoop. Mereka dikenal dengan biaya rendah dan fleksibilitas penyimpanannya karena tidak memiliki skema yang telah ditentukan sebelumnya dari gudang data tradisional. Mereka juga menampung berbagai jenis data, seperti audio, video, dan teks. Karena sebagian besar produsen data menghasilkan data yang tidak terstruktur, hal ini menjadi perbedaan penting karena hal ini juga memungkinkan lebih banyak proyek ilmu data dan kecerdasan buatan (AI), yang pada gilirannya mendorong lebih banyak wawasan baru dan pengambilan keputusan yang lebih baik di seluruh organisasi. Namun, danau data bukannya tanpa tantangan tersendiri. Ukuran dan kompleksitas data lake dapat membutuhkan lebih banyak sumber daya teknis, seperti ilmuwan data dan insinyur data, untuk menavigasi jumlah data yang disimpannya. Selain itu, karena tata kelola data diimplementasikan lebih banyak di bagian hilir dalam sistem ini, danau data cenderung lebih rentan terhadap lebih banyak silo data, yang kemudian dapat berkembang menjadi rawa data. Ketika ini terjadi, danau data bisa tidak dapat digunakan.
Danau data dan gudang data biasanya digunakan bersama-sama. Data lake bertindak sebagai sistem penampung semua data baru, dan gudang data menerapkan struktur hilir ke data spesifik dari sistem ini. Namun, mengoordinasikan sistem ini untuk menyediakan data yang andal dapat memakan waktu dan sumber daya yang mahal. Waktu pemrosesan yang lama berkontribusi pada kemacetan data dan lapisan ETL tambahan menimbulkan lebih banyak risiko terhadap kualitas data.
Data lakehouse mengoptimalkan kekurangan yang ada di dalam data warehouse dan data lake untuk membentuk sistem manajemen data yang lebih baik. Ini menyediakan penyimpanan yang cepat dan murah bagi organisasi untuk data perusahaan mereka sekaligus memberikan fleksibilitas yang cukup untuk mendukung analisis data dan beban kerja pembelajaran mesin.
Seperti yang disebutkan sebelumnya, data lakehouse menggabungkan fitur terbaik dalam data warehousing dengan yang paling optimal dalam data lake. Ini memanfaatkan struktur data serupa dari gudang data dan memasangkannya dengan penyimpanan berbiaya rendah dan fleksibilitas data lake, memungkinkan organisasi untuk menyimpan dan mengakses data besar dengan cepat dan lebih efisien sekaligus memungkinkan mereka untuk mengurangi potensi masalah kualitas data. Ini mendukung kumpulan data yang beragam, yaitu data terstruktur dan tidak terstruktur, yang memenuhi kebutuhan alur kerja intelijen bisnis dan ilmu data. Ini biasanya mendukung bahasa pemrograman seperti Python, R, dan SQL berkinerja tinggi.
Rumah danau data juga mendukung transaksi ACID pada beban kerja data yang lebih besar. ACID adalah singkatan dari atomicity, consistency, isolation, dan durability; yang semuanya merupakan properti utama yang menentukan transaksi untuk memastikan integritas data. Atomisitas dapat didefinisikan sebagai semua perubahan data dilakukan seolah-olah mereka adalah operasi tunggal. Konsistensi adalah ketika data berada dalam keadaan konsisten ketika transaksi dimulai dan ketika berakhir. Isolasi mengacu pada keadaan transaksi perantara yang tidak terlihat oleh transaksi lain. Akibatnya, transaksi yang berjalan secara bersamaan tampaknya diserialisasi. Daya tahan adalah setelah transaksi berhasil diselesaikan, perubahan pada data tetap ada dan tidak dibatalkan, bahkan jika terjadi kegagalan sistem. Fitur ini sangat penting dalam memastikan konsistensi data karena beberapa pengguna membaca dan menulis data secara bersamaan.
Rumah data lake biasanya terdiri dari lima lapisan: lapisan konsumsi, lapisan penyimpanan, lapisan metadata, lapisan API, dan lapisan konsumsi. Ini membentuk pola arsitektur rumah danau data.
Lapisan pertama ini mengumpulkan data dari berbagai sumber yang berbeda dan mengubahnya menjadi format yang dapat disimpan dan dianalisis di rumah danau. Lapisan konsumsi dapat menggunakan protokol untuk terhubung dengan sumber internal dan eksternal seperti sistem manajemen database, database NoSQL, media sosial, dan lain-lain. Seperti namanya, lapisan ini bertanggung jawab atas penyerapan data.
Pada lapisan ini, data terstruktur, tidak terstruktur, dan semi terstruktur disimpan dalam format file sumber terbuka, seperti Parket atau Optimized Row Columnar (ORC). Manfaat nyata dari lakehouse adalah kemampuan sistem untuk menerima semua tipe data dengan biaya terjangkau.
Lapisan metadata adalah dasar dari rumah danau data. Ini adalah katalog terpadu yang memberikan metadata untuk setiap objek dalam penyimpanan danau, membantu mengatur dan memberikan informasi tentang data dalam sistem. Lapisan ini juga memberikan kesempatan kepada pengguna untuk menggunakan fitur-fitur manajemen seperti transaksi ACID, file caching, dan pengindeksan untuk query yang lebih cepat. Pengguna dapat mengimplementasikan skema yang telah ditentukan dalam lapisan ini, yang memungkinkan tata kelola data dan kemampuan audit.
Rumah danau data menggunakan API, untuk meningkatkan pemrosesan tugas dan melakukan analitik yang lebih canggih. Secara khusus, lapisan ini memberikan kesempatan kepada konsumen dan/atau pengembang untuk menggunakan berbagai bahasa dan pustaka, seperti TensorFlow, pada tingkat abstrak. API dioptimalkan untuk konsumsi aset data.
Lapisan terakhir dari arsitektur data lakehouse ini menjadi tempat bagi aplikasi dan alat bantu klien, yang berarti memiliki akses ke semua metadata dan data yang tersimpan di dalam danau. Pengguna di seluruh organisasi dapat memanfaatkan lakehouse dan melakukan tugas analitis seperti dasbor intelijen bisnis, visualisasi data, dan pekerjaan pembelajaran mesin lainnya.
Karena data lakehouse dirancang untuk menyatukan fitur-fitur terbaik dari data warehouse dan data lake, maka data lakehouse memberikan manfaat utama yang spesifik bagi para penggunanya. Ini termasuk:
Tingkatkan beban kerja AI, untuk semua data Anda, di mana saja. IBM watsonx.data adalah satu-satunya penyimpanan data sehingga Anda dapat memanfaatkan beberapa mesin kueri untuk menjalankan beban kerja yang diatur, di mana pun mereka berada. Hasilnya, pemanfaatan sumber daya menjadi maksimal dan ekonomis.
Dibangun di atas inovasi puluhan tahun dalam hal keamanan, skalabilitas, dan ketersediaan data, jaga agar aplikasi dan analitik Anda tetap terlindungi, berkinerja tinggi, dan tangguh, di mana saja dengan IBM Db2.
Gudang data cloud-native canggih yang dirancang untuk analisis dan wawasan terpadu yang dapat diskalakan dan tersedia di mana saja. Dengan penskalaan elastis granular dan fungsionalitas jeda dan lanjutkan, Netezza Performance Server menawarkan kontrol biaya dan sumber daya pada skala perusahaan yang sangat besar.
IBM Research mengusulkan bahwa pendekatan terpadu dari data lakehouse menciptakan peluang unik untuk manajemen ketahanan data terpadu.
Solusi IBM menyediakan kemampuan yang mengatasi tantangan lingkungan analitik. Lihat mengapa IBM dinobatkan sebagai pemimpin dalam manajemen data untuk solusi analitik.
Pahami bagaimana ketiga konsep ini dapat saling mengarah atau digunakan satu sama lain.
Pelajari tentang mesin kueri sumber terbuka yang cepat dan fleksibel yang tersedia dengan watsonx.data. arsitektur rumah danau data terbuka.
1 Lakehouse: Generasi Baru Platform Terbuka yang Menyatukan
Data Warehousing dan Analisis Tingkat Lanjut (tautan berada di luar ibm.com), Stanford, 2021