Data lakehouse adalah platform data, yang menggabungkan aspek terbaik dari gudang data dan danau data menjadi satu solusi manajemen data.
Data Lakehouse IBM dan arsitektur tata kelola untuk lingkungan hybrid cloud berlabuh di platform watsonx.data. Data lakehouse hybrid dan terbuka ini memungkinkan perusahaan untuk meningkatkan skala analitik dan AI, menyediakan penyimpanan data yang kuat yang dibangun di atas arsitektur lakehouse terbuka. Arsitektur menggabungkan atribut kinerja dan kegunaan gudang data dengan fleksibilitas dan skalabilitas danau data, menawarkan solusi seimbang untuk tugas manajemen data dan analitik.
Platform watsonx.data ditawarkan baik sebagai penawaran SaaS maupun solusi lokal. untuk klien di geografi tanpa penawaran SaaS, atau mengharuskan platform Data Lakehouse untuk tetap di lokasi karena kendala peraturan atau lainnya, IBM memberikan fleksibilitas melalui opsi penerapan berikut untuk mengaktifkan kemampuan data lakehouse di mana saja:
Data lakehouse - watsonx.data adalah arsitektur penyimpanan data generasi berikutnya yang menyeimbangkan kemampuan danau data dan gudang data. Ini merupakan dasar dari pendekatan Data Lakehouse IBM, memfasilitasi penskalaan beban kerja AI dan Machine Learning (ML) sambil memastikan tata kelola data yang efisien.
Platform GenAI - Data lakehouse dapat secara opsional dihubungkan ke platform GenAI untuk melengkapi kueri dengan LLM. Pengguna dapat memasukkan prompt, yang dikirim ke LLM yang telah disetel untuk menghasilkan kueri pengambilan yang dapat dieksekusi oleh mesin yang didukung dalam data lakehouse.
Pola Lakehouse 1: Beberapa Mesin Kueri yang Sesuai untuk Tujuan
Gunakan komputasi yang sesuai dengan tujuan untuk mengoptimalkan biaya dengan memanfaatkan mesin yang tepat untuk beban kerja yang tepat, sekaligus berbagi data dan metadata di antara semua mesin, metastore bersama (mis. Katalog Data) dan lingkungan yang sama.
Pola Lakehouse 2: Panel kaca tunggal untuk semua data Anda
Data lakehouse memungkinkan pendekatan modern terhadap arsitektur data saat ini, di mana perusahaan telah membangun beberapa silo penyimpanan data selama bertahun-tahun untuk memenuhi kebutuhan yang berbeda, mulai dari gudang data (EDW) yang terstruktur dan berkinerja tinggi hingga danau data bervolume tinggi dan tidak terstruktur/semi-terstruktur yang sering kali berubah menjadi rawa-rawa data (duplikasi, kualitas data, kurangnya tata kelola). Data lakehouse dengan watsonx.data akan memungkinkan satu lapisan akses ke berbagai penyimpanan data melalui beberapa mesin kueri, format data terbuka, dan tata kelola, tanpa perlu perpindahan data.
Pola Lakehouse 3: Optimalkan beban kerja Gudang Data untuk mengoptimalkan biaya
Kurangi biaya pergudangan sambil tetap mempertahankan kemampuan kueri temporal dengan memanfaatkan penyimpanan dan komputasi murah lakehouse, dan memungkinkan beberapa mesin kueri untuk menggunakan kumpulan data yang sama. Mesin kueri seperti Spark memungkinkan melakukan kueri data Vacuumed/Materialized dalam keadaan saat ini (mis. tidak semua riwayat perubahan data) yang mengurangi ukuran kueri data dan biaya komputasi kueri. Selain itu, kemampuan preprocessing Lakehouse dan transformasi selektif memungkinkan distribusi beban kerja Gudang Data yang optimal, sehingga mengurangi biaya.
Pola Lakehouse 4: Penerapan Multi Hybrid Cloud
Hubungkan dan akses data dari jarak jauh di hybrid cloud dengan kemampuan untuk menyimpan sumber jarak jauh.
Pola Lakehouse 5: Mengintegrasikan Data Mainframe dengan ekosistem analitis
Mensinkronkan dan menggabungkan data Db2 for z/OS untuk analitik Lakehouse, dan melakukan analitik real-time pada Mainframe di seluruh data VSAM dan Db2. Virtualisasi data akan selalu meminta data secara langsung dari mainframe dengan pertimbangan beban tambahan, sementara CDC akan menangkap informasi dalam format gunung es berdasarkan frekuensi yang ditentukan oleh administrasi (tidak menambah beban pada mainframe Anda, tetapi juga tidak menyediakan data real-time)
Pemilihan mesin kueri mana yang akan digunakan umumnya didorong oleh jenis data yang akan ditanyakan.