Lead space yang diwarnai ulang menggunakan ruang prospek Watson untuk layanan pelanggan sebagai dasarnya.
Ikhtisar

Data lakehouse adalah platform data, yang menggabungkan aspek terbaik dari gudang data dan danau data menjadi satu solusi manajemen data.

Data Lakehouse IBM dan arsitektur tata kelola untuk lingkungan hybrid cloud berlabuh di platform watsonx.data. Data lakehouse hybrid dan terbuka ini memungkinkan perusahaan untuk meningkatkan skala analitik dan AI, menyediakan penyimpanan data yang kuat yang dibangun di atas arsitektur lakehouse terbuka. Arsitektur menggabungkan atribut kinerja dan kegunaan gudang data dengan fleksibilitas dan skalabilitas danau data, menawarkan solusi seimbang untuk tugas manajemen data dan analitik.

Deployment

Platform watsonx.data ditawarkan baik sebagai penawaran SaaS maupun solusi lokal. untuk klien di geografi tanpa penawaran SaaS, atau mengharuskan platform Data Lakehouse untuk tetap di lokasi karena kendala peraturan atau lainnya, IBM memberikan fleksibilitas melalui opsi penerapan berikut untuk mengaktifkan kemampuan data lakehouse di mana saja:

  1. Penyediaan watsonx.data SaaS di IBM Cloud atau AWS.
  2. Menerapkan watsonx.data sebagai solusi mandiri di atas OpenShift lokal atau hyperscaler lainnya dengan OpenShift terkelola.
  3. Menerapkan watsonx.data bagian dari kluster IBM CloudPak for Data (CP4D).
Menerapkan watsonx.data bagian dari kluster IBM CloudPak for Data (CP4D).
Arsitektur data lakehouse yang memungkinkan penggunaan beberapa mesin kueri yang sesuai dengan tujuan sekaligus menyediakan akses simultan ke data yang sama di semua mesin
  • Sumber data - Ini termasuk data terstruktur dari database dan aplikasi serta data tidak terstruktur dari file, media sosial, perangkat IoT, dll., serta gudang data perusahaan, dan penyimpanan data tidak terstruktur lainnya, baik dari aplikasi lokal klien dan SaaS.

  • Aplikasi Klien - Klien mungkin memiliki aplikasi lokal, atau SaaS dengan penyimpanan data mereka sendiri (terstruktur dan tidak terstruktur) yang datanya mungkin tidak ada di danau data, dan klien mungkin ingin membawa data tersebut ke lakehouse untuk memudahkan kueri.

  • Data lakehouse - watsonx.data adalah arsitektur penyimpanan data generasi berikutnya yang menyeimbangkan kemampuan danau data dan gudang data. Ini merupakan dasar dari pendekatan Data Lakehouse IBM, memfasilitasi penskalaan beban kerja AI dan Machine Learning (ML) sambil memastikan tata kelola data yang efisien.
     

  • Platform GenAI - Data lakehouse dapat secara opsional dihubungkan ke platform GenAI untuk melengkapi kueri dengan LLM. Pengguna dapat memasukkan prompt, yang dikirim ke LLM yang telah disetel untuk menghasilkan kueri pengambilan yang dapat dieksekusi oleh mesin yang didukung dalam data lakehouse.

Pola Lakehouse

Pola Lakehouse 1: Beberapa Mesin Kueri yang Sesuai untuk Tujuan

Gunakan komputasi yang sesuai dengan tujuan untuk mengoptimalkan biaya dengan memanfaatkan mesin yang tepat untuk beban kerja yang tepat, sekaligus berbagi data dan metadata di antara semua mesin, metastore bersama (mis. Katalog Data) dan lingkungan yang sama.

Beberapa Mesin Kueri Bertujuan khusus. Gunakan komputasi bertujuan khusus untuk mengoptimalkan biaya dengan memanfaatkan mesin yang tepat untuk beban kerja yang tepat,
Arsitektur data lakehouse yang memungkinkan penggunaan beberapa mesin kueri untuk mengoptimalkan biaya dan kinerja.

Pola Lakehouse 2: Panel kaca tunggal untuk semua data Anda

Data lakehouse memungkinkan pendekatan modern terhadap arsitektur data saat ini, di mana perusahaan telah membangun beberapa silo penyimpanan data selama bertahun-tahun untuk memenuhi kebutuhan yang berbeda, mulai dari gudang data (EDW) yang terstruktur dan berkinerja tinggi hingga danau data bervolume tinggi dan tidak terstruktur/semi-terstruktur yang sering kali berubah menjadi rawa-rawa data (duplikasi, kualitas data, kurangnya tata kelola). Data lakehouse dengan watsonx.data akan memungkinkan satu lapisan akses ke berbagai penyimpanan data melalui beberapa mesin kueri, format data terbuka, dan tata kelola, tanpa perlu perpindahan data.

Panel kaca tunggal untuk semua data Anda tanpa perlu memindahkan data. Arsitektur data lakehouse untuk menyediakan lapisan akses tunggal (panel kaca tunggal) untuk semua penyimpanan data perusahaan termasuk object storage, data relasional, dan danau data.

Pola Lakehouse 3: Optimalkan beban kerja Gudang Data untuk mengoptimalkan biaya

Kurangi biaya pergudangan sambil tetap mempertahankan kemampuan kueri temporal dengan memanfaatkan penyimpanan dan komputasi murah lakehouse, dan memungkinkan beberapa mesin kueri untuk menggunakan kumpulan data yang sama. Mesin kueri seperti Spark memungkinkan melakukan kueri data Vacuumed/Materialized dalam keadaan saat ini (mis. tidak semua riwayat perubahan data) yang mengurangi ukuran kueri data dan biaya komputasi kueri. Selain itu, kemampuan preprocessing Lakehouse dan transformasi selektif memungkinkan distribusi beban kerja Gudang Data yang optimal, sehingga mengurangi biaya.

Mengoptimalkan beban kerja Gudang Data untuk mengoptimalkan biaya, mengurangi biaya pergudangan sambil tetap mempertahankan kemampuan kueri temporal dengan memanfaatkan
Arsitektur data lakehouse untuk meminimalkan biaya gudang data dan mengoptimalkan kinerja kueri gudang.

Pola Lakehouse 4: Penerapan Multi Hybrid Cloud

Hubungkan dan akses data dari jarak jauh di hybrid cloud dengan kemampuan untuk menyimpan sumber jarak jauh.

Terhubung dan akses data dari jarak jauh di hybrid cloud dengan kemampuan untuk menyimpan cache sumber jarak jauh.
Arsitektur data lakehouse untuk mengintegrasikan data lokal dan di cloud di beberapa penyedia.

Pola Lakehouse 5: Mengintegrasikan Data Mainframe dengan ekosistem analitis

Mensinkronkan dan menggabungkan data Db2 for z/OS untuk analitik Lakehouse, dan melakukan analitik real-time pada Mainframe di seluruh data VSAM dan Db2. Virtualisasi data akan selalu meminta data secara langsung dari mainframe dengan pertimbangan beban tambahan, sementara CDC akan menangkap informasi dalam format gunung es berdasarkan frekuensi yang ditentukan oleh administrasi (tidak menambah beban pada mainframe Anda, tetapi juga tidak menyediakan data real-time)

Sinkronkan dan gabungkan data Db2 for z/OS untuk analitik Lakehouse, dan jalankan analitik real-time pada Mainframe di seluruh data VSAM dan Db2
Arsitektur data lakehouse yang menggunakan Data Gateway dan Virtualisasi Data untuk mengintegrasikan data mainframe dengan data yang bersumber dari non-mainframe.
Contoh Penggunaan Lakehouse Lainnya
  • Tingkatan penyimpanan untuk aset data baru Aplikasi modern sering kali mengandalkan kumpulan data baru dan teknik pemrosesan data tingkat lanjut untuk menyediakan layanan yang lebih efisien, dapat diskalakan, dan berbasis data. Data Lakehouse dapat menyediakan tingkatan data/penyimpanan yang dibutuhkan, integrasi, kinerja, skalabilitas, dan efisiensi biaya.

  • Prompt dan respons data bahasa alami Data Lakehouse (watsonx.data) dalam hubungannya dengan AI generatif dan kemampuan model bahasa besar (LLM) (watsonx.ai) memungkinkan analis yang tidak mengetahui struktur teknis informasi, tidak menguasai SQL, untuk menggunakan prompt bahasa alami untuk melakukan analisis silang di berbagai penyimpanan data dan mendapatkan tanggapan dari LLM.
Keputusan Arsitektur

Pemilihan Mesin Kueri

Pemilihan mesin kueri mana yang akan digunakan umumnya didorong oleh jenis data yang akan ditanyakan.

  1. Mesin kueri Presto paling cocok untuk digunakan dengan tabel/bucket Hive dan Parquet.
  2. Mesin kueri Spark paling cocok untuk digunakan ketika pengodean SCALA digunakan dalam lingkungan Hadoop/Cloudera yang sudah ada.
  3. Mesin kueri DB2 paling cocok untuk digunakan dengan penyimpanan data DB2.
  4. Mesin kueri Netezza paling cocok untuk mengkueri gudang data Netezza
Karakteristik Data Lakehouse
  1. Manajemen Data Terpadu: Memastikan bahwa Data Lakehouse berfungsi sebagai sumber kebenaran tunggal sangat penting untuk konsistensi dan keandalan dalam analisis data dan pengambilan keputusan.
  2. Integrasi Data: Integrasi data dari beragam sumber dan dalam berbagai format harus mulus, dengan dukungan untuk penyerapan data real-time dan batch.
  3. Kinerja Kueri: Kinerja kueri yang dioptimalkan untuk mendukung kebutuhan analitik dan pelaporan sesuai dengan SLA/SLO perusahaan.
  4. Tata Kelola Data: Implementasi data lakehouse yang sukses memerlukan kerangka kerja tata kelola data yang kuat untuk memastikan kualitas data, manajemen metadata, dan penelusuran silsilah.
  5. Keamanan: Memastikan enkripsi data, kontrol akses, dan jejak audit untuk mematuhi persyaratan organisasi dan peraturan.
  6. Fleksibilitas Penerapan: Dukungan untuk penerapan lokal, hybrid, dan multi-cloud memberikan fleksibilitas dan bantuan dalam mengoptimalkan biaya dan kinerja.
  7. Sensitivitas Data: Memastikan pergerakan data yang mudah di berbagai lingkungan sekaligus menjaga konsistensi dan integritas data.
  8. Pemantauan dan Manajemen: Menerapkan alat pemantauan, pencatatan, dan manajemen untuk visibilitas ke dalam pergerakan data, waktu dan laju penyelesaian pekerjaan, dan penyetelan kinerja.
Langkah selanjutnya

Diskusikan implementasi pola penerapan hybrid cloud dengan pakar kami.

Cara penelusuran lainnya Pusat Arsitektur Hybrid Cloud Alat diagram dan templat Kerangka Kerja IBM Well-Architected
Kontributor

Bryan KyleManav GuptaMihai Criveti, Wissam DibChris Kirby

Diperbarui: 11 Desember 2023