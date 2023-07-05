Data Lake telah ada selama lebih dari satu dekade sekarang, mendukung operasi analitik di beberapa perusahaan terbesar di dunia. Namun ada yang berpendapat bahwa sebagian besar penerapan ini kini telah menjadi “rawa” data. Terlepas dari sisi mana pun Anda memandang dari kontroversi ini, kenyataannya adalah masih ada banyak data yang disimpan dalam sistem ini. Volume data seperti itu tidak mudah untuk dipindah, dimigrasikan, atau dimodernisasi.
Data lake, pada tingkat tinggi, merupakan repositori tunggal data dalam skala besar. Data dapat disimpan dalam bentuk asli mentah atau dioptimalkan ke dalam format berbeda yang cocok untuk dikonsumsi oleh mesin khusus.
Dalam kasus Hadoop, salah satu data lake yang lebih populer, janji untuk menerapkan repositori semacam itu menggunakan perangkat lunak sumber terbuka dan menjalankan semuanya pada perangkat keras komoditas berarti Anda dapat menyimpan banyak data pada sistem ini dengan biaya yang sangat rendah. Data dapat disimpan dalam format data terbuka, guna memudahkan akses untuk mengonsumsinya, serta direplikasi secara otomatis yang membantu Anda mempertahankan ketersediaan tinggi. Kerangka kerja pemrosesan default menawarkan kemampuan untuk pulih dari kegagalan di tengah proses. Hal ini jelas merupakan penyimpangan yang signifikan dari lingkungan analitik tradisional, yang sering berarti vendor lock-in dan ketidakmampuan untuk bekerja dengan data dalam skala besar.
Tantangan tak terduga lainnya adalah pengenalan Spark sebagai kerangka kerja pemrosesan untuk big data. Popularitas kerangka kerja ini meningkat pesat mengingat dukungannya untuk transformasi data, streaming, dan SQL. Namun, kerangka kerja ini tidak pernah dapat berfungsi optimal dengan lingkungan data lake yang ada. Akibatnya, diperlukan klaster komputasi khusus tambahan hanya untuk dapat menjalankan Spark.
Percepat waktu 15 tahun mendatang dan kenyataan terkait pengorbanan dan kompromi yang ditimbulkan oleh teknologi ini jelas akan terjadi. Dengan adopsi cepat, pelanggan akan segera tidak dapat melacak data apa saja yang masuk ke data lake. Dan, sama menantangnya, mereka tidak dapat mengatakan dari mana data itu berasal, bagaimana data itu diserap, atau bagaimana data itu telah diubah dalam prosesnya. Tata kelola data masih menjadi bagian yang belum dieksplorasi untuk teknologi ini. Perangkat lunak mungkin terbuka, tetapi seseorang perlu belajar bagaimana menggunakannya, memeliharanya, dan mendukungnya. Mengandalkan dukungan komunitas tidak selalu menghasilkan waktu penyelesaian yang dibutuhkan oleh operasi bisnis. Ketersediaan tinggi melalui replikasi berarti lebih banyak salinan data di lebih banyak disk, lebih banyak biaya penyimpanan, dan kegagalan yang lebih sering. Kerangka kerja pemrosesan terdistribusi dengan ketersediaan tinggi berarti mengorbankan kinerja demi ketahanan (kita berbicara tentang penurunan kinerja yang sangat besar untuk analisis interaktif dan BI).
Data lake telah terbukti berhasil bilamana perusahaan telah mampu mempersempit fokus pada skenario penggunaan tertentu. Namun yang jelas, ada kebutuhan mendesak untuk memodernisasi penerapan ini dan melindungi investasi dalam infrastruktur, keahlian, dan data yang ada dalam sistem tersebut.
Dalam mencari jawaban, industri melihat teknologi platform data yang ada dan kekuatannya. Menjadi jelas bahwa pendekatan yang efektif adalah menyatukan fitur-fitur utama data warehouse tradisional (atau lama) atau pasar data dengan fitur yang paling berhasil dari data lake. Beberapa item dengan cepat menjadi persyaratan minimal:
Hal-hal di atas telah menyebabkan munculnya data lakehouse. Data lakehouse adalah platform data yang menggabungkan aspek terbaik dari data warehouse dan data lake menjadi solusi manajemen data yang terpadu dan kohesif.
Jawaban IBM untuk persimpangan analitik saat ini adalah watsonx.data. Alat ini adalah penyimpanan data terbuka baru untuk mengelola data dalam skala besar yang memungkinkan perusahaan untuk melengkapi, memperkuat, dan memodernisasi data lake dan data warehouse yang ada tanpa perlu bermigrasi. Dengan sifat hibridanya, Anda dapat menjalankannya di infrastruktur yang dikelola pelanggan (on premises dan/atau IaaS) dan Cloud. Alat ini dibangun berdasarkan arsitektur lakehouse dan menanamkan satu set solusi (dan tumpukan perangkat lunak umum) untuk semua faktor bentuk.
Berbeda dengan penawaran pesaing di pasar, pendekatan IBM dibangun berbasis tumpukan teknologi dan arsitektur sumber terbuka. Tumpukan teknologi dan arsitektur ini bukan komponen baru tetapi sudah mapan di industri. IBM telah mengurus interoperabilitas, koeksistensi, dan pertukaran metadatanya. Pengguna dapat memulai dengan cepat—oleh karena itu secara dramatis mengurangi biaya awal dan adopsi—dengan arsitektur tingkat tinggi dan konsep dasar yang telah dikenal dan intuitif:
WatsonX.data menawarkan sarana untuk melindungi investasi perusahaan selama puluhan tahun di data lake dan data warehouse. Hal ini memungkinkan mereka untuk segera memperluas dan secara bertahap memodernisasi instalasi mereka dengan fokus setiap komponen pada skenario penggunaan yang paling penting bagi mereka.
Pembeda utama adalah strategi multi-engine yang memungkinkan pengguna untuk memanfaatkan teknologi yang tepat untuk pekerjaan yang tepat pada waktu yang tepat, semua melalui platform data terpadu. WatsonX.data memungkinkan pelanggan untuk mengimplementasikan penyimpanan berjenjang dinamis sepenuhnya (dan komputasi terkait). Dari waktu ke waktu, hal ini dapat menghasilkan penghematan biaya pengelolaan dan pemrosesan data yang sangat signifikan.
Dan jika, pada akhirnya, tujuan Anda adalah memodernisasi penerapan data lake yang ada dengan data lakehouse modern, watsonx.data memfasilitasi tugas tersebut dengan meminimalkan migrasi data dan migrasi aplikasi melalui pilihan komputasi.
Selama beberapa tahun terakhir, data lake telah memainkan peran penting dalam strategi manajemen data sebagian besar perusahaan. Jika tujuan Anda adalah untuk memodernisasi dan mengembangkan strategi manajemen data Anda menuju arsitektur cloud analitik yang benar-benar hybrid, maka penyimpanan data baru IBM yang dibangun berbasis arsitektur data lakehouse, watsonx.data, layak menjadi pertimbangan Anda.
