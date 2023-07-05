Data lake, pada tingkat tinggi, merupakan repositori tunggal data dalam skala besar. Data dapat disimpan dalam bentuk asli mentah atau dioptimalkan ke dalam format berbeda yang cocok untuk dikonsumsi oleh mesin khusus.

Dalam kasus Hadoop, salah satu data lake yang lebih populer, janji untuk menerapkan repositori semacam itu menggunakan perangkat lunak sumber terbuka dan menjalankan semuanya pada perangkat keras komoditas berarti Anda dapat menyimpan banyak data pada sistem ini dengan biaya yang sangat rendah. Data dapat disimpan dalam format data terbuka, guna memudahkan akses untuk mengonsumsinya, serta direplikasi secara otomatis yang membantu Anda mempertahankan ketersediaan tinggi. Kerangka kerja pemrosesan default menawarkan kemampuan untuk pulih dari kegagalan di tengah proses. Hal ini jelas merupakan penyimpangan yang signifikan dari lingkungan analitik tradisional, yang sering berarti vendor lock-in dan ketidakmampuan untuk bekerja dengan data dalam skala besar.

Tantangan tak terduga lainnya adalah pengenalan Spark sebagai kerangka kerja pemrosesan untuk big data. Popularitas kerangka kerja ini meningkat pesat mengingat dukungannya untuk transformasi data, streaming, dan SQL. Namun, kerangka kerja ini tidak pernah dapat berfungsi optimal dengan lingkungan data lake yang ada. Akibatnya, diperlukan klaster komputasi khusus tambahan hanya untuk dapat menjalankan Spark.

Percepat waktu 15 tahun mendatang dan kenyataan terkait pengorbanan dan kompromi yang ditimbulkan oleh teknologi ini jelas akan terjadi. Dengan adopsi cepat, pelanggan akan segera tidak dapat melacak data apa saja yang masuk ke data lake. Dan, sama menantangnya, mereka tidak dapat mengatakan dari mana data itu berasal, bagaimana data itu diserap, atau bagaimana data itu telah diubah dalam prosesnya. Tata kelola data masih menjadi bagian yang belum dieksplorasi untuk teknologi ini. Perangkat lunak mungkin terbuka, tetapi seseorang perlu belajar bagaimana menggunakannya, memeliharanya, dan mendukungnya. Mengandalkan dukungan komunitas tidak selalu menghasilkan waktu penyelesaian yang dibutuhkan oleh operasi bisnis. Ketersediaan tinggi melalui replikasi berarti lebih banyak salinan data di lebih banyak disk, lebih banyak biaya penyimpanan, dan kegagalan yang lebih sering. Kerangka kerja pemrosesan terdistribusi dengan ketersediaan tinggi berarti mengorbankan kinerja demi ketahanan (kita berbicara tentang penurunan kinerja yang sangat besar untuk analisis interaktif dan BI).