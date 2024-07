Data lake juga biasanya dikaitkan dengan Apache Hadoop, sebuah kerangka kerja peranti lunak sumber terbuka yang menyediakan pemrosesan terdistribusi berbiaya rendah dan andal untuk penyimpanan data besar. Mereka secara tradisional diterapkan on premises, tetapi seperti yang ditunjukkan dalam laporan 451 Research, para pengadopsi dengan cepat berpindah ke lingkungan cloud karena memberikan lebih banyak fleksibilitas kepada pengguna akhir. Tidak seperti penerapan on premises, penyedia penyimpanan awan memungkinkan pengguna untuk membentuk klaster besar sesuai kebutuhan, hanya memerlukan pembayaran untuk penyimpanan yang ditentukan. Artinya, jika Anda membutuhkan daya komputasi tambahan untuk menjalankan pekerjaan dalam beberapa jam dibandingkan beberapa hari, Anda dapat dengan mudah melakukannya di platform cloud dengan membeli node komputasi tambahan. Forrester Research ( tautan berada di luar ibm.com) melaporkan bahwa bisnis yang menggunakan data lake cloud dibandingkan data lake on premises mengalami penghematan sekitar 25%.

Di dalam Hadoop, Hadoop Distributed File System (HDFS) menyimpan dan mereplikasi data di beberapa server, sementara Yet Another Resource Negotiator (YARN) menentukan cara mengalokasikan sumber daya di server-server tersebut. Anda kemudian dapat menggunakan Apache Spark untuk membuat satu ruang memori yang besar untuk pemrosesan data, sehingga pengguna yang lebih mahir dapat mengakses data melalui antarmuka menggunakan Python, R, dan Spark SQL.



Karena volume data tumbuh dengan kecepatan eksponensial, data lake berfungsi sebagai komponen penting dari pipeline data.