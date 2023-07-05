بحيرات البيانات، بشكل عامّ، هي مستودعات موحدة للبيانات على نطاق واسع. ويُمكن أن تُخزَّن البيانات في شكلها الخام الأصلي أو تحسينها إلى صيغة أخرى مناسبة للاستهلاك بواسطة محركات متخصصة.

في سياق بحيرات البيانات، مثل Hadoop، وهو أحد أشهر بحيرات البيانات، فإن اعتماد تطبيق مثل هذا المستودع باستخدام البرمجيات مفتوحة المصدر وتشغيله على الأجهزة المتواضعة يعني أنه يمكنك تخزين كميات هائلة من البيانات على هذه الأنظمة بتكلفة زهيدة. فبفضل تنسيقات البيانات المفتوحة، أصبحت هذه البيانات متاحة للاستخدام على نطاق واسع، ويمكن تكرارها تلقائيًّا لضمان توافرها الدائم. وقد أتاح إطار العمل الافتراضي للمعالجة القدرة على التعافي من الأعطال أثناء التشغيل. وكان هذا بالتأكيد يُمثل تغيرًا كبيرًا عن بيئات التحليل التقليدية، والتي غالبًا ما كانت تعني الاحتكار لمنتج معين وعدم القدرة على التعامل مع البيانات على نطاق واسع.

مثّل إدخال إطار "Spark" كإطار معالجة للبيانات الكبيرة تحديًا آخر غير متوقع، فقد اكتسب شعبية سريعة بفضل دعمه لتحويلات البيانات، والبث المباشر، وSQL، إلا إنه لم يندمج بسلاسة مع بيئات بحيرات البيانات الحالية. ونتيجةً لذلك، غالبًا ما استلزم ذلك الحاجة إلى مجموعات حوسبة مخصصة إضافية لتشغيل "Spark".

بعد حوالي 15 عامًا على ظهور هذه التقنية، بات من الواضح تمامًا المفاضلات والتسويات التي تقتضيها هذه التقنية، فقد أسفر التبني السريع لهذه التقنية عن فقدان العملاء للقدرة على تتبع مسار البيانات داخل بحيرة البيانات. وبالمثل، لم يتمكنوا من تحديد مصدر البيانات، وكيف تم إدخالها، والتحولات التي طرأت عليها خلال العملية. ولا تزال إدارة البيانات مجالًا غير مُستكشف ويُمثل تحديًا لهذه التقنية. وعلى الرغم من أن البرامج مفتوحة المصدر، إلا إنه يجب تكليف أحدٍ من الأشخاص بتعلم كيفية استخدامها، وصيانتها، ودعمها. ولا يضمن الاعتماد على دعم المجتمع دائمًا تحقيق أوقات الاستجابة المطلوبة من قِبَل العمليات التجارية. ويتطلب تحقيق التوفر العالي عبر التكرار المزيد من نسخ البيانات على المزيد من الأقراص، وهو ما يزيد من تكاليف التخزين ويرفع من احتمالية حدوث الأعطال، فقد أدى اعتماد أطر عمل معالجة البيانات الموزعة عالية التوفر إلى تنازلات كبيرة على صعيد الأداء لصالح المرونة، (نتحدث عن تدهور كبير في الأداء لعمليات التحليل التفاعلية وذكاء الأعمال [BI]).