بحيرة البيانات عبارة عن بيئة تخزين بيانات منخفضة التكلفة مصممة خصوصًا للتعامل مع كميات هائلة من البيانات الأولية بأي تنسيق، بما في ذلك البيانات المنظمة وشبه المنظمة وغير المنظمة. تستخدم معظم بحيرات البيانات تخزين الكائنات المستندة إلى السحابة، مثل AWS S3 أو Google Cloud Storage أو IBM Cloud® Object Storage.
نشأت بحيرات البيانات لمساعدة المؤسسات على التعامل مع تدفق البيانات الضخمة - معظمها غير منظم - التي أنشأتها التطبيقات والخدمات المتصلة بالإنترنت في أواخر العقد الأول من القرن الحادي والعشرين ومطلع العقد الثاني من القرن الحادي والعشرين.
على عكس قواعد البيانات التقليدية ومستودعات البيانات، لا تتطلب بحيرات البيانات أن تتبع جميع البيانات مخططًا واحدًا محددًا. بدلاً من ذلك، يمكن لبحيرات البيانات تخزين أنواع مختلفة من البيانات بتنسيقات مختلفة في مستودع مركزي واحد. تستفيد بحيرات البيانات أيضًا من الحوسبة السحابية لجعل تخزين البيانات أكثر قابلية للتوسع وبأسعار معقولة.
تُعد بحيرات البيانات من المكونات الأساسية في العديد من هياكل البيانات في المؤسسات اليوم. فوفقًا للدراسة التي أجرتها IBM حول منصب كبير مسؤولي البيانات، يستثمر 75% من كبار مسؤولي البيانات (CDOs) في بحيرات البيانات.
وبفضل تخزينها المرن، يمكن أن تساعد بحيرات البيانات المؤسسات على هدم صوامع البيانات وبناء نسيج بيانات شامل. كما أنها مفيدة أيضًا لعلماء البيانات ومهندسي البيانات، الذين غالبًا ما يستخدمون بحيرات البيانات لإدارة مجموعات البيانات الضخمة غير المنظمة اللازمة لأعباء عمل الذكاء الاصطناعي (AI) والتعلم الآلي (ML).
اعتمدت المؤسسات لفترة طويلة على قواعد البيانات العلائقية (التي تم تطويرها في السبعينيات) ومستودعات البيانات (التي تم تطويرها في الثمانينيات) لإدارة بياناتها. ولا تزال هذه الحلول جزءًا مهمًا من أنظمة تكنولوجيا المعلومات في الكثير من المؤسسات، ولكنها مصممة بشكل أساسي لمجموعات البيانات المنظمة.
مع ازدهار شبكة الإنترنت - وخاصةً وصول وسائل التواصل الاجتماعي ووسائل الإعلام المتدفقة - وجدت المؤسسات نفسها أمام الكثير من البيانات غير المنظمة، مثل النصوص والصور الحرة. وبسبب مخططاتها الصارمة وتكاليف التخزين الباهظة نسبيًا، لم تكن المستودعات وقواعد البيانات العلائقية مجهزة للتعامل مع هذا الكم الهائل من البيانات.
في عام 2011، صاغ James Dixon، الذي كان يشغل آنذاك منصب كبير مسؤولي التكنولوجيا في Pentaho، مصطلح ”بحيرة البيانات“. رأى Dixon البحيرة كبديل لمستودع البيانات. فبينما تقدم المستودعات بيانات معالَجة مسبقًا لحالات استخدام الأعمال المستهدفة، تخيل Dixon بحيرة البيانات كمجموعة كبيرة من البيانات الموضوعة في شكلها الطبيعي. ويمكن للمستخدمين سحب البيانات التي يحتاجونها من هذه البحيرة واستخدامها كما يحلو لهم.
بُنيت العديد من بحيرات البيانات الأولى على Apache Hadoop، وهو إطار برمجي مفتوح المصدر للمعالجة الموزعة لمجموعات البيانات الكبيرة. وقد تمت استضافة بحيرات البيانات المبكرة هذه في أماكن العمل، ولكن سرعان ما أصبح هذا الأمر مشكلة مع استمرار زيادة حجم البيانات.
قدمت الحوسبة السحابية حلاً: نقل بحيرات البيانات إلى خدمات تخزين الكائنات السحابية الأكثر قابلية للتوسع.
لا تزال بحيرات البيانات تتطور اليوم. إذ تقدم العديد من حلول بحيرات البيانات الآن ميزات تتجاوز التخزين الرخيص والقابل للتوسع، مثل أدوات أمن البيانات والحوكمة وفهارس البيانات وإدارة البيانات الوصفية.
كما تُعد بحيرات البيانات أيضًا من المكونات الأساسية لمستودعات بحيرات البيانات، وهو حل جديد نسبيًا لإدارة البيانات يجمع بين التخزين منخفض التكلفة للبحيرة وقدرات التحليلات عالية الأداء للمستودع. (لمزيد من المعلومات، راجع ”مقارنة بين بحيرات البيانات ومستودعات بحيرات البيانات“).
في حين أن بحيرات البيانات الأولى كانت مبنية على Hadoop، فإن جوهر بحيرة البيانات الحديثة هو خدمة تخزين الكائنات السحابية. وتشمل الخيارات الشائعة Amazon Simple Storage Service (Amazon S3) وMicrosoft Azure Blob Storage وGoogle Cloud Storage وIBM Cloud Object Storage.
يُمكّن تخزين الكائنات السحابية المؤسسات من تخزين أنواع مختلفة من البيانات الأولية في مخزن البيانات نفسه. كما أنها أكثر قابلية للتوسع وأكثر فعالية من حيث التكلفة بشكل عام مقارنة بالتخزين المحلي. يُمكِّن مزودو خدمات التخزين السحابي المستخدمين من تشغيل مجموعات كبيرة عند الطلب، ما يتطلب الدفع مقابل التخزين المستخدم فقط.
يتم فصل موارد التخزين والحوسبة عن بعضها في بنية بحيرة البيانات. ولمعالجة البيانات، يجب على المستخدمين توصيل أدوات معالجة البيانات الخارجية. ويُعد Apache Spark، الذي يدعم واجهات مثل Python وR وSpark SQL، خيارًا شائعًا.
يساعد الفصل بين التخزين والحوسبة على خفض التكاليف والحفاظ على قابلية التوسع. ويمكن للمؤسسات إضافة المزيد من وحدات التخزين من دون توسيع نطاق موارد الحوسبة إلى جانبها.
يتصل مخزن بحيرة البيانات المركزي بمصادر البيانات المختلفة - مثل قواعد البيانات والتطبيقات وأجهزة إنترنت الأشياء (IoT) والمستشعرات - من خلال طبقة الاستيعاب.
تستخدم معظم بحيرات البيانات عملية الاستخراج والتحميل والتحويل (ELT) بدلاً من عملية الاستخراج والتحويل والتحميل (ETL) لاستيعاب البيانات. حيث تظل البيانات في حالتها الأصلية عندما تقوم البحيرة باستيعابها، ولا يتم تحويلها حتى تصبح مطلوبة. ويُسمى هذا النهج - تطبيق المخطط فقط عند الوصول إلى البيانات - ”المخطط عند القراءة“.
إلى جانب هذه المكونات الأساسية، يمكن للمؤسسات بناء طبقات أخرى في بنية بحيرة البيانات الخاصة بها لجعلها أكثر أمانًا وقابلية للاستخدام. يمكن أن تشمل هذه الطبقات:
طبقات تخزين متعددة ومتميزة لاستيعاب مراحل مختلفة من معالجة البيانات. على سبيل المثال، قد تحتوي بحيرة البيانات على طبقة واحدة للبيانات الأولية وطبقة للبيانات المنقاة وأخرى لبيانات التطبيقات الموثوقة.
تحافظ طبقات الأمان والحوكمة، مثل حلول الحوكمة المتكاملة للبيانات أو ضوابط إدارة الهوية والوصول (IAM) على جودة البيانات وتحميها من الوصول غير المصرح به.
كتالوج بيانات لمساعدة المستخدمين على العثور على البيانات بسهولة باستخدام عوامل تصفية البيانات الوصفية أو طرق أخرى.
تُعدّ بحيرات البيانات ومستودعات البيانات ومستودعات بحيرات البيانات من أنواع أدوات إدارة البيانات، ولكن ثمة اختلافات مهمة بينها. وغالبًا ما يتم استخدامها معًا في بنية بيانات متكاملة لدعم حالات الاستخدام المختلفة.
على غرار بحيرة البيانات، يجمع مستودع البيانات البيانات من مصادر بيانات متباينة في مخزن واحد، وعادةً ما يكون نظام قاعدة بيانات علائقية. يتمثل الاختلاف الرئيسي في أن مستودعات البيانات تنقي البيانات التي تستوعبها وتجهزها بحيث تكون جاهزة للاستخدام في تحليلات البيانات.
صُممت مستودعات البيانات في المقام الأول لدعم الاستعلامات عالية الأداء والتحليلات شبه الفورية وجهود ذكاء الأعمال (BI). وعلى هذا النحو، فهي مُحسّنة للبيانات المنظمة ومتكاملة بإحكام مع محركات التحليلات ولوحات المعلومات وأدوات تصور البيانات.
تميل المستودعات إلى أن يكون التخزين فيها أكثر تكلفة وأقل مرونة وأقل قابلية للتوسع مقارنة ببحيرات البيانات. وتستخدم المؤسسات بشكل عام المستودعات لمشاريع تحليلات محددة بينما تعتمد على بحيرات البيانات للتخزين واسع النطاق ومتعدد الأغراض.
مستودع بحيرة البيانات هو حل لإدارة البيانات يجمع بين التخزين المرن للبيانات في بحيرة البيانات وقدرات التحليلات عالية الأداء للمستودع.
على غرار بحيرة البيانات، يمكن لمستودع بحيرة البيانات تخزين البيانات بأي تنسيق بتكلفة منخفضة. تقوم بحيرات مستودعات البيانات أيضًا ببناء بنية تحتية للتحليلات على غرار المستودعات فوق نظام تخزين بحيرة البيانات السحابية، ما يجمع بين ميزات الحلين.
يمكن للمؤسسات استخدام مستودعات البحيرات لدعم العديد من أعباء العمل، بما في ذلك الذكاء الاصطناعي والتعلم الآلي وذكاء الأعمال وتحليلات البيانات. كما يمكن أن تكون مستودعات البحيرات بمثابة مسار تحديث لهياكل البيانات. ويمكن للمؤسسات أن تضع مستودعات البحيرات بجانب البحيرات والمستودعات الحالية من دون بذل جهود مكلفة للهدم والاستبدال.
تستخدم العديد من المؤسسات بحيرات البيانات كحلول تخزين متعددة الأغراض للبيانات الواردة إليها لأنها يمكن أن تحتوي بسهولة على أحجام بيتابايت من البيانات بأي تنسيق.
وبدلاً من إعداد مسارات بيانات مختلفة لأنواع مختلفة من البيانات، يمكن للمؤسسات وضع جميع البيانات الواردة في مخزن بحيرة البيانات. ويستطيع المستخدمون الوصول إلى البيانات من البحيرة مباشرةً أو نقلها إلى مستودع أو منصة بيانات أخرى حسب الحاجة.
يمكن للمؤسسات استخدام بحيرات البيانات لتخزين البيانات ”بصورة احتياطية“ مع حالات استخدام لم يتم تحديدها بعد. ونظرًا لأن بحيرات البيانات منخفضة التكلفة وقابلة للتوسع، فلا داعي لأن تقلق المؤسسات بشأن إنفاق الموارد على البيانات التي قد لم تحتج إليها بعد.
تجعل سعات التخزين العالية وتكاليف التخزين المنخفضة من بحيرات البيانات خيارًا شائعًا للنسخ الاحتياطي والتعافي من الكوارث.
يمكن أن تكون بحيرات البيانات أيضًا وسيلة لتخزين البيانات غير النشطة بسعر منخفض. ويكون هذا مفيدًا لحفظ البيانات القديمة والحفاظ على السجلات التاريخية التي قد تساعد في عمليات تدقيق الامتثال أو الاستفسارات التنظيمية أو حتى صافي التحليلات الجديدة في المستقبل.
تؤدي بحيرات البيانات دورًا مهمًا في أعباء عمل الذكاء الاصطناعي والتعلم الآلي وتحليلات البيانات الكبيرة، مثل بناء النماذج التنبئية وتدريب تطبيقات الذكاء الاصطناعي التوليدي. وتتطلب هذه المشاريع كميات كبيرة من البيانات غير المنظمة، والتي يمكن لبحيرات البيانات التعامل معها بتكلفة منخفضة وكفاءة عالية.
وفقًا لدراسة المديرين التنفيذيين التي أجرتها IBM، يوافق 72% من المديرين التنفيذيين الأفضل أداءً على أن امتلاك أدوات الذكاء الاصطناعي التوليدي الأكثر تقدمًا يمنح المؤسسة ميزة تنافسية. ونظرًا لأهمية الذكاء الاصطناعي والتعلم الآلي، فمن المنطقي أن تصبح بحيرات البيانات استثمارًا أساسيًا في بنية البيانات للعديد من المؤسسات.
يمكن أن تساعد بحيرات البيانات على دعم مبادرات تكامل البيانات، والتي تهدف إلى دمج البيانات من مصادر متعددة ومواءمتها بحيث يمكن استخدامها لأغراض تحليلية وتشغيلية وأغراض صنع القرار المختلفة.
وفقًا لبيانات القياس المعيارية الصادرة عن معهد IBM Institute for Business Value، يقول 64% من المؤسسات إن كسر الحواجز المؤسسية أمام مشاركة البيانات هو أحد أكبر التحديات المتعلقة بالأفراد. تُظهر الأبحاث أن ما يصل إلى 68% من البيانات المؤسسية لا يتم تحليلها أبدًا. ولا يمكن للمؤسسات تحقيق الفائدة الكاملة من بياناتها إذا لم يتمكن الأشخاص من استخدامها عندما يحتاجون إليها.
يمكن لبحيرة البيانات تسهيل الوصول إلى البيانات ومشاركتها من خلال منح المؤسسات طريقة سهلة لتخزين جميع أنواع البيانات في مستودع مركزي يسهل الوصول إليه.
يمكن لبحيرات البيانات أن تساعد المؤسسات على الحصول على قيمة أكبر من بيانات أعمالها من خلال تسهيل تخزين تلك البيانات ومشاركتها واستخدامها. وبشكل أكثر تحديدًا، يمكن أن توفر بحيرات البيانات ما يلي:
المرونة: يمكن لبحيرات البيانات استيعاب مجموعات بيانات منظمة وشبه منظمة وغير منظمة. لا تحتاج المؤسسات إلى الاحتفاظ بأنظمة تخزين منفصلة لأنواع مختلفة من البيانات، ما يساعد على تبسيط بنية البيانات.
خفض التكاليف: لا تحتاج البيانات إلى الخضوع لعملية تنقية وتحويل للتخزين مكلفة، كما أن تخزين الكائنات السحابية أرخص بشكل عام من البدائل المحلية. يمكن للمؤسسات تحسين ميزانياتها ومواردها بشكل أكثر فعالية من خلال مبادرات إدارة البيانات.
قابلية التوسع: نظرًا لأن بحيرات البيانات تفصل بين موارد الحوسبة والتخزين، ولأنها عادةً ما تستخدم خدمات التخزين السحابية، فمن الأسهل توسيع نطاقها أو تقليصه مقارنةً بالعديد من حلول تخزين البيانات الأخرى.
عدد أقل من صوامع البيانات: وفقًا لبيانات القياس المعيارية الصادرة عن معهد IBM Institute for Business Value، يفيد 61% من المؤسسات أن صوامع البيانات هي أحد أهم التحديات التي تواجهها. ويمكن أن تساعد بحيرات البيانات في القضاء على صوامع البيانات من خلال الاستغناء عن الحاجة إلى تخزين أنواع مختلفة من البيانات في أماكن مختلفة. ويمكن أن يكون الوصول إلى بحيرة بيانات مركزية أو مجموعة من بحيرات البيانات أكثر سهولة مقارنة بمخازن البيانات المتباينة المنتشرة على مستوى وحدات الأعمال.
نظرًا لأنها لا تفرض مخططًا صارمًا وتقبل العديد من أنواع البيانات المختلفة من العديد من المصادر، يمكن أن تعاني بحيرات البيانات من مشكلة حوكمة البيانات وجودتها. فمن دون الإدارة السليمة، يمكن أن تتحول بحيرات البيانات بسهولة إلى ”مستنقعات بيانات“ - أي مستنقعات فوضوية من البيانات غير الموثوقة التي تجعل من الصعب على المستخدمين الحصول على معارف قابلة للتنفيذ.
ولمكافحة مستنقعات البيانات، يمكن للمؤسسات الاستثمار في أدوات التوسيم والتصنيف، مثل أنظمة إدارة البيانات الوصفية وكتالوجات البيانات، التي تجعل التنقل أسهل.
يمكن أن تساعد حلول حوكمة البيانات وأمنها، مثل ضوابط الوصول وأدوات منع فقدان البيانات وحلول الكشف عن البيانات والاستجابة لها، على ضمان عدم الوصول إلى البيانات أو استخدامها أو تغييرها من دون تصريح.
لا تحتوي بحيرات البيانات على أدوات معالجة واستعلام مدمجة مثل العديد من المستودعات ومستودعات البحيرات. كما يمكن أن يتأثر أداء الاستعلام والتحليلات مع تزايد حجم البيانات التي تتم تغذية بحيرة البيانات بها، خاصةً إذا لم يتحسن أداء البيانات لاسترجاعها.
يمكن أن يساعد استخدام الأدوات والتكوينات الصحيحة - مثل تنسيقات التخزين ومحركات الاستعلام المحسّنة - على ضمان الأداء العالي، بغض النظر عن حجم بحيرة البيانات.