مستودعات البيانات مقابل بحيرات البيانات مقابل مستودعات بحيرات البيانات 

صورة علوية لطريق يمر عبر غابة بمحاذاة بحيرة

المؤلفين

Matthew Kosinski

Staff Editor

IBM Think

مستودعات البيانات مقابل بحيرات البيانات مقابل مستودعات بحيرات البيانات

تُعد مستودعات البيانات وبحيرات البيانات ومستودعات بحيرات البيانات أنواعًا مختلفة من حلول إدارة البيانات ذات الوظائف المختلفة:

  • تقوم مستودعات البيانات بتجميع البيانات وتنظيفها وإعدادها بحيث يمكن استخدامها في جهود ذكاء الأعمال (BI) وتحليلات البيانات. 

  • تخزن بحيرة البيانات كميات كبيرة من البيانات غير المنسقة بتكلفة منخفضة. 

  • تجمع مستودعات بحيرات البيانات بين تخزين البيانات المرن للبحيرة وقدرات التحليلات عالية الأداء للمستودع في حل واحد.

نظرًا لأن هذه الحلول لها ميزات مختلفة وتخدم أغراضًا مختلفة، فإن العديد من بنيات بيانات المؤسسات تستخدم اثنين أو ثلاثة منها في نسيج بيانات شامل:

  • يمكن للمؤسسة استخدام بحيرة البيانات كحل تخزين للأغراض العامة لجميع البيانات الواردة بأي تنسيق.

  • تُرسَل البيانات من البحيرة إلى مستودعات بيانات مخصصة لكل وحدة أعمال، ما يساهم في توجيه عملية اتخاذ القرارات.

تحظى بحيرات البيانات أيضًا بشعبية كمسار تحديث لبنى البيانات الحالية. يمكن للمؤسسات تنفيذ بحيرات بيانات جديدة دون هدم واستبدال بحيراتها ومستودعاتها الحالية، مما يسهل الانتقال إلى حل موحد لتخزين البيانات والتحليلات.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

الخصائص الرئيسية لمستودعات البيانات

يقوم مستودع البيانات بتجميع البيانات من مصادر بيانات متبائنة—قواعد البيانات وتطبيقات الأعمال وموجزات الوسائط الاجتماعية—في مخزن واحد. السمة المميزة لأداة مستودع البيانات هي أنها تنظف وتجهز مجموعات البيانات التي تستوعبها. 

تستخدم مستودعات البيانات نهجًا يسمى "المخطط عند الكتابة"، والذي يطبق مخططًا متسقًا على جميع البيانات أثناء كتابتها للتخزين. يساعد هذا على تحسين البيانات لذكاء الأعمال والتحليلات.

على سبيل المثال، قد يساعد المستودع الخاص ببيانات مبيعات البيع بالتجزئة في ضمان تنسيق التفاصيل مثل التاريخ والمبلغ ورقم المعاملة بشكل صحيح وتعيينها إلى الخلايا الصحيحة في جدول علائقي. 

متجر البيانات هو نوع من مستودعات البيانات التي تحتوي على بيانات خاصة بمجال عمل أو قسم معين بدلًا من مؤسسة بأكملها. على سبيل المثال، قد يكون لفريق التسويق متجر بيانات خاص به، وقد يكون لدى الموارد البشرية واحد، وهكذا. 

بنية مستودع البيانات  

يحتوي مستودع البيانات النموذجي على 3 طبقات:

  • يتم بناء الطبقة الوسطى على محرك تحليلي، مثل نظام المعالجة التحليلية عبر الإنترنت (OLAP) أو محرك يعتمد على SQL. تُمكِّن هذه الطبقة الوسطى المستخدمين من الاستعلام عن مجموعات البيانات وإجراء التحليلات مباشرةً في المستودع. 

  • تتضمن الطبقة العليا واجهات المستخدم وأدوات إعداد التقارير التي تُمكِّن المستخدمين من إجراء تحليلات بيانات مخصصة على بيانات أعمالهم. 

كانت مستودعات البيانات السابقة يتم استضافتها محليًا، ولكن العديد منها الآن يتم استضافتها في السحابة أو تُقدم كخدمات سحابية. النُهج الهجينة شائعة أيضًا. 

نظرًا لأن مستودعات البيانات التقليدية تعتمد على أنظمة قواعد البيانات العلائقية والمخطط الصارم، فهي أكثر فاعلية مع البيانات المنظمة. وقد تطورت بعض المستودعات الحديثة لاستيعاب البيانات شبه المنظمة وغير المنظمة، ولكن العديد من المؤسسات تفضل بحيرات البيانات لهذه الأنواع من البيانات.

حالات استخدام مستودع البيانات

يتم استخدام مستودعات البيانات من قبل محللي الأعمال وعلماء البيانات ومهندسي البيانات لإجراء جهود تحليلية ذاتية الخدمة.  

يؤدي تطبيق مخطط محدد على جميع البيانات إلى تعزيز اتساق البيانات، مما يجعل البيانات أكثر موثوقية وسهولة في العمل بها. نظرًا لأن مستودع البيانات يخزن البيانات في مخطط علاقاتي منظم، فإنه يدعم استعلامات لغة الاستعلام المهيكلة (SQL) عالية الأداء.

يمكن للمؤسسات استخدام أدوات التحليلات والذكاء الاصطناعي المدمجة أو المتصلة لتحليل بيانات المعاملات والبيانات التاريخية، وإنشاء عرض مصور للبيانات وإنشاء لوحات معلومات لدعم اتخاذ القرارات القائمة على البيانات.

التحديات ذات الصلة بمستودعات البيانات

يمكن أن تكون صيانة المستودعات مكلفة. يجب تحويل البيانات قبل تحميلها إلى مستودع، مما يتطلب الوقت والموارد. نظرًا لأن التخزين والحوسبة مرتبطان بإحكام في المستودعات التقليدية، فقد يكون التوسع مكلفًا. إذا لم يتم صيانة البيانات بشكل صحيح، فقد يتأثر أداء الاستعلام. 

نظرًا لأنها قد تواجه صعوبات في التعامل مع مجموعات البيانات غير المنظمة والبيانات شبه المنظمة، فإن مستودعات البيانات ليست مناسبة تمامًا لأحمال تشغيل الذكاء الاصطناعي والتعلم الآلي (ML).

أكاديمية الذكاء الاصطناعي

هل تعد إدارة البيانات هي سر الذكاء الاصطناعي التوليدي؟

استكشف سبب أهمية البيانات عالية الجودة للاستخدام الناجح للذكاء الاصطناعي التوليدي.

الخصائص الرئيسية لبحيرات البيانات

بحيرات البيانات هي حلول تخزين بيانات منخفضة التكلفة مصممة للتعامل مع كميات هائلة من البيانات. تستخدم بحيرات البيانات نهج "المخطط عند القراءة"، مما يعني أنها لا تطبق تنسيقًا قياسيًا على البيانات الواردة. وبدلًا من ذلك، يتم فرض المخططات عندما يصل المستخدمون إلى البيانات من خلال أداة تحليلات أو واجهة أخرى.

بحيرة البيانات تخزّن البيانات بتنسيقها الأصلي. يتيح هذا لبحيرة البيانات تخزين البيانات المنظمة والبيانات غير المنظمة والبيانات شبه المنظمة جميعها في نفس منصة البيانات.  

ظهرت بحيرات البيانات لمساعدة المؤسسات على إدارة تدفق البيانات الكبيرة الناتج عن ظهور الويب 2.0 وازدهار الحوسبة السحابية والمحمولة في أواخر العقد الأول وأوائل العقد الثاني من القرن الحادي والعشرين. وجدت المؤسسات نفسها تواجه كميات هائلة من البيانات أكثر من أي وقت مضى، كثير منها بتنسيقات غير منظمة، مثل النصوص الحرة والصور، والتي لا تستطيع المستودعات التقليدية التعامل معها بسهولة.

بنية بحيرة البيانات 

غالبًا ما كانت بحيرات البيانات الأولى تُبنى على نظام الملفات الموزعة Apache Hadoop (اختصارًا HDFS). تستخدم بحيرات البيانات الحديثة في الغالب تخزين الكائنات السحابي، مثل Amazon Simple Storage Service (S3) أو Microsoft Azure Blob Storage أو IBM Cloud Object Storage.

تقوم بحيرات البيانات بفصل تخزين البيانات عن موارد الحوسبة، مما يجعلها أكثر فعالية من حيث التكلفة وقابلية للتوسع من مستودعات البيانات. يمكن للمؤسسات إضافة زيادة مساحة التخزين دون الحاجة إلى زيادة الموارد إلى جانب ذلك. يدعم التخزين السحابي مزيدًا من قابلية التوسع، حيث يمكن للمؤسسات زيادة مساحة التخزين دون توسيع الموارد المحلية.

لمعالجة البيانات في بحيرة البيانات، يمكن للمستخدمين توصيل أدوات معالجة بيانات خارجية مثل Apache Spark. وعلى عكس مستودع البيانات، لا تكون أدوات المعالجة هذه مدمجة في بحيرة البيانات.

حالات استخدام بحيرة البيانات

تُعد بحيرات البيانات خيارًا شائعًا لتخزين البيانات للأغراض الغامة بسبب تكلفتها المنخفضة وقابليتها للتوسع وقدرتها على تخزين البيانات بأي تنسيق.

تستخدم المؤسسات غالبًا بحيرات البيانات للحفاظ على النسخ الاحتياطي وأرشفة البيانات القديمة وغير المستخدمة. يمكن أيضًا للمؤسسات استخدام البحيرات لتخزين جميع البيانات الجديدة الواردة، بما في ذلك البيانات التي ليس لها غرض محدد. ويمكن أن تبقى البيانات في البحيرة حتى تستخدمها المؤسسة.

وتستخدم المؤسسات أيضًا بحيرات البيانات لتخزين مجموعات البيانات الخاصة بأحمال تشغيل التعلم الآلي والذكاء الاصطناعي وتحليلات البيانات الكبيرة، مثل اكتشاف البيانات وتدريب النماذج ومشاريع التحليلات التجريبية.  

تحديات بحيرة البيانات

نظرًا لأنها لا تفرض مخططًا صارمًا وتفتقر إلى أدوات المعالجة المضمنة، فقد تواجه بحيرات البيانات صعوبات في إدارة البيانات وجودة البيانات. كما أنها أقل ملاءمة لجهود ذكاء الأعمال اليومية وتحليلات البيانات لمستخدمي الأعمال.

تحتاج المؤسسات غالبًا إلى أدوات منفصلة، مثل كتالوج بيانات شامل ونظام لإدارة البيانات الوصفية، لضمان الدقة والجودة. ودون وجود مثل هذه الأدوات، يمكن أن تتحول بحيرات البيانات بسهولة إلى مستنقعات بيانات.

الخصائص الرئيسية لمستودعات بحيرات البيانات

مستودع بحيرة البيانات يدمج الميزات الأساسية لبحيرة البيانات ومستودعات البيانات في حل واحد لإدارة البيانات. 

مثل بحيرة البيانات، يمكن لمستودع بحيرة البيانات تخزين البيانات بأي تنسيق—منظمة أو غير منظمة أو شبه منظمة—بتكلفة منخفضة. 

مثل مستودع البيانات، يدعم مستودع بحيرة البيانات الاستعلام السريع والتحليلات المحسّنة.

بنية مستودع بحيرة البيانات

يجمع مستودع بحيرة البيانات بين التقنيات والأدوات المتباينة سابقًا في حل شامل. تتضمن بنية مستودع بحيرة البيانات النموذجية هذه الطبقات:

طبقة الاستيعاب

تجمع طبقة الاستيعاب البيانات المجمعة والتي يتم بثها في الوقت الحقيقي من مجموعة متنوعة من المصادر. بينما يمكن لمستودعات البحيرات استخدام عمليات الاستخراج والتحويل والتحميل (ETL) لالتقاط البيانات، فإن العديد منها يستخدم الاستخراج والتحميل والتحويل (ELT). يمكن لمستودع البحيرة تحميل بيانات غير منسقة إلى التخزين وتحويلها لاحقا عند الحاجة إليها للتحليل.

طبقة التخزين

عادةً ما تكون طبقة التخزين عبارة عن Cloud Object Storage، كما هو الحال في بحيرة البيانات. 

طبقة البيانات الوصفية

توفر طبقة البيانات الوصفية كتالوجًا موحدًا للبيانات الوصفية لكل عنصر في طبقة التخزين. توفِّر طبقة البيانات الوصفية المساعدة لمستودعات بحيرات البيانات للقيام بالعديد من الأمور التي لا تستطيع بحيرات البيانات تنفيذها: فهرسة البيانات لاستعلامات أسرع، وفرض الهياكل البيانية، وتطبيق الحوكمة وضوابط الجودة.

طبقة واجهة برمجة التطبيقات (API)

تتيح طبقة واجهة برمجة التطبيقات للمستخدمين ربط الأدوات للتحليلات المتقدمة.

طبقة الاستهلاك

تستضيف طبقة الاستهلاك التطبيقات والأدوات الخاصة بالعملاء لذكاء الأعمال، والتعلم الآلي، ومشاريع علم البيانات والتحليلات الأخرى.

وكما هو الحال في بحيرات البيانات، يتم فصل موارد الحوسبة عن التخزين، ما يُتيح قابلية التوسع.

تعتمد بحيرات البيانات بشكل كبير على تقنيات المصدر المفتوح. تمكّن تنسيقات البيانات مثل Apache Parquet و Apache Iceberg المؤسسات من نقل أحمال التشغيل بحرية بين البيئات. تدعم Delta Lake، وهي طبقة تخزين مفتوحة المصدر، الميزات التي تساعد المستخدمين على تشغيل التحليلات على مجموعات بيانات غير منسقة، مثل الإصدارات ومعاملات ACID. "ACID" هو اختصار لمصطلحات الذرية (Atomicity) والاتساق (Consistency) والعزلة (Isolation) والمتانة (Durability)، وهي خصائص أساسية تساعد في ضمان سلامة المعاملات على البيانات.

يمكن للمؤسسات بناء مستودعات بحيرات البيانات الخاصة بها من مكونات منفصلة، أو استخدام العروض الجاهزة مثل Databricks، أو Snowflake، أو IBM watsonx.data.

حالات استخدام مستودع بحيرة البيانات

تساعد مستودعات بحيرات البيانات المؤسسات على تجاوز بعض القيود والتعقيدات المرتبطة بالمستودعات وبحيرات البيانات. 

نظرًا لأن مستودعات البيانات والبحيرات تخدم أغراضًا مختلفة، فإن العديد من المؤسسات تنفذ كليهما في مجموعة البيانات الخاصة بها. ومع ذلك، هذا يعني أن المستخدمين بحاجة إلى الانتقال بين نظامي بيانات متباينين، خاصةً بالنسبة لمشاريع التحليلات الأكثر تقدماً. يمكن أن يؤدي ذلك إلى مهام عمل غير فعالة وبيانات مكررة وتحديات إدارة البيانات ومشاكل أخرى.

ويمكنها أن تساعد أيضًا على تبسيط جهود التحليلات من خلال دعم تكامل البيانات. حيث يمكن تخزين جميع البيانات، بغض النظر عن النوع، في المستودع المركزي نفسه، ما يقلل الحاجة إلى التكرار. ويمكن لمستخدمي الأعمال استخدام مستودعات بحيرات البيانات في مشاريعهم، بما في ذلك ذكاء الأعمال، والتحليلات التنبؤية، والذكاء الاصطناعي، والتعلم الآلي.

يمكن أن تعمل مستودعات بحيرات البيانات أيضا كمسار تحديث لبنى البيانات الحالية. نظرًا لأن بنى مستودعات البحيرات المفتوحة تندمج بسهولة مع البحيرات والمستودعات الحالية، يمكن للمؤسسات البدء في الانتقال إلى حلول متكاملة جديدة دون الحاجة إلى عملية هدم واستبدال مزعجة.

التحديات ذات الصلة بمستودعات بحيرات البيانات

بينما يمكن أن تبسط مستودعات البحيرات العديد من مهام سير عمل البيانات، قد يكون من الصعب إنشاء واحدة وتشغيلها. قد يواجه المستخدمون أيضًا منحنى تعليمي، حيث يمكن أن يختلف استخدام مستودع البحيرة عن المستودعات التي اعتادوا عليها. تعد مستودعات البحيرات أيضًا تقنية جديدة نسبيًا ولا يزال إطار العمل في طور التطور.

كيف تعمل مستودعات البيانات وبحيرات البيانات ومستودعات بحيرات البيانات معًا في بنية البيانات

تخدم مستودعات البيانات وبحيرات البيانات ومستودعات بحيرات البيانات احتياجات الأعمال والبيانات المختلفة. تستخدم العديد من المؤسسات اثنين أو كل هذه الأنظمة الثلاثة معًا لتبسيط مسارات البيانات ودعم الذكاء الاصطناعي والتعلم الآلي والتحليلات.   

على سبيل المثال، فكر في مطبخ تجاري. يتلقى هذا المطبخ كل يوم شحنات من المكونات (البيانات) التي تصل على الشاحنات (قواعد بيانات المعاملات، وتطبيقات الأعمال، وما إلى ذلك).  

تصل جميع المكونات، بغض النظر عن نوعها، إلى رصيف التحميل (بحيرة البيانات). تتم معالجة المكونات وفرزها في ثلاجات ومخازن ومناطق تخزين أخرى (مستودعات البيانات). وهناك، تصبح المكونات جاهزة للاستخدام من قِبل الطهاة دون أي معالجة إضافية.  

هذه العملية فعالة إلى حد ما، ولكنها تكشف بعض التحديات التي تواجه بحيرات البيانات ومستودعات البيانات التقليدية. مثل المكونات الموجودة على قاعدة التحميل، لا يمكن استخدام البيانات الموجودة في بحيرة البيانات دون معالجة إضافية. ومثل المكونات في المطبخ، يجب إعداد البيانات في مستودع البيانات بشكل صحيح وتسليمها إلى المكان الصحيح قبل استخدامها.

مستودع بحيرة البيانات يشبه إلى حد ما الجمع بين رصيف التحميل والمخزن والثلاجة في مكان واحد. بالطبع، قد يكون هذا المزيج غير واقعي في مجال المطابخ التجارية. ومع ذلك، في عالم البيانات المؤسسية، فإنه يمكّن للمؤسسات من الحصول على نفس القيمة من البيانات، مع تقليل تكاليف المعالجة والتكرار وعزل البيانات.

مقارنات سريعة والاختلافات الرئيسية

رسم بياني يقارن الاختلافات الرئيسية بين بحيرات البيانات ومستودعات البيانات ومستودعات بحيرات البيانات.
الاختلافات الرئيسية بين مستودعات البيانات وبحيرات البيانات ومستودعات بحيرات البيانات.

مستودعات البيانات مقابل بحيرات البيانات

  • تقوم مستودعات البيانات بتخزين البيانات التي تم تنظيفها ومعالجتها، بينما تحتوي بحيرة البيانات على بيانات غير منسقة بتنسيقها الأصلي. 

  • تحتوي مستودعات البيانات على محركات تحليلات وأدوات إعداد تقارير مدمجة، بينما تتطلب بحيرات البيانات أدوات خارجية للمعالجة.

  • تتمتع بحيرات البيانات بإمكانيات التخزين أقل تكلفة وأكثر مرونة وقابلية للتوسع. توفر مستودعات البيانات أداءً محسنًا للاستعلامات.

  • تُعد المستودعات هي الأنسب لدعم جهود ذكاء الأعمال وتحليلات البيانات لمستخدمي الأعمال. تُعد بحيرات البيانات هي الأنسب للعمليات التي تتطلب كميات كبيرة من البيانات بتنسيقات بيانات مختلفة، مثل الذكاء الاصطناعي والتعلم الآلي وعلم البيانات. 

  • تدعم المستودعات معاملات ACID. بينما لا تدعمها بحيرات البيانات.

المقارنة بين مستودعات البيانات ومستودعات بحيرات البيانات

  • تتمتع مستودعات البحيرات والمستودعات بقدرات تحليلية واستعلامية متشابهة، ولكن يمكن لمستودعات البحيرات دعم أعباء عمل الذكاء الاصطناعي والتعلم الآلي المعقدة بشكل أفضل من المستودعات.

  • توفر مستودعات البحيرات إمكانيات تخزي أرخص وأكثر مرونة وقابلية للتوسع لجميع أنواع البيانات. بينما تدعم المستودعات بشكل أساسي البيانات المنظمة.

  • تستخدم المستودعات عمليات الاستخراج والتحميل والتحويل (ETL)، بينما يمكن أن تستخدم مستودعات البحيرات الاستخراج والتحميل والتحويل (ETL) أو عمليات الاستخراج والتحميل والتحويل (ELT).

  • يمكن لمستودعات البحيرات التعامل مع البيانات المجمعة والمتدفقة. بينما تعمل المستودعات على البيانات المجمعة.  

المقارنة بين بحيرات البيانات ومستودعات بحيرات البيانات

  • يمكن أن تدعم كل من بحيرات البيانات ومستودعات البحيرات أحجام البيانات الكبيرة وهياكل البيانات المختلفة. يستخدم كلاهما أنظمة تخزين بيانات مماثلة، عادةً ما تكون Cloud Object Storage. 

  • لا تطبق بحيرات البيانات المخططات على البيانات المستوعبة. بينما تحتوي مستودعات بحيرات البيانات على خيار تطبيق المخططات.

  • تستطيع كل من بحيرات البيانات ومستودعات بحيرات البيانات دعم أعباء العمل الخاصة بالذكاء الاصطناعي والتعلم الآلي، إلا أن مستودعات بحيرات البيانات توفر دعمًا أفضل لجهود ذكاء الأعمال وتحليلات البيانات مقارنةً ببحيرات البيانات.

  • تحتوي مستودعات البحيرات على أدوات تحليلات مضمنة أو مدمجة بإحكام مع أطر عمل التحليلات. بينما تتطلب بحيرات البيانات أدوات خارجية لمعالجة البيانات.  

  • تتمتع مستودعات البحيرات بضوابط أقوى لإدارة البيانات، وسلامتها، وجودتها مقارنةً ببحيرات البيانات.  

  • تدعم مستودعات بحيرات البيانات معاملات ACID؛ بينما لا تدعمها بحيرات البيانات.

  • غالبًا ما يتم إنشاء بحيرات البيانات لمعالجة البيانات المجمعة وقد لا تدعم البيانات المتدفقة. بينما يمكن أن تدعم مستودعات البحيرات البيانات المجمعة والبيانات المتدفقة.

حلول ذات صلة
برمجيات وحلول إدارة البيانات

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

استكشف حلول إدارة البيانات
IBM watsonx.data

يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.

اكتشف watsonx.data
خدمات الاستشارات في مجال البيانات والتحليلات

استفِد من قيمة بيانات المؤسسة باستخدام IBM Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.

اكتشف خدمات التحليلات
اتخِذ الخطوة التالية

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

استكشف حلول إدارة البيانات اكتشف watsonx.data