ما المقصود بمستودع البيانات؟

15 مايو 2025

المؤلفون

Alexandra Jonker

Editorial Content Lead

Alice Gomstyn

IBM Content Contributor

ما المقصود بمستودع البيانات؟

مستودع بحيرة البيانات هو منصة بيانات تجمع بين تخزين البيانات المرن في بحيرات البيانات وقدرات التحليل عالية الأداء لمستودعات البيانات.
 

عادةً ما يتم استخدام بحيرات البيانات ومستودعات البيانات معًا. تعمل بحيرات البيانات كنظام شامل للبيانات الجديدة، وتطبِّق مستودعات البيانات البنية النهائية على البيانات.

ومع ذلك، فإن تنسيق هذه الأنظمة لتوفير بيانات موثوق بها يمكن أن يكون مكلفًا من حيث الوقت والموارد. تؤدي أوقات المعالجة الطويلة إلى تقادم البيانات، وتزيد الطبقات الإضافية من تقنية الاستخراج والتحويل والتحميل (ETL) من مخاطر جودة البيانات

تعوِّض بحيرات البيانات المدمجة عن عيوب مستودعات البيانات وبحيرات البيانات من خلال قدرات تُشكِّل نظام إدارة بيانات أفضل. فهي تجمع بين هياكل البيانات في مستودعات البيانات مع التخزين منخفض التكلفة ومرونة بحيرات البيانات.

تمكِّن بحيرات البيانات المدمجة فرق البيانات من توحيد أنظمتها المختلفة، ما يساعد على تسريع معالجة البيانات من أجل إجراء المزيد من التحليلات المتقدمة مثل التعلم الآلي (ML)، وتسهيل الوصول إلى البيانات الكبيرة، وتحسين جودة البيانات .

ظهور مستودعات بحيرات البيانات

يهدف وجود مستودعات بحيرات البيانات إلى حل تحديات مستودعات البيانات وبحيرات البيانات وجمع فوائدهما ضمن بنية بيانات واحدة.

على سبيل المثال، تُعَد مستودعات البيانات أكثر كفاءة من بحيرات البيانات في تخزين بيانات المؤسسات وتحويلها. ومع ذلك، يتطلب تخزين البيانات في مستودعات البيانات اتباع مخططات صارمة (غالبًا مخطط النجمة أو مخطط ندفة الثلج). 

لذلك، لا تعمل مستودعات البيانات بشكل جيد مع البيانات غير المنظمة أو شبه المنظمة، والتي تعتبر بالغة الأهمية لحالات استخدام الذكاء الاصطناعي والتعلم الآلي. وقدرتها على توسيع النطاق محدودة أيضًا.

من ناحية أخرى، تُتيح بحيرات البيانات للمؤسسات تجميع جميع أنواع البيانات -البيانات المنظمة، وغير المنظمة، وشبه المنظمة- من مصادر متعددة وفي مكان واحد. وتُتيح بحيرات البيانات تخزينًا أكثر قابليةً للتوسع وأقل تكلفة، لكنها لا تتضمن أدوات مدمجة لمعالجة البيانات.

تجمع مستودعات بحيرات البيانات بين خصائص مستودعات البيانات وبحيرات البيانات. فهي تستخدِم التخزين السحابي للكائنات لتخزين البيانات بأي صيغة وبتكلفة منخفضة. وبالإضافة إلى ذلك التخزين السحابي، توجد بنية تحليلية بأسلوب المستودعات تدعم الاستعلامات عالية الأداء، والتحليلات في الوقت شبه الفعلي، وجهود ذكاء الأعمال (BI).

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

المقارنة بين مستودعات البيانات وبحيرات البيانات ومستودعات بحيرات البيانات

تُعَد مستودعات البيانات، وبحيرات البيانات، ومستودعات بحيرات البيانات جميعها مستودعات للبيانات، لكنها تختلف في جوانب أساسية. وغالبًا ما يتم استخدامها معًا لدعم بنية بيانات متكاملة لمجموعة متنوعة من حالات الاستخدام.

مستودع البيانات

يجمع مستودع البيانات البيانات غير المنسقة من مصادر متعددة في مستودع مركزي، وينظمها ضمن بنية قاعدة بيانات علائقية. يدعم نظام إدارة البيانات هذا بشكل أساسي تحليلات البيانات وتطبيقات ذكاء الأعمال، مثل إعداد تقارير المؤسسات.

يستخدم النظام عمليات ETL لاستخراج البيانات وتحويلها وتحميلها إلى وجهتها. ومع ذلك، فهو محدود من حيث الكفاءة والتكلفة، خاصةً مع تزايد عدد مصادر البيانات وحجمها.

على الرغم من أن مستودعات البيانات كانت تتم استضافتها تقليديًا في البيئات المحلية على الكمبيوتر المركزي، إلا أن العديد من مستودعات البيانات اليوم تتم استضافتها في السحابة ويتم تقديمها كخدمات سحابية.

بحيرة البيانات

في البداية، تم بناء بحيرات البيانات على منصات البيانات الكبيرة مثل Apache Hadoop. ولكن جوهر بحيرات البيانات الحديثة هو خدمة تخزين الكائنات السحابية، والتي تُتيح لها تخزين جميع أنواع البيانات. تشمل الخدمات الشائعة كلًا من Amazon Simple Storage Service ‏(Amazon S3) وMicrosoft Azure Blob Storage وGoogle Cloud Storage وIBM Cloud Object Storage. 

نظرًا لأن المؤسسات تُنتج في الغالب بيانات غير منظمة، تُعَد هذه القدرة التخزينية فارقًا مهمًا. وهي تُتيح المزيد من مشاريع علم البيانات والذكاء الاصطناعي(AI) - ما يؤدي بدوره إلى المزيد من الأفكار الجديدة واتخاذ قرارات أفضل في جميع أنحاء المؤسسة. 

ومع ذلك، قد يتطلب حجم بحيرات البيانات وتعقيدها خبرة مستخدمين أكثر تخصصًا، مثل علماء البيانات ومهندسي البيانات. وبما أن حوكمة البيانات تحدث في مجرى هذه الأنظمة، فإن بحيرات البيانات قد تكون عرضة لصوامع البيانات، ثم تتطور بعد ذلك إلى مستنقعات بيانات (حيث لا يمكن الوصول إلى البيانات الجيدة؛ بسبب سوء الإدارة).

مستودع بحيرة البيانات

يمكن لمستودعات بحيرات البيانات حل التحديات الأساسية في كلٍّ من مستودعات البيانات وبحيرات البيانات لتقديم حل مثالي لإدارة البيانات للمؤسسات. فهي تستفيد من التخزين السحابي للكائنات للتخزين السريع ومنخفض التكلفة عبر مجموعة واسعة من أنواع البيانات، مع توفير قدرات تحليلية عالية الأداء أيضًا. يمكن للمؤسسات استخدام مستودعات بحيرات البيانات جنبًا إلى جنب مع بحيرات البيانات ومستودعات البيانات الموجودة لديها دون الحاجة إلى تفكيك وإعادة بناء كاملة.

فوائد مستودع بحيرة البيانات

توفِّر مستودعات بحيرات البيانات العديد من الفوائد الرئيسية للمستخدمين، ويمكنها المساعدة على:

  • تقليل تكرار البيانات
  • تكاليف أقل
  • دعم مجموعة متنوعة من أعباء العمل
  • تحسين حوكمة البيانات
  • تحسين قابلية التوسع
  • تمكين البث في الوقت الفعلي

تقليل تكرار البيانات

يؤدي نظام تخزين البيانات الفردي إلى إنشاء منصة مبسطة لتلبية جميع متطلبات بيانات الأعمال، ما يقلل من تكرار البيانات. كما تعمل مستودعات بحيرات البيانات أيضًا على تبسيط إمكانية ملاحظة البيانات بشكل شامل عن طريق تقليل كمية البيانات التي تنتقل عبر مسارات البيانات إلى أنظمة مختلفة.

تقليل التكاليف

تستفيد مستودعات بحيرات البيانات من التكاليف المنخفضة لتخزين الكائنات السحابية، وبالتالي فهي أكثر فاعلية من حيث التكلفة من مستودعات البيانات. بالإضافة إلى ذلك، فإن البنية الهجينة لمستودع بحيرة البيانات تعمل على التخلص من الحاجة إلى صيانة أنظمة تخزين بيانات متعددة، ما يجعل تشغيلها أقل تكلفة.

دعم مجموعة متنوعة من أعباء العمل

يمكن لمستودعات بحيرات البيانات معالجة حالات استخدام مختلفة عبر دورة حياة إدارة البيانات. كما أنها تدعم كلًا من سير عمل ذكاء الأعمال والعروض المصورة القائمة على البيانات أو سير عمل علوم البيانات الأكثر تعقيدًا.

تحسين حوكمة البيانات

تعمل بنية مستودع بحيرة البيانات على التخفيف من مشكلات حوكمة بحيرات البيانات. على سبيل المثال، أثناء استيعاب البيانات وتحميلها، يمكن لمستودع بحيرة البيانات ضمان تلبية متطلبات المخطط المحددة، ما يقلل من مشكلات جودة البيانات النهائية.

تحسين قابلية التوسع

في مستودعات البيانات التقليدية، يتم ربط الحوسبة والتخزين. تفصل مستودعات بحيرة البيانات بين التخزين والحوسبة، ويُتيح ذلك لفرق البيانات الوصول إلى التخزين نفسه مع استخدام عُقَد حوسبة مختلفة لتطبيقات مختلفة. ويؤدي هذا الفصل إلى مزيد من قابلية التوسع والمرونة.

تمكين البث في الوقت الفعلي

تم إنشاء مستودع بحيرة البيانات خصيصًا للأعمال والتكنولوجيا الحالية. تحتوي العديد من مصادر البيانات على بيانات متدفقة في الوقت الفعلي من الأجهزة، مثل أجهزة إنترنت الأشياء. يدعم نظام مستودع بحيرة البيانات هذه المصادر من خلال استيعاب البيانات في الوقت الفعلي.

أكاديمية الذكاء الاصطناعي

هل تعد إدارة البيانات هي سر الذكاء الاصطناعي التوليدي؟

استكشف سبب أهمية البيانات عالية الجودة للاستخدام الناجح للذكاء الاصطناعي التوليدي.

ما المقصود بتنسيق Delta Lake؟

تم تطوير Delta Lake بواسطة Databricks في عام 2016، وهو تنسيق تخزين بيانات مفتوح المصدر يجمع بين ملفات بيانات Apache Parquet مع سجل بيانات وصفية قوي. يضيف هذا التنسيق وظائف إدارة البيانات الرئيسية إلى بحيرات البيانات، مثل فرض المخطط والسفر عبر الزمن ومعاملات ACID. (يرمز الاختصار ACID إلى "الذَرية والاتساق والعزلة والمتانة" ، وهي خصائص رئيسية تحدِّد المعاملة لضمان سلامة البيانات).

تساعد هذه الوظائف على جعل بحيرات البيانات أكثر موثوقية وبديهية. كما أنها تسمح للمستخدمين بتشغيل استعلامات لغة الاستعلام المنظمة (SQL) وأعباء العمل التحليلية والأنشطة الأخرى على بحيرة البيانات، ما يساعد على تبسيط ذكاء الأعمال وذكاء البيانات (DI) والذكاء الاصطناعي والتعلم الآلي.

تم إطلاق Delta Lake كبيئة مفتوحة المصدر في عام 2019. منذ ذلك الحين، تُبنى بحيرات البيانات عادةً عبر إنشاء طبقة تخزين Delta Lake فوق بحيرة البيانات، ثم دمجها مع محرك معالجة بيانات مثل Apache Spark أو Hive

وغالبًا ما يُشار إلى مستودعات بحيرات البيانات مفتوحة المصدر باسم مستودعات بحيرات البيانات المفتوحة. تتضمن تنسيقات الجداول المفتوحة الأخرى Apache Iceberg (تنسيق عالي الأداء للجداول التحليلية الضخمة) وApache Hudi (مصمم لمعالجة البيانات المتزايدة).

ممر مركز البيانات

مستودع البيانات الهجين المفتوح للذكاء الاصطناعي

تمكَّن من تبسيط الوصول إلى البيانات وأتمتة إدارة البيانات. اكتشف قوة دمج استراتيجية مستودع بحيرة البيانات في بنية بياناتك، بما في ذلك تحسين التكاليف لأعباء العمل وتوسيع نطاق الذكاء الاصطناعي والتحليلات لديك، باستخدام جميع بياناتك وفي أي مكان.

طبقات بنية مستودع بحيرة البيانات

تتكون بنية مستودع بحيرة البيانات عادةً من خمس طبقات:

  • طبقة الاستيعاب
  • طبقة التخزين
  • طبقة البيانات الوصفية
  • طبقة واجهة برمجة التطبيق (API)
  • طبقة الاستهلاك

طبقة الاستيعاب

تجمع هذه الطبقة الأولى البيانات من مجموعة من المصادر وتحوِّلها إلى تنسيق بيانات يمكن لمستودع البحيرة تخزينه وتحليله. يمكن لطبقة الاستيعاب استخدام البروتوكولات للاتصال بالمصادر الداخلية والخارجية مثل أنظمة إدارة قواعد البيانات وقواعد بيانات NoSQL ووسائل التواصل الاجتماعي. 

طبقة التخزين

في هذه الطبقة، يتم تخزين مجموعات البيانات المنظمة وغير المنظمة وشبه المنظمة في تنسيقات ملفات مفتوحة المصدر، مثل Parquet أو Optimized Row Columnar (ORC). توفِّر هذه الطبقة فائدة رئيسية لمخزن البيانات، وهي قدرتها على قبول جميع أنواع البيانات بتكلفة معقولة.

طبقة البيانات الوصفية

طبقة البيانات الوصفية عبارة عن كتالوج موحد يوفر البيانات الوصفية لكل كائن في تخزين البحيرة، ما يساعد على تنظيم البيانات وتوفير المعلومات حولها في النظام. توفِّر هذه الطبقة أيضًا معاملات ACID والتخزين المؤقت للملفات والفهرسة للحصول على استعلامات أسرع. يمكن للمستخدمين تنفيذ مخططات محددة مسبقًا هنا، ما يُتيح حوكمة البيانات وقدرات التدقيق.

طبقة واجهة برمجة التطبيق (API)

يستخدم مستودع بحيرة البيانات واجهات برمجة التطبيقات(APIs) لزيادة معالجة المهام وإجراء المزيد من التحليلات المتقدمة. على وجه التحديد، تُتيح هذه الطبقة للمستهلكين و/أو المطورين الفرصة لاستخدام مجموعة من اللغات والمكتبات، مثل TensorFlow، على مستوى مجرد. تم تحسين واجهات برمجة التطبيقات (APIs) لاستهلاك أصول البيانات.

طبقة استهلاك البيانات

تستضيف الطبقة الأخيرة من بنية مستودع بحيرة البيانات التطبيقات والأدوات، مع إمكانية الوصول إلى جميع البيانات الوصفية والبيانات المخزنة في البحيرة. يُتيح هذا للمستخدمين الوصول إلى البيانات عبر المؤسسة، والذين يمكنهم استخدام مستودع البحيرة لأداء مهام مثل لوحات معلومات ذكاء الأعمال والعروض المصورة للبيانات ومهام التعلم الآلي.

حلول ذات صلة
IBM watsonx.data

استفِد من بياناتك أينما كانت باستخدام مستودع بحيرة البيانات الهجين المفتوح للذكاء الاصطناعي والتحليلات.

اكتشف watsonx.data
حلول بحيرة البيانات

تغلب على تحديات البيانات الحالية باستخدام بنية مستودع بحيرة بيانات؛ لتتمكن من الاتصال بالبيانات في دقائق، والحصول بسرعة على رؤى موثوقة وتقليل تكاليف مستودع البيانات لديك.

استكشف حلول بحيرة البيانات من IBM
خدمات الاستشارات في مجال البيانات والتحليلات

استفِد من قيمة بيانات المؤسسة مع IBM Consulting لبناء مؤسسة تعتمد على الرؤى لتحقيق ميزة تنافسية في الأعمال.

اكتشف خدمات التحليلات