ما المقصود بمستودع البيانات؟

صورة لكوخ على بحيرة زرقاء مع الأشجار

المؤلفون

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

ما المقصود بمستودع البيانات؟

مستودع بحيرة البيانات هو منصة بيانات تجمع بين تخزين البيانات المرن في بحيرات البيانات وقدرات التحليل عالية الأداء لمستودعات البيانات.
 

عادةً ما يتم استخدام بحيرات البيانات ومستودعات البيانات معًا. تعمل بحيرات البيانات كنظام شامل للبيانات الجديدة، وتطبِّق مستودعات البيانات البنية النهائية على البيانات.

ومع ذلك، فإن تنسيق هذه الأنظمة لتوفير بيانات موثوق بها يمكن أن يكون مكلفًا من حيث الوقت والموارد. تؤدي أوقات المعالجة الطويلة إلى تقادم البيانات، وتزيد الطبقات الإضافية من تقنية الاستخراج والتحويل والتحميل (ETL) من مخاطر جودة البيانات

تعوِّض بحيرات البيانات المدمجة عن عيوب مستودعات البيانات وبحيرات البيانات من خلال قدرات تُشكِّل نظام إدارة بيانات أفضل. فهي تجمع بين هياكل البيانات في مستودعات البيانات مع التخزين منخفض التكلفة ومرونة بحيرات البيانات.

تمكِّن بحيرات البيانات المدمجة فرق البيانات من توحيد أنظمتها المختلفة، ما يساعد على تسريع معالجة البيانات من أجل إجراء المزيد من التحليلات المتقدمة مثل التعلم الآلي (ML)، وتسهيل الوصول إلى البيانات الكبيرة، وتحسين جودة البيانات .

ظهور مستودعات بحيرات البيانات

يهدف وجود مستودعات بحيرات البيانات إلى معالجة مشاكل مستودعات البيانات وبحيرات البيانات والجمع بين مزاياهما ضمن منظومة بيانات واحدة.

على سبيل المثال، تُعَد مستودعات البيانات أكثر كفاءة من بحيرات البيانات، سواء في تخزين بيانات المؤسسات أو تحويلها. ومع ذلك، يتطلب تخزين البيانات في مستودعات البيانات اتباع مخططات صارمة (غالبًا مخطط النجمة أو مخطط كتلة الثلج). 

لذلك، لا تعمل مستودعات البيانات بشكل جيد مع البيانات غير المنظمة أو شبه المنظمة، والتي تُعد بالغة الأهمية لحالات استخدام الذكاء الاصطناعي والتعلم الآلي. كما أن إمكانات توسيع النطاق بها محدودة.

من ناحية أخرى، تُتيح بحيرات البيانات للمؤسسات تجميع جميع أنواع البيانات—البيانات المنظمة، وغير المنظمة، وشبه المنظمة—من مصادر متعددة وفي مكان واحد. وتُتيح إمكانية تخزين البيانات بشكل أكثر قابلية للتوسع وأقل تكلفة، لكنها لا تتضمن أدوات مدمجة لمعالجة البيانات.

تجمع مستودعات بحيرات البيانات بين خصائص مستودعات البيانات وبحيرات البيانات. فهي تستخدِم التخزين السحابي للكائنات لتخزين البيانات بمختلف تنسيقاتها وبتكلفة منخفضة. وبالإضافة إلى ذلك التخزين السحابي، توجد بنية تحتية للتحليلات على غرار المستودعات تدعم الاستعلامات فائقة الأداء، والتحليلات شبه الفورية، وجهود ذكاء الأعمال (BI).

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

المقارنة بين مستودعات البيانات وبحيرات البيانات ومستودعات بحيرات البيانات

تُعَد مستودعات البيانات، وبحيرات البيانات، ومستودعات بحيرات البيانات جميعها مستودعات للبيانات، لكنها تختلف في جوانب أساسية. وغالبًا ما يتم استخدامها معًا لدعم بنية بيانات متكاملة لمجموعة متنوعة من حالات الاستخدام.

مستودع البيانات

يجمع مستودع البيانات البيانات غير المنسقة من مصادر متعددة في مستودع مركزي، وينظمها ضمن بنية قاعدة بيانات علائقية . يدعم نظام إدارة البيانات هذا بشكل أساسي تحليلات البيانات وتطبيقات ذكاء الأعمال، مثل إعداد تقارير المؤسسات.

يستخدم هذا النظام عمليات ETL لاستخراج البيانات وتحويلها وتحميلها إلى وجهتها. ومع ذلك، فهو محدود من حيث الكفاءة والتكلفة، خاصةً مع تزايد عدد مصادر البيانات وحجمها.

على الرغم من أن مستودعات البيانات عادةً ما كانت تُستضاف في البيئات المحلية على أجهزة الكمبيوتر المركزي، فإن العديد من مستودعات البيانات اليوم أصبحت تُستضاف على السحابة وتُقدم كخدمات سحابية.

بحيرة البيانات

في البداية، تم بناء بحيرات البيانات على منصات البيانات الكبيرة مثل Apache Hadoop. ولكن جوهر بحيرات البيانات الحديثة هو خدمة تخزين الكائنات السحابية، والتي تُتيح لها تخزين جميع أنواع البيانات. تشمل الخدمات الشائعة كلًا من Amazon Simple Storage Service ‏(Amazon S3) وMicrosoft Azure Blob Storage وGoogle Cloud Storage وIBM Cloud Object Storage. 

نظرًا لأن المؤسسات تُنتج في الغالب بيانات غير منظمة، تُعَد هذه القدرة التخزينية فارقًا مهمًا. وهي تُتيح المزيد من مشاريع علم البيانات والذكاء الاصطناعي(AI) - ما يؤدي بدوره إلى المزيد من الأفكار الجديدة واتخاذ قرارات أفضل في جميع أنحاء المؤسسة. 

ومع ذلك، قد يتطلب حجم بحيرات البيانات وتعقيدها خبرة مستخدمين أكثر تخصصًا، مثل علماء البيانات ومهندسي البيانات. وبما أن حوكمة البيانات تحدث في مجرى هذه الأنظمة، فإن بحيرات البيانات قد تكون عرضة لصوامع البيانات، ثم تتطور بعد ذلك إلى مستنقعات بيانات (حيث لا يمكن الوصول إلى البيانات الجيدة؛ بسبب سوء الإدارة).

مستودع بحيرة البيانات

يمكن لمستودعات بحيرات البيانات حل التحديات الأساسية في كلٍّ من مستودعات البيانات وبحيرات البيانات لتقديم حل مثالي لإدارة البيانات للمؤسسات. فهي تستفيد من التخزين السحابي للكائنات للتخزين السريع ومنخفض التكلفة عبر مجموعة واسعة من أنواع البيانات، مع توفير قدرات تحليلية عالية الأداء أيضًا. يمكن للمؤسسات استخدام مستودعات بحيرات البيانات جنبًا إلى جنب مع بحيرات البيانات ومستودعات البيانات الموجودة لديها دون الحاجة إلى تفكيك وإعادة بناء كاملة.

فوائد مستودع بحيرة البيانات

توفِّر مستودعات بحيرات البيانات العديد من الفوائد الرئيسية للمستخدمين، ويمكنها المساعدة على:

  • تقليل تكرار البيانات
  • تكاليف أقل
  • دعم مجموعة متنوعة من أعباء العمل
  • تحسين حوكمة البيانات
  • تحسين قابلية التوسع
  • تمكين البث في الوقت الفعلي

تقليل تكرار البيانات

يؤدي نظام تخزين البيانات الفردي إلى إنشاء منصة مبسطة لتلبية جميع متطلبات بيانات الأعمال، ما يقلل من تكرار البيانات. كما تعمل مستودعات بحيرات البيانات أيضًا على تبسيط إمكانية ملاحظة البيانات بشكل شامل عن طريق تقليل كمية البيانات التي تنتقل عبر مسارات البيانات إلى أنظمة مختلفة.

تقليل التكاليف

تستفيد مستودعات بحيرات البيانات من التكاليف المنخفضة لتخزين الكائنات السحابية، وبالتالي فهي أكثر فاعلية من حيث التكلفة من مستودعات البيانات. بالإضافة إلى ذلك، فإن البنية الهجينة لمستودع بحيرة البيانات تعمل على التخلص من الحاجة إلى صيانة أنظمة تخزين بيانات متعددة، ما يجعل تشغيلها أقل تكلفة.

دعم مجموعة متنوعة من أعباء العمل

يمكن لمستودعات بحيرات البيانات معالجة حالات استخدام مختلفة عبر دورة حياة إدارة البيانات. كما أنها تدعم كلًا من سير عمل ذكاء الأعمال والعروض المصورة القائمة على البيانات أو سير عمل علوم البيانات الأكثر تعقيدًا.

تحسين حوكمة البيانات

تعمل بنية مستودع بحيرة البيانات على التخفيف من مشكلات حوكمة بحيرات البيانات. على سبيل المثال، أثناء استيعاب البيانات وتحميلها، يمكن لمستودع بحيرة البيانات ضمان تلبية متطلبات المخطط المحددة، ما يقلل من مشكلات جودة البيانات النهائية.

تحسين قابلية التوسع

في مستودعات البيانات التقليدية، يتم ربط الحوسبة والتخزين. تفصل مستودعات بحيرة البيانات بين التخزين والحوسبة، ويُتيح ذلك لفرق البيانات الوصول إلى التخزين نفسه مع استخدام عُقَد حوسبة مختلفة لتطبيقات مختلفة. ويؤدي هذا الفصل إلى مزيد من قابلية التوسع والمرونة.

تمكين البث في الوقت الفعلي

تم إنشاء مستودع بحيرة البيانات خصيصًا للأعمال والتكنولوجيا الحالية. تحتوي العديد من مصادر البيانات على بيانات متدفقة في الوقت الفعلي من الأجهزة، مثل أجهزة إنترنت الأشياء. يدعم نظام مستودع بحيرة البيانات هذه المصادر من خلال استيعاب البيانات في الوقت الفعلي.

أكاديمية الذكاء الاصطناعي

هل تعد إدارة البيانات هي سر الذكاء الاصطناعي التوليدي؟

استكشف سبب أهمية البيانات عالية الجودة للاستخدام الناجح للذكاء الاصطناعي التوليدي.

ما المقصود بتنسيق Delta Lake؟

تم تطوير Delta Lake بواسطة Databricks في عام 2016، وهو تنسيق تخزين بيانات مفتوح المصدر يجمع بين ملفات بيانات Apache Parquet مع سجل بيانات وصفية قوي. يضيف هذا التنسيق وظائف إدارة البيانات الرئيسية إلى بحيرات البيانات، مثل فرض المخطط والسفر عبر الزمن ومعاملات ACID. (يرمز الاختصار ACID إلى "الذَرية والاتساق والعزلة والمتانة" ، وهي خصائص رئيسية تحدِّد المعاملة لضمان سلامة البيانات).

تساعد هذه الوظائف على جعل بحيرات البيانات أكثر موثوقية وبديهية. كما أنها تسمح للمستخدمين بتشغيل استعلامات لغة الاستعلام المنظمة (SQL) وأعباء العمل التحليلية والأنشطة الأخرى على بحيرة البيانات، ما يساعد على تبسيط ذكاء الأعمال وذكاء البيانات (DI) والذكاء الاصطناعي والتعلم الآلي.

تم إطلاق Delta Lake كبيئة مفتوحة المصدر في عام 2019. منذ ذلك الحين، تُبنى بحيرات البيانات عادةً عبر إنشاء طبقة تخزين Delta Lake فوق بحيرة البيانات، ثم دمجها مع محرك معالجة بيانات مثل Apache Spark أو Hive

وغالبًا ما يُشار إلى مستودعات بحيرات البيانات مفتوحة المصدر باسم مستودعات بحيرات البيانات المفتوحة. تتضمن تنسيقات الجداول المفتوحة الأخرى Apache Iceberg (تنسيق عالي الأداء للجداول التحليلية الضخمة) وApache Hudi (مصمم لمعالجة البيانات المتزايدة).

ممر مركز البيانات

مستودع البيانات الهجين المفتوح للذكاء الاصطناعي

تمكَّن من تبسيط الوصول إلى البيانات وأتمتة إدارة البيانات. اكتشف قوة دمج استراتيجية مستودع بحيرة البيانات في بنية بياناتك، بما في ذلك تحسين التكاليف لأعباء العمل وتوسيع نطاق الذكاء الاصطناعي والتحليلات لديك، باستخدام جميع بياناتك وفي أي مكان.

طبقات بنية مستودع بحيرة البيانات

تتكون بنية مستودع بحيرة البيانات عادةً من خمس طبقات:

  • طبقة الاستيعاب
  • طبقة التخزين
  • طبقة البيانات الوصفية
  • طبقة واجهة برمجة التطبيق (API)
  • طبقة الاستهلاك

طبقة الاستيعاب

تجمع هذه الطبقة الأولى البيانات من مجموعة من المصادر وتحوِّلها إلى تنسيق بيانات يمكن لمستودع البحيرة تخزينه وتحليله. يمكن لطبقة الاستيعاب استخدام البروتوكولات للاتصال بالمصادر الداخلية والخارجية مثل أنظمة إدارة قواعد البيانات وقواعد بيانات NoSQL ووسائل التواصل الاجتماعي. 

طبقة التخزين

في هذه الطبقة، يتم تخزين مجموعات البيانات المنظمة وغير المنظمة وشبه المنظمة في تنسيقات ملفات مفتوحة المصدر، مثل Parquet أو Optimized Row Columnar (ORC). توفِّر هذه الطبقة فائدة رئيسية لمخزن البيانات، وهي قدرتها على قبول جميع أنواع البيانات بتكلفة معقولة.

طبقة البيانات الوصفية

طبقة البيانات الوصفية عبارة عن كتالوج موحد يوفر البيانات الوصفية لكل كائن في تخزين البحيرة، ما يساعد على تنظيم البيانات وتوفير المعلومات حولها في النظام. توفِّر هذه الطبقة أيضًا معاملات ACID والتخزين المؤقت للملفات والفهرسة للحصول على استعلامات أسرع. يمكن للمستخدمين تنفيذ مخططات محددة مسبقًا هنا، ما يُتيح حوكمة البيانات وقدرات التدقيق.

طبقة واجهة برمجة التطبيق (API)

يستخدم مستودع بحيرة البيانات واجهات برمجة التطبيقات (APIs) لزيادة معالجة المهام وإجراء المزيد من التحليلات المتقدمة. وعلى وجه التحديد، تُتيح هذه الطبقة للمستهلكين و/أو المطورين الفرصة لاستخدام مجموعة من اللغات والمكتبات، مثل TensorFlow، على مستوى مجرد. واجهات برمجة التطبيقات هذه محسنة لتناسب استهلاك أصول البيانات.

طبقة استهلاك البيانات

تستضيف الطبقة الأخيرة من بنية مستودع بحيرة البيانات التطبيقات والأدوات، مع إمكانية الوصول إلى جميع البيانات الوصفية والبيانات المخزنة في البحيرة. وهذا بدوره يُتيح إمكانية الوصول إلى البيانات للمستخدمين عبر المؤسسة، والذين يمكنهم استخدام مستودع البحيرة لأداء مهام مثل لوحات معلومات ذكاء الأعمال والعرض المصور للبيانات ومهام التعلم الآلي.

حلول ذات صلة
IBM watsonx.data

استفِد من بياناتك أينما كانت باستخدام مستودع بحيرة البيانات الهجين المفتوح للذكاء الاصطناعي والتحليلات.

اكتشف watsonx.data
حلول بحيرة البيانات

تغلب على تحديات البيانات الحالية باستخدام بنية مستودع بحيرة بيانات؛ لتتمكن من الاتصال بالبيانات في دقائق، والحصول بسرعة على رؤى موثوقة وتقليل تكاليف مستودع البيانات لديك.

استكشف حلول بحيرة البيانات من IBM
خدمات الاستشارات في مجال البيانات والتحليلات

استفِد من قيمة بيانات المؤسسة مع IBM Consulting لبناء مؤسسة تعتمد على الرؤى لتحقيق ميزة تنافسية في الأعمال.

اكتشف خدمات التحليلات