رسم توضيحي لمخطط انسيابي يضم أشكالاً ورموزًا مختلفة، من بينها فقاعة محادثة زرقاء وعلامة استفهام وعلامة صح
لمحة عامة

مستودع بحيرة البيانات هو منصة بيانات تجمع بين أفضل مزايا مستودعات البيانات وبحيرات البيانات في حل موحد لإدارة البيانات.

تستند بنية مستودع بحيرة البيانات وبنية الحوكمة من IBM لبيئات السحابة الهجينة إلى منصة watsonx.data. تُمكّن هذه المنصة المؤسسات من توسيع نطاق التحليلات والذكاء الاصطناعي، ما يوفر مخزن بيانات فائقًا مبنيًا على بنية مخزن بيانات مفتوحة. تجمع هذه البنية بين سمات الأداء وسهولة الاستخدام في مستودع البيانات والمرونة وقابلية التوسع في بحيرة البيانات، ما يوفر حلاً متوازنًا لمهام إدارة البيانات والتحليلات.

عملية النشر

تُقدَّم منصة watsonx.data في صورة عرض برمجيات كخدمة (SaaS) وحل محلي. بالنسبة للعملاء في المناطق الجغرافية التي لا يتوفر فيها عرض SaaS، أو الذين يحتاجون إلى بقاء منصة مستودع بحيرة البيانات في أماكن العمل بسبب قيود تنظيمية أو غيرها، توفر IBM خيارات نشر مرنة لتمكين القدرات في أي مكان:

  1. توفير watsonx.data SaaS على IBM Cloud أو AWS.
  2. قم بنشر watsonx.data كحل مستقل على منصة OpenShift محليًا أو على منصات التحجيم الفائق المدارة باستخدام OpenShift.
  3. قم بنشر watsonx.data كجزء من مجموعة IBM CloudPak for Data (CP4D).
مخطط يُظهر سير عمل نشر watsonx.data كجزء من مجموعة IBM CloudPak for Data (CP4D)
بنية مستودع بحيرة بيانات تتيح استخدام محركات استعلام متعددة مناسبة لكل غرض، مع إمكانية الوصول المتزامن إلى نفس البيانات عبر جميع المحركات.
  • مصادر البيانات - تشمل البيانات المنظمة من قواعد البيانات والتطبيقات، بالإضافة إلى البيانات غير المنظمة من الملفات ووسائل التواصل الاجتماعي وأجهزة إنترنت الأشياء، فضلاً عن مستودعات بيانات المؤسسات ومخازن البيانات غير المنظمة الأخرى، سواء من تطبيقات العملاء المحلية أو من خدمات SaaS.

  • تطبيقات العميل - قد يكون لدى العملاء تطبيقات محلية أو قائمة على SaaS مع مخازن بياناتهم الخاصة (سواء المنظمة أو غير المنظمة)، والتي قد لا تكون بياناتها موجودة في بحيرة البيانات. قد يرغب العملاء في إحضار هذه البيانات إلى مستودع بحيرة البيانات لتسهيل الاستعلام عنها.

  • مستودع بحيرة البيانات - watsonx.data هي بنية الجيل التالي من مخازن البيانات، حيث تحقق التوازن بين قدرات مستودعات البيانات وبحيرات البيانات. يمثل هذا النهج حجر الأساس لاستراتيجية IBM الخاصة بمستودع بحيرة البيانات، مما يسهل توسيع نطاق أحمال تشغيل الذكاء الاصطناعي والتعلم الآلي (ML) مع ضمان كفاءة إدارة البيانات.
     

  • منصة GenAI - يمكن توصيل مستودع بحيرة البيانات اختياريًا بمنصة GenAI لتعزيز الاستعلامات باستخدام النماذج اللغوية الكبيرة (LLMs). يمكن للمستخدمين إدخال موجِّه، ليتم إرساله إلى نموذج LLM مضبوط بدقة لإنشاء استعلامات استرجاع يمكن تنفيذها بواسطة المحركات المدعومة في مستودع بحيرة البيانات.

أنماط مستودع بحيرة البيانات

نمط مستودع بحيرة البيانات 1: محركات استعلام متعددة مناسبة للغرض

استخدام الحوسبة الملائمة لتحسين التكلفة عبر اختيار المحرك المناسب لكل نوع من أحمال التشغيل، مع مشاركة البيانات والبيانات الوصفية بين جميع المحركات في نفس الوقت، والاستفادة من مخزن التعريف المشترك (مثل كتالوج البيانات) والبيئة الموحدة.

مخطط سير عمل محركات استعلام متعددة مخصصة لأغراض محددة
بنية مستودع بحيرة بيانات تتيح استخدام محركات استعلام متعددة لتحسين التكلفة والأداء.

نمط مستودع بحيرة البيانات 2: منصة موحدة لجميع بياناتك

يتيح مستودع بحيرة البيانات نهجًا حديثًا لبنى البيانات، حيث قامت المؤسسات على مدى السنوات ببناء العديد من صوامع مخازن البيانات لتلبية احتياجات مختلفة، بدءًا من مستودعات بيانات المؤسسات المنظمة وعالية الأداء (EDW) وصولًا إلى بحيرات البيانات ذات الحجم الكبير وغير المنظمة أو شبه المنظمة، والتي تتحول في معظم الأحيان إلى مستنقعات بيانات بسبب الازدواجية وضعف جودة البيانات وغياب الحوكمة. مستودع بحيرة البيانات مع watsonx.data سيوفر طبقة واحدة للوصول إلى مجموعة متنوعة من مخازن البيانات عبر محركات استعلام متعددة وتنسيقات بيانات مفتوحة وحوكمة، دون الحاجة إلى نقل البيانات.

لوحة عرض واحدة لجميع بياناتك دون الحاجة إلى نقل البيانات. بنية مستودع بحيرة البيانات توفر طبقة وصول موحدة (واجهة تحكم موحدة) لجميع مخازن بيانات المؤسسة، بما في ذلك تخزين الكائنات، والبيانات العلائقية، وبحيرات البيانات.

نمط مستودع بحيرة البيانات 3: تحسين أحمال التشغيل في مستودع البيانات لتقليل التكلفة

يتيح تقليل تكلفة التخزين مع الحفاظ على القدرات الزمنية من خلال الاستفادة من من التخزين منخفض التكلفة والحوسبة في مستودع بحيرة البيانات، مما يسمح لمحركات الاستعلام المتعددة باستخدام نفس مجموعة البيانات. تتيح محركات الاستعلام مثل Spark تنفيذ استعلامات مادية/مُفرّغة للبيانات في حالتها الحالية (مثل عدم تضمين السجل الكامل لتغييرات البيانات)، مما يقلل من حجم الاستعلام وتكلفة حوسبة الاستعلام. بالإضافة إلى ذلك، تتيح قدرات المعالجة المسبقة والتحويلات الانتقائية في مستودع بحيرة البيانات التوزيع الأمثل لأحمال تشغيل مستودع البيانات، مما يؤدي إلى تقليل التكلفة.

تحسين أحمال التشغيل لمستودع البيانات لتحسين التكلفة وتقليل تكلفة التخزين مع الحفاظ على قدرات الاستعلام الزمني من خلال الاستفادة من
بنية مستودع بحيرة بيانات تساعد على تقليل تكاليف مستودع البيانات وتحسين الأداء.

نمط مستودع بحيرة البيانات 4: نشر السحابة المتعددة الهجينة

يتيح الاتصال بالبيانات والوصول إليها عن بعد عبر السحابة الهجينة مع القدرة على تخزين المصادر البعيدة مؤقتا

يتيح الاتصال بالبيانات والوصول إليها عن بُعد عبر السحابة الهجينة مع القدرة على تخزين المصادر البعيدة مؤقتًا..
بنية مستودع بحيرة بيانات تعمل على دمج البيانات المحلية والسحابية عبر مزوّدين متعددين.

نمط مستودع بحيرة البيانات 5: دمج بيانات الكمبيوتر المركزي مع النظام البنائي التحليلي

يتيح مزامنة ودمج بيانات Db2 for z/OS في مستودع بحيرة البيانات لتحليلات البيانات، وإجراء تحليلات فورية على الكمبيوتر المركزي باستخدام بيانات VSAM وDb2. ستعمل المحاكاة الافتراضية للبيانات على الاستعلام عن البيانات مباشرةً من الكمبيوتر المركزي مع مراعاة اعتبارات الحمل الإضافي، بينما ستقوم CDC بالتقاط البيانات بتنسيق Iceberg وفقًا للتكرار الذي تحدده الإدارة (لا يؤثر على أداء الكمبيوتر المركزي ولكنه لا يوفر بيانات في الوقت الفعلي).

مزامنة ودمج بيانات Db2 for z/OS لتحليلات بحيرة البيانات، وإجراء تحليلات في الوقت الفعلي على الكمبيوتر المركزي عبر بيانات VSAM و Db2
بنية مستودع بحيرة بيانات تعتمد على بوابة البيانات والمحاكاة الافتراضية للبيانات لدمج بيانات الكمبيوتر المركزي مع البيانات المستخرجة من مصادر غير تابعة للكمبيوتر المركزي.
حالات استخدام أخرى لمستودع بحيرة البيانات
  • طبقة التخزين للأصول الجديدة تعتمد التطبيقات الحديثة بشكل متزايد على مجموعات بيانات جديدة وتقنيات معالجة بيانات متقدمة لتقديم خدمات أكثر كفاءة وقابلة للتوسع وقائمة على البيانات. يوفر مستودع بحيرة البيانات الطبقة اللازمة من حيث التخزين والتكامل والأداء وقابلية التوسع والفعالية من حيث التكلفة.

  • إدخال موجِّهات والحصول على استجابات بلغة طبيعية يتيح مستودع بحيرة البيانات (watsonx.data) بالتكامل مع قدرات الذكاء الاصطناعي التوليدي والنماذج اللغوية الكبيرة (LLM) مثل watsonx.ai للمحللين الذين لا يمتلكون معرفة تقنية ببنية المعلومات أو إتقان لغة SQL، استخدام موجهات باللغة الطبيعية لتنفيذ تحليل شامل عبر مخازن البيانات المختلفة والحصول على استجابات مباشرة من نموذج LLM.
قرارات البنية التقنية

اختيار محرك الاستعلام

يعتمد اختيار محرك الاستعلام على نوع البيانات التي يتم الاستعلام عنها.

  1. محرك الاستعلام Presto هو الأنسب للاستخدام مع جداول/مجموعات جداول/دلائل Hive وParquet.
  2. محرك الاستعلام Spark هو الأنسب للاستخدام عند استخدام لغة SCALA داخل بيئة Hadoop / Cloudera.
  3. محرك استعلام DB2 هو الأنسب للاستخدام مع مخازن البيانات DB2.
  4. محرك استعلام Netezza هو الأنسب للاستعلام داخل مستودع بيانات Netezza
خصائص مستودع بحيرة البيانات
  1. إدارة البيانات موحدة: يعد ضمان أن يكون مستودع بحيرة البيانات بمثابة مصدر واحد للحقيقة أمرًا بالغ الأهمية لتحقيق الاتساق والموثوقية في التحليلات واتخاذ القرارات.
  2. تكامل البيانات: يجب أن يكون تكامل البيانات من مصادر متنوعة وبتنسيقات مختلفة تكاملًا سلسًا، مع دعم استيعاب البيانات في الوقت الفعلي وعلى دفعات.
  3. أداء الاستعلام: تحسين أداء الاستعلام لدعم التحليلات واحتياجات إعداد التقارير بما يتماشى مع اتفاقيات مستوى الخدمة (SLAs) وأهداف مستوى الخدمة (SLOs) الخاصة بالمؤسسات.
  4. إدارة البيانات: تتطلب عمليات تنفيذ مستودع بحيرة البيانات الناجحة إطارًا قويًا لإدارة البيانات لضمان جودة البيانات وإدارة البيانات الوصفية وتتبع سلسلة النسب.
  5. الأمان: ضمان تشفير البيانات، والتحكم في الوصول، وتوفير سجلات التدقيق للامتثال للمتطلبات التنظيمية والمؤسسية.
  6. مرونة النشر: دعم عمليات النشر في البيئات المحلية والهجينة ومتعددة السحابة، مما يوفر مرونة ويساعد في تحسين التكلفة والأداء.
  7. حساسية البيانات: ضمان سهولة حركة البيانات بين البيئات المختلفة مع الحفاظ على اتساق البيانات وسلامتها.
  8. المراقبة والإدارة: تنفيذ أدوات المراقبة والتسجيل والإدارة لتوفير رؤية واضحة لحركة البيانات، وأوقات تنفيذ المهام ومعدلاتها، وتحسين الأداء.
الخطوات التالية

تحدَّث إلى خبرائنا حول تنفيذ نمط نشر السحابة الهجينة.

المساهمون

Wissam Dib، و Chris Kirby، وBryan Kyle، وManav Gupta، و Mihai Criveti
تاريخ التحديث: 11 ديسمبر 2023