مستودع بحيرة البيانات،
إصدار تجريبي مجاني من watsonx.data SaaS نشر watsonx.data بشكل مستقل على OpenShift
مساحة عمل جديدة معاد تلوينها تعتمد على مساحة Watson for Customer Care كأساس لها.
لمحة عامة

مستودع بحيرة البيانات هو منصة بيانات تجمع بين أفضل مزايا مستودعات البيانات وبحيرات البيانات في حل موحد لإدارة البيانات.

تستند بنية مستودع بحيرة البيانات وبنية الحوكمة الخاصة بشركة IBM لبيئات السحابة الهجينة إلى منصة watsonx.data. يمكِّن مستودع بحيرة البيانات الهجين والمفتوح الشركات من توسيع النطاق التحليلات والذكاء الاصطناعي، مما يوفر مخزن بيانات قويًا مبنيًا على بنية مستودع بحيرة بيانات مفتوحة. تجمع هذه البنية بين سمات أداء وسهولة استخدام مستودع البيانات ومرونة وقابلية توسع بحيرة البيانات، مما يوفر حلاً متوازنًا لإدارة البيانات ومهام التحليل.

عملية النشر

تُقدَّم منصة watsonx.data في صورة عرض برمجيات كخدمة (SaaS) وحل محلي. بالنسبة للعملاء في المناطق الجغرافية التي لا يتوفر فيها عرض SaaS، أو الذين يحتاجون إلى بقاء منصة مستودع بحيرة البيانات في أماكن العمل بسبب قيود تنظيمية أو غيرها، توفر IBM خيارات نشر مرنة لتمكين القدرات في أي مكان:

  1. توفير watsonx.data SaaS على IBM Cloud أو AWS.
  2. قم بنشر watsonx.data كحل مستقل على منصة OpenShift محليًا أو على منصات التحجيم الفائق المدارة باستخدام OpenShift.
  3. قم بنشر watsonx.data كجزء من مجموعة IBM CloudPak for Data (CP4D).
  • مصادر البيانات - تشمل البيانات المنظمة من قواعد البيانات والتطبيقات، بالإضافة إلى البيانات غير المنظمة من الملفات ووسائل التواصل الاجتماعي وأجهزة إنترنت الأشياء، فضلاً عن مستودعات بيانات المؤسسات ومخازن البيانات غير المنظمة الأخرى، سواء من تطبيقات العملاء المحلية أو من خدمات SaaS.

  • تطبيقات العميل - قد يكون لدى العملاء تطبيقات محلية أو قائمة على SaaS مع مخازن بياناتهم الخاصة (سواء المنظمة أو غير المنظمة)، والتي قد لا تكون بياناتها موجودة في بحيرة البيانات. قد يرغب العملاء في إحضار هذه البيانات إلى مستودع بحيرة البيانات لتسهيل الاستعلام عنها.

  • مستودع بحيرة البيانات - watsonx.data هي بنية الجيل التالي من مخازن البيانات، حيث تحقق التوازن بين قدرات مستودعات البيانات وبحيرات البيانات. يمثل هذا النهج حجر الأساس لاستراتيجية IBM الخاصة بمستودع بحيرة البيانات، مما يسهل توسيع نطاق أحمال تشغيل الذكاء الاصطناعي والتعلم الآلي (ML) مع ضمان كفاءة إدارة البيانات.
     

  • منصة GenAI - يمكن توصيل مستودع بحيرة البيانات اختياريًا بمنصة GenAI لتعزيز الاستعلامات باستخدام النماذج اللغوية الكبيرة (LLMs). يمكن للمستخدمين إدخال موجِّه، ليتم إرساله إلى نموذج LLM مضبوط بدقة لإنشاء استعلامات استرجاع يمكن تنفيذها بواسطة المحركات المدعومة في مستودع بحيرة البيانات.

أنماط مستودع بحيرة البيانات

نمط مستودع بحيرة البيانات 1: محركات استعلام متعددة مناسبة للغرض

استخدام الحوسبة الملائمة لتحسين التكلفة عبر اختيار المحرك المناسب لكل نوع من أحمال التشغيل، مع مشاركة البيانات والبيانات الوصفية بين جميع المحركات في نفس الوقت، والاستفادة من مخزن التعريف المشترك (مثل كتالوج البيانات) والبيئة الموحدة.

نمط مستودع بحيرة البيانات 2: منصة موحدة لجميع بياناتك

يتيح مستودع بحيرة البيانات نهجًا حديثًا لبنى البيانات، حيث قامت المؤسسات على مدى السنوات ببناء العديد من صوامع مخازن البيانات لتلبية احتياجات مختلفة، بدءًا من مستودعات بيانات المؤسسات المنظمة وعالية الأداء (EDW) وصولًا إلى بحيرات البيانات ذات الحجم الكبير وغير المنظمة أو شبه المنظمة، والتي تتحول في معظم الأحيان إلى مستنقعات بيانات بسبب الازدواجية وضعف جودة البيانات وغياب الحوكمة. مستودع بحيرة البيانات مع watsonx.data سيوفر طبقة واحدة للوصول إلى مجموعة متنوعة من مخازن البيانات عبر محركات استعلام متعددة وتنسيقات بيانات مفتوحة وحوكمة، دون الحاجة إلى نقل البيانات.

نمط مستودع بحيرة البيانات 3: تحسين أحمال التشغيل في مستودع البيانات لتقليل التكلفة

يتيح تقليل تكلفة التخزين مع الحفاظ على القدرات الزمنية من خلال الاستفادة من من التخزين منخفض التكلفة والحوسبة في مستودع بحيرة البيانات، مما يسمح لمحركات الاستعلام المتعددة باستخدام نفس مجموعة البيانات. تتيح محركات الاستعلام مثل Spark تنفيذ استعلامات مادية/مُفرّغة للبيانات في حالتها الحالية (مثل عدم تضمين السجل الكامل لتغييرات البيانات)، مما يقلل من حجم الاستعلام وتكلفة حوسبة الاستعلام. بالإضافة إلى ذلك، تتيح قدرات المعالجة المسبقة والتحويلات الانتقائية في مستودع بحيرة البيانات التوزيع الأمثل لأحمال تشغيل مستودع البيانات، مما يؤدي إلى تقليل التكلفة.

نمط مستودع بحيرة البيانات 4: نشر السحابة المتعددة الهجينة

يتيح الاتصال بالبيانات والوصول إليها عن بعد عبر السحابة الهجينة مع القدرة على تخزين المصادر البعيدة مؤقتا

نمط مستودع بحيرة البيانات 5: دمج بيانات الكمبيوتر المركزي مع النظام البنائي التحليلي

يتيح مزامنة ودمج بيانات Db2 for z/OS في مستودع بحيرة البيانات لتحليلات البيانات، وإجراء تحليلات فورية على الكمبيوتر المركزي باستخدام بيانات VSAM وDb2. ستعمل المحاكاة الافتراضية للبيانات على الاستعلام عن البيانات مباشرةً من الكمبيوتر المركزي مع مراعاة اعتبارات الحمل الإضافي، بينما ستقوم CDC بالتقاط البيانات بتنسيق Iceberg وفقًا للتكرار الذي تحدده الإدارة (لا يؤثر على أداء الكمبيوتر المركزي ولكنه لا يوفر بيانات في الوقت الفعلي).

حالات استخدام أخرى لمستودع بحيرة البيانات
  • طبقة التخزين للأصول الجديدة تعتمد التطبيقات الحديثة بشكل متزايد على مجموعات بيانات جديدة وتقنيات معالجة بيانات متقدمة لتقديم خدمات أكثر كفاءة وقابلة للتوسع وقائمة على البيانات. يوفر مستودع بحيرة البيانات الطبقة اللازمة من حيث التخزين والتكامل والأداء وقابلية التوسع والفعالية من حيث التكلفة.

  • إدخال موجِّهات والحصول على استجابات بلغة طبيعية يتيح مستودع بحيرة البيانات (watsonx.data) بالتكامل مع قدرات الذكاء الاصطناعي التوليدي والنماذج اللغوية الكبيرة (LLM) مثل watsonx.ai للمحللين الذين لا يمتلكون معرفة تقنية ببنية المعلومات أو إتقان لغة SQL، استخدام موجهات باللغة الطبيعية لتنفيذ تحليل شامل عبر مخازن البيانات المختلفة والحصول على استجابات مباشرة من نموذج LLM.
قرارات البنية التقنية

اختيار محرك الاستعلام

يعتمد اختيار محرك الاستعلام على نوع البيانات التي يتم الاستعلام عنها.

  1. محرك الاستعلام Presto هو الأنسب للاستخدام مع جداول/مجموعات جداول/دلائل Hive وParquet.
  2. محرك الاستعلام Spark هو الأنسب للاستخدام عند استخدام لغة SCALA داخل بيئة Hadoop / Cloudera.
  3. محرك استعلام DB2 هو الأنسب للاستخدام مع مخازن البيانات DB2.
  4. محرك استعلام Netezza هو الأنسب للاستعلام داخل مستودع بيانات Netezza
خصائص مستودع بحيرة البيانات
  1. إدارة البيانات موحدة: يعد ضمان أن يكون مستودع بحيرة البيانات بمثابة مصدر واحد للحقيقة أمرًا بالغ الأهمية لتحقيق الاتساق والموثوقية في التحليلات واتخاذ القرارات.
  2. تكامل البيانات: يجب أن يكون تكامل البيانات من مصادر متنوعة وبتنسيقات مختلفة تكاملًا سلسًا، مع دعم استيعاب البيانات في الوقت الفعلي وعلى دفعات.
  3. أداء الاستعلام: تحسين أداء الاستعلام لدعم التحليلات واحتياجات إعداد التقارير بما يتماشى مع اتفاقيات مستوى الخدمة (SLAs) وأهداف مستوى الخدمة (SLOs) الخاصة بالمؤسسات.
  4. إدارة البيانات: تتطلب عمليات تنفيذ مستودع بحيرة البيانات الناجحة إطارًا قويًا لإدارة البيانات لضمان جودة البيانات وإدارة البيانات الوصفية وتتبع سلسلة النسب.
  5. الأمان: ضمان تشفير البيانات، والتحكم في الوصول، وتوفير سجلات التدقيق للامتثال للمتطلبات التنظيمية والمؤسسية.
  6. مرونة النشر: دعم عمليات النشر في البيئات المحلية والهجينة ومتعددة السحابة، مما يوفر مرونة ويساعد في تحسين التكلفة والأداء.
  7. حساسية البيانات: ضمان سهولة حركة البيانات بين البيئات المختلفة مع الحفاظ على اتساق البيانات وسلامتها.
  8. المراقبة والإدارة: تنفيذ أدوات المراقبة والتسجيل والإدارة لتوفير رؤية واضحة لحركة البيانات، وأوقات تنفيذ المهام ومعدلاتها، وتحسين الأداء.
الموارد بنية الذكاء الاصطناعي التوليدي من IBM

بنية الذكاء الاصطناعي التوليدي من IBM هي بنية الذكاء الاصطناعي التوليدي الكاملة من IBM داخل أداة IBM IT Architect Assistant (IIAA)، وهي أداة لتطوير وإدارة البنية. باستخدام أداة IIAA، يمكن للمهندسين تطوير البنية وتخصيصها لبناء حلول الذكاء الاصطناعي التوليدي الخاصة بهم.

مسار Tekton لمنصة watsonx.data

يحتوي هذا المستودع على مسار Tekton لنشر IBM watsonx.data على ممجوعة Red Hat Openshift

أصول المختبر العملي لمنصة watsonx.data

يحتوي هذا المستودع على أصول لتشغيل مختبر وورشة عمل لتمكين استخدام watsonx.data

الخطوات التالية

تحدث إلى خبرائنا حول تنفيذ نمط نشر السحابة الهجينة.

مزيد من الطرق للاستكشاف مركز بنية السحابة الهجينة أدوات وقوالب الرسم التخطيطي إطار عمل IBM Well-Architected Framework
المساهمون

Bryan KyleManav GuptaMihai Criveti, Wissam DibChris Kirby

تاريخ التحديث: 11 ديسمبر 2023