كيفية تحديث بحيرات البيانات باستخدام بنية مستودع البيانات

5 يوليو 2023

4 دقائق للقراءة

لأكثر من عقد من الزمن، كانت بحيرات البيانات حاضرة بقوة، فهي تدعم عمليات التحليل لدى بعض أكبر الشركات العالمية. ومع ذلك، يعتقد البعض أن الغالبية العظمى من عمليات النشر هذه أصبحت الآن "مستنقعات" بيانات. وبغض النظر عن مدى صحة هذا الرأي، فإن الحقيقة هي أن كميات هائلة من البيانات لا تزال موجودة في هذه الأنظمة؛ فهذه البيانات تتميز بحجمها الضخم الذي يعوق عمليات نقلها، أو ترحيلها، أو تحديثها بسهولة.

تحديات بنية بحيرة البيانات الموحدة

بحيرات البيانات، بشكل عامّ، هي مستودعات موحدة للبيانات على نطاق واسع. ويُمكن أن تُخزَّن البيانات في شكلها الخام الأصلي أو تحسينها إلى صيغة أخرى مناسبة للاستهلاك بواسطة محركات متخصصة.

في سياق بحيرات البيانات، مثل Hadoop، وهو أحد أشهر بحيرات البيانات، فإن اعتماد تطبيق مثل هذا المستودع باستخدام البرمجيات مفتوحة المصدر وتشغيله على الأجهزة المتواضعة يعني أنه يمكنك تخزين كميات هائلة من البيانات على هذه الأنظمة بتكلفة زهيدة. فبفضل تنسيقات البيانات المفتوحة، أصبحت هذه البيانات متاحة للاستخدام على نطاق واسع، ويمكن تكرارها تلقائيًّا لضمان توافرها الدائم. وقد أتاح إطار العمل الافتراضي للمعالجة القدرة على التعافي من الأعطال أثناء التشغيل. وكان هذا بالتأكيد يُمثل تغيرًا كبيرًا عن بيئات التحليل التقليدية، والتي غالبًا ما كانت تعني الاحتكار لمنتج معين وعدم القدرة على التعامل مع البيانات على نطاق واسع.

مثّل إدخال إطار "Spark" كإطار معالجة للبيانات الكبيرة تحديًا آخر غير متوقع، فقد اكتسب شعبية سريعة بفضل دعمه لتحويلات البيانات، والبث المباشر، وSQL، إلا إنه لم يندمج بسلاسة مع بيئات بحيرات البيانات الحالية. ونتيجةً لذلك، غالبًا ما استلزم ذلك الحاجة إلى مجموعات حوسبة مخصصة إضافية لتشغيل "Spark".

بعد حوالي 15 عامًا على ظهور هذه التقنية، بات من الواضح تمامًا المفاضلات والتسويات التي تقتضيها هذه التقنية، فقد أسفر التبني السريع لهذه التقنية عن فقدان العملاء للقدرة على تتبع مسار البيانات داخل بحيرة البيانات. وبالمثل، لم يتمكنوا من تحديد مصدر البيانات، وكيف تم إدخالها، والتحولات التي طرأت عليها خلال العملية. ولا تزال إدارة البيانات مجالًا غير مُستكشف ويُمثل تحديًا لهذه التقنية. وعلى الرغم من أن البرامج مفتوحة المصدر، إلا إنه يجب تكليف أحدٍ من الأشخاص بتعلم كيفية استخدامها، وصيانتها، ودعمها. ولا يضمن الاعتماد على دعم المجتمع دائمًا تحقيق أوقات الاستجابة المطلوبة من قِبَل العمليات التجارية. ويتطلب تحقيق التوفر العالي عبر التكرار المزيد من نسخ البيانات على المزيد من الأقراص، وهو ما يزيد من تكاليف التخزين ويرفع من احتمالية حدوث الأعطال، فقد أدى اعتماد أطر عمل معالجة البيانات الموزعة عالية التوفر إلى تنازلات كبيرة على صعيد الأداء لصالح المرونة، (نتحدث عن تدهور كبير في الأداء لعمليات التحليل التفاعلية وذكاء الأعمال [BI]).

لماذا يجب تحديث بحيرة البيانات الخاصة بك؟

أثبتت بحيرات البيانات نجاحها حيث تمكنت الشركات من تضييق نطاق التركيز على سيناريوهات استخدام محددة. ولكن ما كان واضحًا هو أن هناك حاجة ملحة إلى تحديث عمليات النشر هذه وحماية الاستثمار في البنية التحتية والمهارات والبيانات الموجودة في تلك الأنظمة.

في سعيها للبحث عن إجابات وحلول، توجهت الصناعة نحو تقنيات منصات البيانات الحالية ونقاط قوتها، فقد اتضح أن النهج الفعال يكمن في جمع السمات الرئيسية للمستودعات التقليدية (القديمة إذا شئت) أو متاجر البيانات مع ما نجح من بحيرات البيانات. وقد تبلورت عدة عناصر أساسية كمتطلبات لا غنى عنها لتحقيق ذلك، وهي:

  • تخزين مرن وقابل للتوسع يمكن أن يلبي الطلب المتزايد على نطاق البيانات.
  • تنسيقات بيانات مفتوحة تحافظ على وصول الجميع إلى البيانات، ولكنها مُصممة لتحسين الأداء العالي وبهيكلية واضحة المعالم.
  • البيانات الوصفية المفتوحة (القابلة للمشاركة) التي تتيح إمكانية الاستخدام عبر محركات أو أطر عمل متعددة.
  • القدرة على تحديث البيانات (خصائص ACID) ودعم التزامن في المعاملات.
  • أمن شامل للبيانات وإدارة البيانات (أي: التتبع، التعريف الكامل بسياسات الوصول للبيانات وتطبيقها، بما في ذلك الانتشار الجغرافي).

وقد أدى ما سبق إلى ظهور مستودع بيانات. مستودع البيانات هو عبارة عن منصة بيانات تجمع بين أفضل جوانب مستودعات البيانات التقليدية وبحيرات البيانات في حل موحد ومتماسك لإدارة البيانات.

ميزات تحديث بحيرات البيانات إلى watsonx.data

في مفترق طرق تحليلات البيانات الحالية، تقدم لكم IBM الحل المتمثل في watsonx.data. يُمثل مخزن البيانات مفتوح المصدر هذا ثورة جديدة في إدارة البيانات على نطاق واسع، فهو يسمح للشركات بإحاطة بحيرات البيانات ومستودعات البيانات الحالية وتعزيزها وتحديثها دون الحاجة إلى عمليات الترحيل. فبفضل طبيعته الهجينة، يُمكن تشغيله على البنية التحتية التي يديرها العميل (محليًّا و/أو نموذج البنية التحتية كخدمة [IaaS]) وعلى الأوساط السحابية. ويستند إلى بنية مستودع البيانات ويتضمن مجموعة موحدة من الحلول (ومجموعة البرامج المشتركة) لجميع عوامل الشكل.

مقارنةً بالعروض المنافسة في السوق، تتميز IBM بنهج يعتمد على مجموعة وبُنًى تحتية مفتوحة المصدر، فهذه ليست عناصر جديدة، ولكنها معروفة جيدًا في الصناعة. فقد اعتنت IBM بتوافقها، واندماجها، وتبادل البيانات الوصفية بكفاءة. يمكن للمستخدمين البدء بسرعة—وهو ما يقلِّل بشكل كبير تكلفة الدخول والاعتماد—مع بنية عالية المستوى ومفاهيم أساسية مألوفة وبديهية:

  • البيانات مفتوحة المصدر (وتنسيقات الجداول) عبر مخزن الكائنات
  • الوصول إلى البيانات من خلال S3
  • Presto وSpark لاستهلاك الحوسبة (SQL، وعلم البيانات، وعمليات التحول، والبث المباشر)
  • مشاركة البيانات الوصفية المفتوحة (عبر Hive وبُنًى متوافقة).

تتيح منصة watsonx.data للشركات حماية استثماراتها طويلة الأمد في بحيرات البيانات والمستودعات، وهو ما يتيح لهم توسيع النطاق على الفور وتحديث عمليات التثبيت الخاصة بهم تدريجيًّا، مع التركيز على كل عنصر في السيناريوهات الأكثر أهميةً بالنسبة إليهم.

وإحدى الميزات الرئيسية هي استراتيجية المحركات المتعددة التي تتيح للمستخدمين الاستفادة من التقنية المناسبة للمهمة المناسبة في الوقت المناسب، وذلك كله عبر منصة بيانات موحدة. تتيح منصة watsonx.data للعملاء تنفيذ التخزين الطبقي الديناميكي بالكامل (وعمليات الحوسبة المرتبطة)، فقد يؤدي هذا بمرور الوقت إلى تحقيق وفورات كبيرة في تكاليف إدارة البيانات ومعالجتها.

وإذا كان هدفك في النهاية هو تحديث عمليات نشر بحيرات البيانات الحالية إلى مستودع بيانات حديث، فإن منصة watsonx.data تُسهل المهمة من خلال تقليل الترحيل للبيانات وتطبيقات الحوسبة إلى الحد الأدنى.

ماذا يمكنك أن تفعل بعد ذلك؟

طوال السنوات الماضية، قدمت بحيرات البيانات دورًا مهمًّا في استراتيجية إدارة البيانات لمعظم الشركات. ولكن إذا كان هدفك هو تطوير وتحديث استراتيجية إدارة البيانات الخاصة بك نحو بنية تحتية سحابية قادرة على تحليل البيانات الهجينة حقًا، فعندئذٍ يجب أن تضع متجر البيانات الجديد من IBM المبني على بنية مستودع البيانات، watsonx.data، في الاعتبار.

مؤلف

Hebert W. Pereyra

Chief Architect

IBM Data and AI and IBM Distinguished Engineer

رؤى لا يُمكنك تفويتها. اشترِك في رسائلنا الإخبارية.

تجاوز الضجيج بفضل التحديثات المقدمة من الخبراء حول الذكاء الاصطناعي والحوسبة الكمية والتقنية السحابية والأمان وغير ذلك الكثير.

اشترك اليوم