كيفية تحديث بحيرات البيانات باستخدام بنية مستودع البيانات

منظر جوي لجسر سيلفينشتاين، بحيرة سيلفينشتاين، بافاريا العليا، ألمانيا

لأكثر من عقد من الزمن، كانت بحيرات البيانات حاضرة بقوة، فهي تدعم عمليات التحليل لدى بعض أكبر الشركات العالمية. ومع ذلك، يعتقد البعض أن الغالبية العظمى من عمليات النشر هذه أصبحت الآن "مستنقعات" بيانات. وبغض النظر عن مدى صحة هذا الرأي، فإن الحقيقة هي أن كميات هائلة من البيانات لا تزال موجودة في هذه الأنظمة؛ فهذه البيانات تتميز بحجمها الضخم الذي يعوق عمليات نقلها، أو ترحيلها، أو تحديثها بسهولة.

أحدث الأخبار التقنية، مدعومة برؤى خبراء

ابقَ على اطلاع دائم على أبرز الاتجاهات في مجالات الذكاء الاصطناعي، والأتمتة، والبيانات، وغيرها الكثير من خلال رسالة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! أنت مشترك.

سيصلك محتوى الاشتراك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك من هنا. لمزيد من المعلومات، راجع بيان خصوصية IBM.

تحديات بنية بحيرة البيانات الموحدة

بحيرات البيانات، بشكل عامّ، هي مستودعات موحدة للبيانات على نطاق واسع. ويُمكن أن تُخزَّن البيانات في شكلها الخام الأصلي أو تحسينها إلى صيغة أخرى مناسبة للاستهلاك بواسطة محركات متخصصة.

في سياق بحيرات البيانات، مثل Hadoop، وهو أحد أشهر بحيرات البيانات، فإن اعتماد تطبيق مثل هذا المستودع باستخدام البرمجيات مفتوحة المصدر وتشغيله على الأجهزة المتواضعة يعني أنه يمكنك تخزين كميات هائلة من البيانات على هذه الأنظمة بتكلفة زهيدة. فبفضل تنسيقات البيانات المفتوحة، أصبحت هذه البيانات متاحة للاستخدام على نطاق واسع، ويمكن تكرارها تلقائيًّا لضمان توافرها الدائم. وقد أتاح إطار العمل الافتراضي للمعالجة القدرة على التعافي من الأعطال أثناء التشغيل. وكان هذا بالتأكيد يُمثل تغيرًا كبيرًا عن بيئات التحليل التقليدية، والتي غالبًا ما كانت تعني الاحتكار لمنتج معين وعدم القدرة على التعامل مع البيانات على نطاق واسع.

مثّل إدخال إطار "Spark" كإطار معالجة للبيانات الكبيرة تحديًا آخر غير متوقع، فقد اكتسب شعبية سريعة بفضل دعمه لتحويلات البيانات، والبث المباشر، وSQL، إلا إنه لم يندمج بسلاسة مع بيئات بحيرات البيانات الحالية. ونتيجةً لذلك، غالبًا ما استلزم ذلك الحاجة إلى مجموعات حوسبة مخصصة إضافية لتشغيل "Spark".

بعد حوالي 15 عامًا على ظهور هذه التقنية، بات من الواضح تمامًا المفاضلات والتسويات التي تقتضيها هذه التقنية، فقد أسفر التبني السريع لهذه التقنية عن فقدان العملاء للقدرة على تتبع مسار البيانات داخل بحيرة البيانات. وبالمثل، لم يتمكنوا من تحديد مصدر البيانات، وكيف تم إدخالها، والتحولات التي طرأت عليها خلال العملية. ولا تزال إدارة البيانات مجالًا غير مُستكشف ويُمثل تحديًا لهذه التقنية. وعلى الرغم من أن البرامج مفتوحة المصدر، إلا إنه يجب تكليف أحدٍ من الأشخاص بتعلم كيفية استخدامها، وصيانتها، ودعمها. ولا يضمن الاعتماد على دعم المجتمع دائمًا تحقيق أوقات الاستجابة المطلوبة من قِبَل العمليات التجارية. ويتطلب تحقيق التوفر العالي عبر التكرار المزيد من نسخ البيانات على المزيد من الأقراص، وهو ما يزيد من تكاليف التخزين ويرفع من احتمالية حدوث الأعطال، فقد أدى اعتماد أطر عمل معالجة البيانات الموزعة عالية التوفر إلى تنازلات كبيرة على صعيد الأداء لصالح المرونة، (نتحدث عن تدهور كبير في الأداء لعمليات التحليل التفاعلية وذكاء الأعمال [BI]).

Mixture of Experts | 12 ديسمبر، الحلقة 85

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

لماذا يجب تحديث بحيرة البيانات الخاصة بك؟

أثبتت بحيرات البيانات نجاحها حيث تمكنت الشركات من تضييق نطاق التركيز على سيناريوهات استخدام محددة. ولكن ما كان واضحًا هو أن هناك حاجة ملحة إلى تحديث عمليات النشر هذه وحماية الاستثمار في البنية التحتية والمهارات والبيانات الموجودة في تلك الأنظمة.

في سعيها للبحث عن إجابات وحلول، توجهت الصناعة نحو تقنيات منصات البيانات الحالية ونقاط قوتها، فقد اتضح أن النهج الفعال يكمن في جمع السمات الرئيسية للمستودعات التقليدية (القديمة إذا شئت) أو متاجر البيانات مع ما نجح من بحيرات البيانات. وقد تبلورت عدة عناصر أساسية كمتطلبات لا غنى عنها لتحقيق ذلك، وهي:

  • تخزين مرن وقابل للتوسع يمكن أن يلبي الطلب المتزايد على نطاق البيانات.
  • تنسيقات بيانات مفتوحة تحافظ على وصول الجميع إلى البيانات، ولكنها مُصممة لتحسين الأداء العالي وبهيكلية واضحة المعالم.
  • البيانات الوصفية المفتوحة (القابلة للمشاركة) التي تتيح إمكانية الاستخدام عبر محركات أو أطر عمل متعددة.
  • القدرة على تحديث البيانات (خصائص ACID) ودعم التزامن في المعاملات.
  • أمن شامل للبيانات وإدارة البيانات (أي: التتبع، التعريف الكامل بسياسات الوصول للبيانات وتطبيقها، بما في ذلك الانتشار الجغرافي).

وقد أدى ما سبق إلى ظهور مستودع بيانات. مستودع البيانات هو عبارة عن منصة بيانات تجمع بين أفضل جوانب مستودعات البيانات التقليدية وبحيرات البيانات في حل موحد ومتماسك لإدارة البيانات.

ميزات تحديث بحيرات البيانات إلى watsonx.data

في مفترق طرق تحليلات البيانات الحالية، تقدم لكم IBM الحل المتمثل في watsonx.data. يُمثل مخزن البيانات مفتوح المصدر هذا ثورة جديدة في إدارة البيانات على نطاق واسع، فهو يسمح للشركات بإحاطة بحيرات البيانات ومستودعات البيانات الحالية وتعزيزها وتحديثها دون الحاجة إلى عمليات الترحيل. فبفضل طبيعته الهجينة، يُمكن تشغيله على البنية التحتية التي يديرها العميل (محليًّا و/أو نموذج البنية التحتية كخدمة [IaaS]) وعلى الأوساط السحابية. ويستند إلى بنية مستودع البيانات ويتضمن مجموعة موحدة من الحلول (ومجموعة البرامج المشتركة) لجميع عوامل الشكل.

مقارنةً بالعروض المنافسة في السوق، تتميز IBM بنهج يعتمد على مجموعة وبُنًى تحتية مفتوحة المصدر، فهذه ليست عناصر جديدة، ولكنها معروفة جيدًا في الصناعة. فقد اعتنت IBM بتوافقها، واندماجها، وتبادل البيانات الوصفية بكفاءة. يمكن للمستخدمين البدء بسرعة—وهو ما يقلِّل بشكل كبير تكلفة الدخول والاعتماد—مع بنية عالية المستوى ومفاهيم أساسية مألوفة وبديهية:

  • البيانات مفتوحة المصدر (وتنسيقات الجداول) عبر مخزن الكائنات
  • الوصول إلى البيانات من خلال S3
  • Presto وSpark لاستهلاك الحوسبة (SQL، وعلم البيانات، وعمليات التحول، والبث المباشر)
  • مشاركة البيانات الوصفية المفتوحة (عبر Hive وبُنًى متوافقة).

تتيح منصة watsonx.data للشركات حماية استثماراتها طويلة الأمد في بحيرات البيانات والمستودعات، وهو ما يتيح لهم توسيع النطاق على الفور وتحديث عمليات التثبيت الخاصة بهم تدريجيًّا، مع التركيز على كل عنصر في السيناريوهات الأكثر أهميةً بالنسبة إليهم.

وإحدى الميزات الرئيسية هي استراتيجية المحركات المتعددة التي تتيح للمستخدمين الاستفادة من التقنية المناسبة للمهمة المناسبة في الوقت المناسب، وذلك كله عبر منصة بيانات موحدة. تتيح منصة watsonx.data للعملاء تنفيذ التخزين الطبقي الديناميكي بالكامل (وعمليات الحوسبة المرتبطة)، فقد يؤدي هذا بمرور الوقت إلى تحقيق وفورات كبيرة في تكاليف إدارة البيانات ومعالجتها.

وإذا كان هدفك في النهاية هو تحديث عمليات نشر بحيرات البيانات الحالية إلى مستودع بيانات حديث، فإن منصة watsonx.data تُسهل المهمة من خلال تقليل الترحيل للبيانات وتطبيقات الحوسبة إلى الحد الأدنى.

ماذا يمكنك أن تفعل بعد ذلك؟

طوال السنوات الماضية، قدمت بحيرات البيانات دورًا مهمًّا في استراتيجية إدارة البيانات لمعظم الشركات. ولكن إذا كان هدفك هو تطوير وتحديث استراتيجية إدارة البيانات الخاصة بك نحو بنية تحتية سحابية قادرة على تحليل البيانات الهجينة حقًا، فعندئذٍ يجب أن تضع متجر البيانات الجديد من IBM المبني على بنية مستودع البيانات، watsonx.data، في الاعتبار.

مؤلف

Hebert W. Pereyra

Chief Architect

IBM Data and AI and IBM Distinguished Engineer

حلول ذات صلة
أدوات التحليلات والحلول ذات الصلة بها

لكي تزدهر الشركات، يجب عليها استخدام البيانات لتعزيز ولاء العملاء، وأتمتة عمليات الأعمال، والابتكار باستخدام الحلول المستندة إلى الذكاء الاصطناعي.

استكشف حلول التحليلات
خدمات الاستشارات في مجال البيانات والتحليلات

استفِد من قيمة بيانات المؤسسة مع IBM Consulting لبناء مؤسسة تعتمد على الرؤى لتحقيق ميزة تنافسية في الأعمال.

اكتشف خدمات التحليلات
IBM Cognos Analytics

تعرَّف على Cognos Analytics 12.0، رؤى مدعومة بالذكاء الاصطناعي لتحسين عملية اتخاذ القرارات.

استكشف Cognos Analytics
اتخِذ الخطوة التالية

لكي تزدهر الشركات، يجب عليها استخدام البيانات لتعزيز ولاء العملاء، وأتمتة عمليات الأعمال، والابتكار باستخدام الحلول المستندة إلى الذكاء الاصطناعي.

استكشف حلول التحليلات اكتشف خدمات التحليلات