شهدت هندسة منصّات البيانات تاريخًا مثيرًا للاهتمام. فعند مطلع الألفية، بدأت المؤسسات تُدرك أن أحمال التشغيل الخاصة بالتقارير وذكاء الأعمال تحتاج إلى حل جديد، يختلف عن تطبيقات المعاملات التشغيلية. وظهر آنذاك نظام مُحسَّن للقراءة يمكنه دمج البيانات من تطبيقات متعددة، وهو مستودع البيانات.
وبعد عقدٍ آخر، بدأ الإنترنت والهواتف المحمولة في توليد بيانات بأحجام وأنواع وسرعات غير مسبوقة، الأمر الذي تطلّب حلًا مختلفًا لمنصّات البيانات. وهكذا ظهرت بحيرة البيانات، القادرة على التعامل مع البيانات المنظمة وغير المنظمة بأحجام ضخمة.
ثم مرّ عقد إضافي، واتّضح أن كلًّا من بحيرة البيانات ومستودع البيانات لم يعودا كافيين للتعامل مع تعقيد الأعمال وأحمال التشغيل الجديدة في المؤسسات. لقد أصبحت التكلفة عالية، وصار من الصعب تحقيق قيمة ملموسة من مشاريع البيانات. كما بات تغيير منصات البيانات أمرًا صعبًا، ومع مرور الوقت، برزت الحاجة مرة أخرى إلى حل جديد.
ويمكنك تخمين ما حدث بعد ذلك: هذه المرة ظهرت ثلاثة حلول مختلفة لهندسة منصات البيانات: مستودع بحيرة البيانات ونسيج البيانات وشبكة البيانات. ورغم أن هذا التنوّع مُشجّع، فإنه خلق حالة من الالتباس في السوق؛ فالمفاهيم والقيم تتداخل، وفي أحيان كثيرة تظهر تفسيرات مختلفة تبعًا لِمَن يتم سؤاله.
تسعى هذه المقالة إلى التخفيف من هذا الالتباس. فسيتم شرح المفاهيم، ثم تقديم إطار عمل يُظهر كيف يمكن أن يقود كلٌّ من هذه المفاهيم إلى غيره أو يُستخدم معه.
أصبح مفهوم مستودع بحيرة البيانات رائجًا بفضل شركة Databricks، التي عرّفته على النحو التالي:: "مستودع بحيرة البيانات هو بنية جديدة ومفتوحة لإدارة البيانات تجمع بين المرونة والكفاءة من حيث التكلفة وحجم بحيرات البيانات، مع إدارة البيانات ومعاملات ACID في مستودعات البيانات، ما يمكّن ذكاء الأعمال (BI) والتعلم الآلي (ML) على جميع البيانات."
بينما كانت مستودعات البيانات التقليدية تستخدم عملية الاستخراج-التحويل-التحميل (ETL) لتحميل البيانات، تعتمد بحيرة البيانات بدلًا من ذلك على عملية الاستخراج-التحميل-التحويل (ELT). يتم تحميل البيانات المستخرجة من مصادر متعددة إلى تخزين BLOB منخفض التكلفة، ثم تُحوَّل وتُحفظ لاحقًا داخل مستودع بيانات يستخدم تخزينًا كتليًا مرتفع التكلفة.
هذه الهندسة في التخزين غير مرنة وغير فعّالة. يجب تنفيذ التحويل باستمرار للحفاظ على تزامن التخزين بين BLOB ومستودع البيانات، وهو ما يزيد التكاليف. ومع ذلك، يظل التحويل المستمر مستهلكًا للوقت، حيث تكون البيانات - عند جاهزيتها للتحليل - قد أصبحت قديمة مقارنةً بالوضع الحالي للأنظمة التشغيلية.
علاوة على ذلك، لا يمكن لتخزين مستودعات البيانات دعم أحمال تشغيل مثل الذكاء الاصطناعي أو التعلم الآلي، التي تتطلب كميات هائلة من البيانات لتدريب النماذج. وبالنسبة لأحمال التشغيل هذه، يوصي مورّدو بحيرة البيانات عادةً باستخراج البيانات إلى ملفات مسطحة لاستخدامها فقط لأغراض تدريب واختبار النماذج، وهو ما يضيف خطوة ETL إضافية، ويجعل البيانات أكثر قدمًا.
وقد جرى ابتكار مستودع بحيرة البيانات لحل هذه المشكلات. تتم إزالة طبقة تخزين مستودع البيانات من بنيات مستودع البحيرة. وبدلًا من ذلك، يتم إجراء تحويل البيانات المستمر داخل تخزين BLOB. تمت إضافة واجهات برمجة تطبيقات متعددة حتى تتمكن أنواع مختلفة من أحمال التشغيل من استخدام التخزين نفسه. وتُعد هذه البنية مناسبة للغاية للحوسبة السحابية، نظرًا لأن خدمات مثل AWS S3 أو Azure DLS2 يمكنها توفير التخزين المطلوب.
يمثّل نسيج البيانات جيلًا جديدًا من بنية منصات البيانات، ويمكن تعريفه على أنه: مجموعة غير مترابطة من الخدمات الموزعة، تُتيح توفر البيانات المناسبة بالشكل المناسب وفي الوقت والمكان المناسبين، من مصادر مختلفة ذات طبيعة معاملية وتحليلية، عبر أي المنصات السحابية والمحلية، وعادةً عبر الخدمة الذاتية، مع تلبية متطلبات غير وظيفية مثل الفعالية من حيث التكلفة، والأداء، والحوكمة والأمن والامتثال.
الغرض من نسيج البيانات هو إتاحة البيانات حيثما ومتى ما احتاجها المستخدم، مع إخفاء التعقيدات التقنية المتعلقة بحركة البيانات وتحويلها وتكاملها، فيتمكن أي شخص من استخدامها. ومن أبرز خصائص نسيج البيانات ما يلي:
يتكوّن نسيج البيانات من شبكة من عقد البيانات (مثل منصّات البيانات وقواعد البيانات)، تتفاعل مع بعضها لتقديم قيمة أكبر. وتنتشر عقد البيانات هذه عبر النظام البنائي للحوسبة الهجينة ومتعددة السحابة في المؤسسة.
يمكن أن يتكوّن نسيج البيانات من مستودعات بيانات متعددة، وبحيرات بيانات، وأجهزة إنترنت الأشياء (IOT)/الحافة، وقواعد بيانات معاملات. وقد يشمل تقنيات مثل Oracle وTeradata وHadoop، أو Snowflake على Azure، أو RedShift على AWS، أو MS SQL في مراكز البيانات المحلية، وغيرها.
يشمل نسيج البيانات جميع مراحل دورة حياة البيانات-المعلومات-الرؤى. فقد توفّر إحدى العقد بيانات خامًا لعقدة أخرى تقوم بدورها بعمليات تحليل. ويمكن كشف هذه التحليلات كواجهات برمجة تطبيقات REST داخل النسيج، لتتمكن أنظمة معاملات سجلات صناعة القرار من استهلاكها.
صُمّم نسيج البيانات لدمج العالمين: العالم التحليلي والعالم التشغيلي. فكل شيء هنا عبارة عن عقدة، وتتفاعل العقد عبر آليات متعددة. بعض هذه الآليات يتطلب نقل البيانات، والبعض الآخر يتيح الوصول دون نقل، الفكرة الأساسية هي أن صوامع البيانات (والتمايز) ستختفي في نهاية المطاف في هذه البنية.
تُفرض سياسات الأمان والحوكمة كلما تنقّلت البيانات أو تم الوصول إليها عبر نسيج البيانات. فكما يطبق Istio سياسات الأمان على الحاويات في Kubernetes، يُطبّق نسيج البيانات سياسات مماثلة على البيانات نفسها وفي الوقت الفعلي.
يدعم نسيج البيانات اكتشاف البيانات، إذ يمكن نشر أصول البيانات ضمن فئات، لإنشاء سوق بيانات على مستوى المؤسسة. وتوفّر هذه السوق آلية بحث تعتمد على البيانات الوصفية ورسومات المعرفة لتمكين اكتشاف الأصول، وإتاحة الوصول للبيانات عبر جميع مراحل دورة قيمتها.
يفتح نسيج البيانات آفاقًا جديدة لتغيير الثقافة المؤسسية ونماذج التشغيل. وباعتباره بنية موزعة ولكن شاملة، فهو يدعم حوكمة موحّدة ولكن مُجزّأة في الوقت نفسه، ما يجعل البيانات أكثر موثوقية. ويسهّل السوق المؤسسي اكتشاف البيانات واستخدامها للابتكار، كما يساعد الفرق المتنوعة على التعاون وإدارة الأصول المشتركة بروح الهدف الواحد.
نسيج البيانات هو بنية احتضانية، حيث تلعب بعض التقنيات الجديدة (مثل المحاكاة الافتراضية للبيانات) دورًا رئيسيًا. ومع ذلك، فهو يسمح لمنصّات البيانات وقواعد البيانات الحالية بالعمل ضمن شبكة يمكن فيها لكتالوج البيانات أو سوق البيانات أن يساعدا على اكتشاف الأصول الجديدة. وتُؤدِّي البيانات الوصفية دورًا رئيسيًا في هذا الاكتشاف.
جرى تقديم مفهوم شبكة البيانات من قِبل شركة Thoughtworks، التي عرّفته على النحو التالي:"...بنية بيانات تحليلية ونموذج تشغيلي تُعامل فيه البيانات كمنتج، وتكون ملكيتها للفرق الأكثر دراية بالبيانات والأقرب إلى استهلاكها." ويرتكز هذا المفهوم على أربعة مبادئ أساسية: ملكية النطاقات، والبيانات كمنتج، ومنصات البيانات ذاتية الخدمة، والحوكمة الحاسوبية الموحدة.
هناك تقاطعات بين مفهومي نسيج البيانات وشبكة البيانات، فكلاهما يوصي ببنية موزّعة، على عكس المنصّات المركزية مثل مستودع البيانات أو بحيرة البيانات أو مستودع بحيرة البيانات. وكلاهما يدفع باتجاه مفهوم منتج البيانات الذي يُقدَّم عبر سوق بيانات.
ومع ذلك، توجد اختلافات واضحة أيضًا، فمن التعريف السابق، يتضح أنه - على عكس نسيج البيانات - تركّز شبكة البيانات على البيانات التحليلية تحديدًا، أي إن نطاقها أضيق من نسيج البيانات. ثانيًا، تؤكد شبكة البيانات على نموذج التشغيل والثقافة التنظيمية، ما يعني أنها تتجاوز مجرد كونها بنية تقنية مثل نسيج البيانات. ففي حين يمكن أن يكون منتج البيانات في نسيج البيانات عامًا، فإن شبكة البيانات تنصّ بوضوح على ملكية منتجات البيانات حسب النطاق.
من الواضح أن لكل واحد من هذه المفاهيم تركيزه الخاص ونقاط قوّته، ومع ذلك فإن التداخل بينها واضح.
يتميّز مستودع بحيرة البيانات عن الاثنين الآخرين. فهو تقنية جديدة مثل نظرائه السابقين، ويمكن توصيفه ومعياريته. وتوجد منتجات متعددة في السوق تُجسّده، مثل Databricks وAzure Synapse وAmazon Athena.
أما شبكة البيانات، فهي تتطلّب نموذج تشغيل جديدًا وتغييرًا ثقافيًا. وغالبًا ما تحتاج هذه التغييرات الثقافية إلى تحوّل في العقلية الجمعية للمؤسسة. لذلك يمكن اعتبار شبكة البيانات نهجًا ثوريًا، إذ يمكن البدء بإنشائها من نقطة صغيرة داخل المؤسسة قبل أن تتوسع لباقي الأجزاء.
في المقابل، نسيج البيانات لا يتطلب مثل هذه المتطلبات المسبقة، ولا يتوقع مثل هذا التحول الثقافي. بل يمكن بناؤه اعتمادًا على الأصول القائمة التي استثمرت فيها المؤسسة على مدى سنوات. وبالتالي، فإن نهجه تطوري.
كيف يمكن للمؤسسة تبنّي هذه المفاهيم الثلاثة؟
يمكن للمؤسسة تبنّي مستودع بحيرة البيانات كجزء من رحلة تطوير منصّة البيانات الخاصة بها. فعلى سبيل المثال، قد يتخلّى بنك ما عن مستودع البيانات القديم لديه الممتد لعقد كامل، ويقدّم جميع حالات استخدام ذكاء الأعمال والذكاء الاصطناعي من خلال منصّة بيانات واحدة عبر تنفيذ مستودع بحيرة بيانات.
إذا كانت المؤسسة معقّدة وبها منصّات بيانات متعددة، وإذا كان اكتشاف البيانات صعبًا، وإذا كان توصيل البيانات لأجزاء مختلفة من المؤسسة يمثل تحديًا، فإن نسيج البيانات قد يكون البنية الأنسب لاعتمادها. ويمكن لعقد منصّات البيانات الحالية الانضمام إلى النسيج، بالإضافة إلى عقد مستودعات بحيرة بيانات واحدة أو متعددة. حتى قواعد البيانات التشغيلية يمكنها أيضًا الانضمام إلى شبكة النسيج كعقد تُقدّم أو تستهلك أصول البيانات.
لمعالجة تعقيد الأعمال، يمكن للمؤسسة الشروع في تحوّل ثقافي نحو ملكية البيانات حسب النطاق، ودعم الخدمة الذاتية في اكتشاف البيانات وتوصيلها، واعتماد الحوكمة الموحّدة، وبذلك تكون المؤسسة قد دخلت في رحلة شبكة البيانات. وإذا كانت بنية نسيج البيانات موجودة مسبقًا، فيمكن استخدامها كعامل تمكين رئيسي في رحلة شبكة البيانات. فعلى سبيل المثال، قد يتيح سوق البيانات داخل نسيج البيانات منتجات بيانات متمحورة حول النطاق، وهي نتيجة رئيسية لشبكة البيانات. كما أن قدرات اكتشاف البيانات المعتمدة على البيانات الوصفية والمبنية مسبقًا ضمن نسيج البيانات ستكون مفيدة في اكتشاف منتجات البيانات الجديدة الناتجة عن شبكة البيانات.
يمكن لكل مؤسسة النظر إلى أهدافها التجارية وتحديد نقطة البداية الأنسب لها. ورغم أن نقاط الدخول والدوافع قد تختلف، فإن المؤسسة يمكنها بسهولة استخدام المفاهيم الثلاثة معًا في رحلتها نحو أن تكون مؤسسة مرتكزة على البيانات.
صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.
يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.
استفِد من قيمة بيانات المؤسسة باستخدام IBM Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.