تشير بنية البيانات إلى كيفية إدارة البيانات، بدءًا من جمعها مرورًا بتحويلها وتوزيعها ووصولًا إلى استهلاكها. وهي تحدد مخطط البيانات وطريقة تدفقها عبر أنظمة تخزين البيانات. تعدّ بنية البيانات أساس عمليات معالجة البيانات وتطبيقات الذكاء الاصطناعي (AI).
يجب أن يكون تصميم منظومة البيانات معتمدًا على متطلبات العمل واحتياجات البيانات، حيث يستخدم مهندسو البيانات ومصممو بنية البيانات هذه المتطلبات لتحديد نموذج البيانات المناسب وهياكل البيانات الأساسية التي تدعمه. وعادةً ما تهدف هذه التصميمات إلى تنفيذ إستراتيجية العمل أو تلبية احتياجات العمل، مثل مبادرات إعداد التقارير أو علم البيانات.
مع ظهور مصادر جديدة للبيانات نتيجة ظهور التقنيات الناشئة، مثل إنترنت الأشياء (IoT)، تساعد منظومة البيانات الجيدة على ضمان إمكانية إدارة البيانات والاستفادة منها بفعالية، ما يدعم إدارة دورة حياة البيانات. وبشكل أكثر تحديدًا، يمكنها منع تخزين البيانات المكررة، وتحسين جودة البيانات من خلال التنقية وإلغاء التكرار، وتمكين التطبيقات الجديدة مثل الذكاء الاصطناعي التوليدي.
كما توفر منظومات البيانات الحديثة آليات لدمج البيانات عبر المجالات المختلفة، مثل الأقسام أو المناطق الجغرافية. فهي تزيل صوامع البيانات من دون الصعوبة البالغة التي يشهدها تخزين كل شيء في مكان واحد.
غالبًا ما تستخدم منظومات البيانات الحديثة المنصات السحابية لإدارة البيانات ومعالجتها. وعلى الرغم من أنها قد تكون مكلفة أكثر، فإن قابليتها للتوسع في الحوسبة تتيح إنجاز مهام معالجة البيانات المهمة بسرعة. كما تسهم قابلية التوسع في التخزين في التعامل مع الزيادة المستمرة في حجم البيانات وضمان توفُّر جميع البيانات ذات الصلة لتحسين جودة تدريب تطبيقات الذكاء الاصطناعي.
تتضمن وثائق منظومة البيانات 3 أنواع من نماذج البيانات:
يمكن لبنية البيانات أن تستفيد من أطر العمل الشائعة لبنية المؤسسات، بما في ذلك TOGAF وDAMA-DMBOK 2 وإطار Zachman لبنية المؤسسات.
طُوِرت منهجية بنية المؤسسة هذه في عام 1995 من قِبل Open Group، والتي تعد شركة IBM عضوًا بلاتينيًا فيها.
هناك أربع ركائز للبنية، وهي:
يوفر TOGAF إطار عمل كاملاً لتصميم بنية تقنية المعلومات الخاصة بالمؤسسة واستخدامها، بما في ذلك منظومة بياناتها.
تأسست الجمعية العالمية لإدارة البيانات DAMA International في بداية الأمر تحت اسم Data Management Association International، وهي مؤسسة غير ربحية تكرس جهودها لتطوير عملية إدارة البيانات والمعلومات. وتدير مجموعة Data Management Body of Knowledge (DAMA-DMBOK 2) التابعة لها منظومة البيانات، بالإضافة إلى الحوكمة والأخلاقيات، ونمذجة البيانات وتصميمها، وتخزينها، وأمنها، وتكاملها.
طُوّر هذا الإطار في الأصل John Zachman في IBM عام 1987، ويستخدم هذا الإطار مصفوفة مكونة من ست طبقات تبدأ بالطبقة السياقية وصولاً إلى الطبقة التفصيلية، وهي مرتبطة بستة أسئلة مثل "لماذا؟" و"كيف؟" و"ماذا؟". ويُعد هذا الإطار وسيلة رسمية لتنظيم البيانات وتحليلها، ولكنه لا يتضمن طرقًا لتنفيذ ذلك.
تعرض منظومة البيانات منظورًا عالي المستوى حول كيفية تكامل أنظمة إدارة البيانات مع بعضها. وتشمل هذه الأنظمة العديد من منصات البيانات ومستودعات تخزين البيانات المختلفة، مثل بحيرات البيانات، ومستودعات البيانات، ومتاجر البيانات، وقواعد البيانات، وغيرها.
يمكن أن تشكل هذه العناصر معًا منظومات بيانات، مثل أنسجة البيانات وشبكات البيانات، التي تزداد شهرةً. وتركز هذه المنظومات بشكل أكبر على البيانات كمنتجات، ما يسهم في تعزيز توحيد البيانات الوصفية ويتيح وصولاً أكثر ديموقراطية إلى البيانات عبر المؤسسات من خلال واجهات برمجة التطبيقات.
يتناول القسم التالي كل نوع من عناصر التخزين وأنواع بنية البيانات هذه بمزيد من التفصيل:
يجمع مستودع البيانات البيانات من المصادر المختلفة للبيانات العلائقية عبر المؤسسة في مستودع مركزي واحد متسق. بعد عملية الاستخراج، تتدفق البيانات عبر مسار بيانات متمثل في الاستخراج، والتحويل، والتحميل (ETL) ، حيث تخضع للعديد من عمليات تحويل البيانات لتتماشى مع نموذج البيانات المحدد مسبقًا. وبمجرد تحميلها في نظام مستودعات البيانات، تصبح البيانات جاهزة لدعم مختلف تطبيقات ذكاء الأعمال (BI) وتطبيقات علم البيانات.
متجر البيانات هو إصدار مصغر من مستودع البيانات الذي يحتوي على مجموعة فرعية أصغر من البيانات المهمة والتي يحتاجها فريق واحد أو مجموعة مختارة من الأطراف المعنية، مثل قسم الموارد البشرية. وبفضل احتواء متاجر البيانات على مجموعة فرعية أصغر من البيانات، فإنها تتيح للقسم أو وحدة العمل اكتشاف معارف أكثر تركيزًا بشكل أسرع مما هو ممكن عند العمل مع مجموعة بيانات مستودع البيانات الأوسع نطاقًا.
وقد ظهرت متاجر البيانات في الأصل استجابة للصعوبات التي واجهتها المؤسسات عند إنشاء مستودعات البيانات في التسعينيات، حيث تطلبت عملية تكامل البيانات عبر المؤسسة في ذلك الوقت الكثير من جهود البرمجة اليدوية، وكانت تستغرق وقتًا طويلاً بشكل غير عملي. وقد أسهم النطاق الأكثر محدودية لمتاجر البيانات في تميزها بالسهولة والسرعة في التنفيذ مقارنةً بمستودعات البيانات المركزية.
في حين تخزن مستودعات البيانات البيانات المعالجة، فإن بحيرة البيانات تحتوي على بيانات غير منسقة، وعادةً ما تكون بأحجام بيتابايت. تتميز بحيرة البيانات بقدرتها على تخزين البيانات المنظمة وغير المنظمة على حد سواء، ما يجعلها مميزة عن مستودعات البيانات الأخرى. توفر هذه المرونة في متطلبات التخزين فائدة كبيرة لمحللي البيانات وعلماء البيانات ومهندسي البيانات والمطورين، ما يسمح لهم بالوصول إلى البيانات من أجل تمارين اكتشاف البيانات ومشاريع التعلم الآلي .
تم إنشاء بحيرات البيانات في الأصل كرد فعل لعجز مستودعات البيانات عن التعامل مع تزايد الحجم والسرعة والتنوع للبيانات الكبيرة. وعلى الرغم من أن بحيرات البيانات أبطأ من مستودعات البيانات، إلا أنها أيضًا أقل تكلفة، حيث لا تتطلب إعدادًا للبيانات قبل استيعاب هذه البيانات. واليوم، تستمر هذه البحيرات في التطور باعتبارها جزءًا من جهود نقل البيانات إلى التقنية السحابية.
تدعم بحيرات البيانات مجموعة واسعة من حالات الاستخدام، حيث لا يلزم تحديد أهداف الأعمال المتعلقة بالبيانات في وقت جمع البيانات. ومع ذلك، توجد حالتان أساسيتان من حالات الاستخدام تشملان جهود استكشاف علم البيانات وجهود النسخ الاحتياطي للبيانات واستردادها.
يمكن لعلماء البيانات استخدام بحيرات البيانات لإثبات صحة المفاهيم. تستفيد تطبيقات التعلم الآلي من القدرة على تخزين البيانات المنظمة وغير المنظمة في مكان واحد، وهو أمر غير ممكن باستخدام نظام قاعدة البيانات العلائقية.
كما يمكن استخدام بحيرات البيانات لاختبار وتطوير مشاريع تحليلات البيانات الكبيرة. وعندما يتم تطوير التطبيق وتحديد البيانات المفيدة، يمكن تصدير البيانات إلى مستودع بيانات للاستخدام التشغيلي، ويمكن استخدام الأتمتة لتوسيع نطاق التطبيق.
كما يمكن استخدام بحيرات البيانات للنسخ الاحتياطي للبيانات واستردادها، بفضل قدرتها على التوسع بتكلفة منخفضة. وللأسباب نفسها، تُعد بحيرات البيانات خيارًا جيدًا لتخزين البيانات "الاحتياطية" التي لم تُحدَّد بعد احتياجات العمل لها. ويضمن تخزين البيانات الآن توفّرها في وقت لاحق عند ظهور مبادرات جديدة.
مستودع بحيرة البيانات هو منصة بيانات تجمع بين مزايا مستودعات البيانات وبحيرات البيانات في حل واحد لإدارة البيانات .
تجمع بحيرة البيانات بين التخزين منخفض التكلفة ومحرك الاستعلام فائق الأداء والحوكمة الذكية للبيانات الوصفية. وهذا يُمكِّن المؤسسات من تخزين كميات هائلة من البيانات المنظمة وغير المنظمة، ويسهّل استخدام هذه البيانات في جهود الذكاء الاصطناعي والتعلم الآلي والتحليلات.
قاعدة البيانات هي المستودع الرقمي الأساسي لتخزين البيانات وإدارتها وتأمينها. تُخزن أنواع قواعد البيانات المختلفة البيانات بطرق مختلفة. على سبيل المثال، تخزن قواعد البيانات العلائقية (والتي تسمى أيضًا "قواعد بيانات SQL ") البيانات في جداول محددة مكونة من صفوف وأعمدة. يمكن لقواعد البيانات غير العلائقية (والتي تسمى أيضًا "قواعد بيانات NoSQL") تخزينها على هيئة هياكل بيانات مختلفة، بما في ذلك أزواج قيمة المفاتيح أو الرسوم البيانية.
نسيج البيانات هو منظومة تركز على أتمتة تكامل البيانات وهندسة البيانات و الحوكمة في سلسلة قيمة البيانات بين مزودي البيانات ومستهلكي البيانات.
ويستند نسيج البيانات إلى مفهوم "البيانات الوصفية النشطة" الذي يستخدم كتالوجات البيانات، والرسم البياني المعرفي، والدلالات، والتنقيب عن البيانات، وتقنية التعلّم الآلي (ML) لاكتشاف الأنماط في أنواع مختلفة من البيانات الوصفية (مثل سجلات النظام والبيانات الاجتماعية وغيرها). ثم يطبق هذا المفهوم هذه المعارف لأتمتة سلسلة قيمة البيانات وتنظيمها.
فعلى سبيل المثال، يتيح نسيج البيانات الفرصة لمستهلك البيانات للعثور على منتج البيانات الذي يحتاجه ومن ثمّ تزويده به تلقائيًا. وتؤدي زيادة الوصول إلى البيانات بين منتجات البيانات ومستهلكيها إلى تقليل صوامع البيانات، كما توفر صورة أكثر اكتمالاً حول بيانات المؤسسة.
تُعد أنسجة البيانات تقنية ناشئة ذات إمكانات فائقة. ويمكن استخدامها لتحسين ملفات تعريف العملاء و الكشف عن الغش والصيانة الوقائية. ووفقًا لتقرير Gartner، تقلل أنسجة البيانات من الوقت اللازم لإنشاء التكامل بنسبة 30%، والوقت اللازم للنشر بنسبة 30%، والوقت اللازم للصيانة بنسبة 70%.
شبكة البيانات هي منظومة بيانات غير مركزية تنظم البيانات حسب مجال العمل.
وعند استخدام شبكة البيانات، تحتاج المؤسسات إلى التوقف عن التعامل مع البيانات كمنتج ثانوي في العمليات، والبدء في التعامل معها كمنتج قائم بذاته. يضطلع منتجو البيانات بدور مالكي منتجات البيانات. وبصفتهم خبراء متخصصين، يمكن لمنتجي البيانات الاعتماد على فهمهم للمستهلكين الأساسيين للبيانات لتصميم واجهات برمجة التطبيقات المناسبة لهم. كما يمكن الوصول إلى واجهات برمجة التطبيقات هذه من أقسام أخرى في المؤسسة، ما يعزز الوصول إلى البيانات المدارة على نطاق أوسع.
يمكن استخدام المزيد من أنظمة التخزين التقليدية، مثل بحيرات البيانات ومستودعات البيانات كمخازن بيانات لا مركزية متعددة لدعم شبكة البيانات. كما يمكن أن تعمل شبكة البيانات جنبًا إلى جنب مع نسيج البيانات، حيث تسهم أتمتة نسيج البيانات في إنشاء منتجات بيانات جديدة بسرعة أكبر أو فرض الحوكمة الشاملة على مستوى المؤسسة.
يمكن أن توفر بنية البيانات المصممة بعناية للشركات عددًا من الفوائد الرئيسية، والتي تشمل ما يلي:
قد تحتوي المصادر المختلفة على حقول بيانات متداخلة، ما يؤدي إلى خطر عدم الاتساق وعدم دقة البيانات وضياع فرص تكامل البيانات. تسهم منظومة البيانات الجيدة في توحيد كيفية تخزين البيانات، واحتمالية تقليل التكرار، ما يؤدي إلى تحسين جودة التحليلات الشاملة.
منظومات البيانات المصممة بشكل جيد يمكنها حل بعض التحديات المرتبطة بسوء إدارة بحيرات البيانات، والمعروفة أيضًا باسم "مستنقعات البيانات". ويفتقر مستنقع البيانات إلى معايير بيانات ملائمة تشمل معايير جودة البيانات وممارسات حوكمة البيانات لاستخلاص دروس مفيدة.
تساعد منظومات البيانات على تطبيق معايير حوكمة البيانات وأمنها وتتيح الإشراف المناسب على مسارات البيانات. من خلال تحسين جودة البيانات وحوكمتها، يمكن أن تساعد منظومات البيانات على ضمان تخزين البيانات بطريقة تجعلها مفيدة في الوقت الحالي وفي المستقبل.
غالبًا ما تكون البيانات في صوامع نتيجة للقيود التقنية على تخزين البيانات والعوائق التنظيمية داخل المؤسسة. تهدف منظومات البيانات الحديثة إلى تسهيل تكامل البيانات عبر مختلف المجالات، بحيث تتمكن الفرق الجغرافية ووحدات الأعمال المختلفة من الوصول إلى بيانات بعضها. ويؤدي ذلك إلى فهم أفضل وأكثر اتساقًا للمقاييس الشائعة مثل النفقات والإيرادات والعوامل المرتبطة بها. كما أنه يتيح رؤية أكثر شمولية للعملاء والمنتجات والمناطق الجغرافية لدعم صناعة القرار القائمة على البيانات.
تتيح منظومة البيانات الحديثة إمكانية إدارة البيانات على المدى الطويل. وعادةً ما تفقد البيانات قيمتها تدريجيًا مع مرور الوقت وتقل نسبة استخدامها. لذلك، يمكن نقل البيانات بمرور الوقت إلى أنواع تخزين أرخص وأبطأ بحيث تظل متاحة لإعداد التقارير وعمليات التدقيق، من دون الحاجة إلى تكلفة التخزين فائق الأداء.
بينما تضع المؤسسات خارطة طريق لتطبيقات المستقبل، بما في ذلك الذكاء الاصطناعي وسلسلة الكتل وأحمال تشغيل إنترنت الأشياء (IoT)، فإنها تحتاج إلى منظومة بيانات حديثة تُلبي متطلبات البيانات.
فيما يلي أهم خصائص منظومة البيانات الحديثة:
استخدم حلول قاعدة بيانات IBM لتلبية احتياجات أحمال التشغيل المتنوعة عبر السحابة الهجينة.
اكتشف، IBM Db2، وهي قاعدة بيانات علائقية توفر مستوى عالٍ من الأداء وقابلية التوسع والموثوقية لتخزين وإدارة البيانات المنظمة. وتتوفر كنظام SaaS على IBM Cloud أو للاستضافة الذاتية.
استفِد من قيمة بيانات المؤسسة مع IBM Consulting لبناء مؤسسة تعتمد على الرؤى لتحقيق ميزة تنافسية في الأعمال.