تشير بنية البيانات إلى كيفية إدارة البيانات، بدءًا من جمعها مرورًا بتحويلها وتوزيعها ووصولًا إلى استهلاكها. وهي تحدد مخطط البيانات وطريقة تدفقها عبر أنظمة تخزين البيانات. تعدّ بنية البيانات أساس عمليات معالجة البيانات وتطبيقات الذكاء الاصطناعي (AI).
يجب أن يكون تصميم بنية البيانات مدفوعًا بمتطلبات العمل، حيث يستخدم مهندسو البيانات ومصممو بنية البيانات هذه المتطلبات في تحديد نموذج البيانات المعني وهياكل البيانات الأساسية التي تدعمه. وعادةً ما تهدف هذه التصميمات إلى تلبية احتياجات العمل، مثل مبادرة إعداد التقارير أو علم البيانات.
مع ظهور مصادر جديدة للبيانات من خلال التقنيات الناشئة، مثل إنترنت الأشياء (IoT)، تساعد بنية البيانات الجيدة على ضمان إمكانية إدارة البيانات والاستفادة منها بفعالية، ما يدعم إدارة دورة حياة البيانات. وبشكل أكثر تحديدًا، يمكنها تجنب تخزين البيانات المكررة، وتحسين جودة البيانات من خلال التنقية وإلغاء التكرار، وتمكين التطبيقات الجديدة.
كما توفر بنيات البيانات الحديثة آليات لدمج البيانات عبر المجالات المختلفة، مثل الإدارات أو المناطق الجغرافية، ما يساعد على كسر صوامع البيانات دون الحاجة إلى التعقيدات المصاحبة لتخزين كل شيء في مكان واحد.
غالبًا ما تستخدم بنيات البيانات الحديثة المنصات السحابية لإدارة البيانات ومعالجتها. وعلى الرغم من أنها قد تنطوي على تكلفة أعلى، إلا أن قابليتها للتوسع في الحوسبة تتيح إنجاز مهام معالجة البيانات المهمة بسرعة. كما تساهم قابلية التوسع في التخزين في التعامل مع الزيادة المستمرة في حجم البيانات، والمساعدة على ضمان توفُّر جميع البيانات ذات الصلة لتحسين جودة تدريب تطبيقات الذكاء الاصطناعي.
تعرّف على العناصر الأساسية وأفضل الممارسات لمساعدة فِرق عملك على تسريع الذكاء الاصطناعي المسؤول.
تتضمن وثائق بنية البيانات ثلاثة أنواع من نماذج البيانات:
يمكن لبنية البيانات أن تستفيد من أطر العمل الشائعة لبنية المؤسسات، بما في ذلك TOGAF وDAMA-DMBOK 2 وإطار Zachman لبنية المؤسسات.
إطار عمل The Open Group Architecture Framework (TOGAF)
طُوِرت منهجية بنية المؤسسة هذه في عام 1995 من قِبل Open Group، والتي تعد شركة IBM عضوًا بلاتينيًا فيها.
هناك أربع ركائز للبنية، وهي:
على هذا النحو، يوفر TOGAF إطار عمل كامل لتصميم وتنفيذ بنية تقنية المعلومات الخاصة بالمؤسسة، بما في ذلك بنية بياناتها.
إطار العمل DAMA-DMBOK 2
تأسست الجمعية العالمية لإدارة البيانات DAMA International في الأصل تحت مسمى "الجمعية العالمية لإدارة البيانات"، وهي منظمة غير ربحية تكرس جهودها للنهوض بإدارة البيانات والمعلومات. وتشمل مجموعة معارف إدارة البيانات التابعة لها، المسماة إطار العمل DAMA-DMBOK 2، بنية البيانات، بالإضافة إلى الحوكمة والأخلاقيات، ونمذجة البيانات وتصميمها، والتخزين، والأمن، والتكامل.
إطار العمل Zachman لبنية المؤسسات
تم تطوير هذا الإطار في الأصل من قِبل John Zachman في IBM عام 1987، ويستعين هذا الإطار بمصفوفة تتألف من ست طبقات تبدأ من الطبقة السياقية وصولًا إلى الطبقة التفصيلية، وهي محددة على أساس ستة أسئلة مثل "لماذا؟" و"كيف؟" و"ماذا؟". ويُعتبر هذا الإطار وسيلة رسمية لتنظيم وتحليل البيانات، ولكنه لا يتضمن طرقًا لتنفيذ ذلك.
تعرض بنية البيانات منظورًا عالي المستوى حول كيفية عمل أنظمة إدارة البيانات المختلفة معًا. وتشمل هذه الأنظمة العديد من مستودعات تخزين البيانات المختلفة، مثل بحيرات البيانات، ومستودعات البيانات، ومتاجر البيانات، وقواعد البيانات، وغيرها. يمكن أن تُشكّل هذه العناصر معًا بنى بيانات، مثل الأنسجة البيانية وشبكات البيانات، التي يزداد رواجها بشدة. وتركز هذه البُنى بشكل أكبر على البيانات كمنتجات، ما يساهم في تعزيز التوحيد القياسي حول البيانات الوصفية ويتيح وصولاً أكثر ديمقراطية للبيانات عبر المنظمات من خلال واجهات برمجة التطبيقات.
يتناول القسم التالي كل نوع من عناصر التخزين وأنواع بنية البيانات هذه بمزيد من التفصيل:
أنواع أنظمة إدارة البيانات
أنواع بُنَى البيانات
نسيج البيانات: نسيج البيانات عبارة عن بنية تركز على الأتمتة في تكامل البيانات وهندسة البيانات وحوكمتها عبر سلسلة قيمة البيانات بين مزودي البيانات ومستهلكيها. ويستند نسيج البيانات إلى مفهوم "البيانات الوصفية النشطة" الذي يستخدم الرسم البياني المعرفي والدلالات والتنقيب عن البيانات وتقنية التعلّم الآلي (ML) لاكتشاف الأنماط في أنواع مختلفة من البيانات الوصفية (مثل سجلات النظام والبيانات الاجتماعية وغيرها). بعد ذلك، يطبق هذا المفهوم هذه الرؤية لأتمتة سلسلة قيمة البيانات وتنظيمها. فعلى سبيل المثال، يتيح لنسيج البيانات الفرصة أمام مستهلك البيانات للعثور على منتج البيانات الذي يحتاجه ومن ثمّ تزويده به تلقائيًا. وتؤدي زيادة الوصول إلى البيانات بين منتجات البيانات ومستهلكيها إلى تقليل العزل بين البيانات، كما توفر صورة أكثر اكتمالاً لبيانات المنظمة. تُعد أنسجة البيانات تقنية ناشئة ذات إمكانات هائلة، ويمكن استخدامها لتعزيز ملفات تعريف العملاء، والكشف عن الغش، والصيانة الوقائية. ووفقًا لتقرير Gartner، تقلل أنسجة البيانات من وقت تصميم التكامل بنسبة 30%، ووقت النشر بنسبة 30%، والصيانة بنسبة 70%.
شبكات البيانات: شبكة البيانات هي بنية بيانات لا مركزية تنظم البيانات حسب مجال العمل. وباستخدام شبكة البيانات، تحتاج المنظمة إلى التوقف عن التعامل مع البيانات كمنتج ثانوي للعمليات، والبدء في التعامل معها باعتبارها منتجًا قائمًا بذاته. يضطلع منتجو البيانات بدور مالكي منتجات البيانات. وباعتبارهم خبراء في هذا المجال، يمكن لمنتجي البيانات الاعتماد على فهمهم للمستهلكين الأساسيين للبيانات لتصميم واجهات برمجة التطبيقات المناسبة لهم. كما يمكن الوصول إلى واجهات برمجة التطبيقات هذه من أقسام أخرى في المنظمة، ما يعزز الوصول إلى البيانات المدارة على نطاق أوسع.
يمكن استخدام المزيد من أنظمة التخزين التقليدية، مثل بحيرات البيانات ومستودعات البيانات كمخازن بيانات لا مركزية متعددة لدعم شبكة البيانات. كما يمكن أن تعمل شبكة البيانات جنبًا إلى جنب مع نسيج البيانات، حيث تساهم أتمتة نسيج البيانات في إنشاء منتجات بيانات جديدة بسرعة أكبر أو فرض الحوكمة الشاملة على مستوى المنظمة.
يمكن أن توفر بنية البيانات المصممة بعناية للشركات عددًا من المزايا الرئيسية، والتي تشمل ما يلي:
بينما تضع المنظمات خارطة طريق لتطبيقات المستقبل، بما في ذلك الذكاء الاصطناعي وسلسلة الكتل وأحمال تشغيل إنترنت الأشياء (IoT)، فإنها تحتاج إلى بنية بيانات حديثة قادرة على تلبية متطلبات البيانات.
فيما يلي أهم سبع خصائص لبنية البيانات الحديثة:
IBM Cloud Pak for Data هي منصة بيانات مفتوحة وقابلة للتوسيع توفر نسيج بيانات لتوفير جميع البيانات للذكاء الاصطناعي والتحليلات في أي بيئة سحابية.
يمكنه بناء نماذج الذكاء الاصطناعي وتشغيلها وإدارتها. يمكنك إعداد البيانات وبناء النماذج على أي سحابة باستخدام رمز مفتوح المصدر أو نمذجة مرئية. ويمكنك من خلاله توقّع نتائجك وتحسينها.
تعرّف على Db2 on Cloud، وهي قاعدة بيانات سحابية SQL مُدارة بالكامل ومُهيأة ومُحسّنة لتحقيق أداء قوي.
اقرأ الورقة البحثية الذكية حول كيفية إنشاء أساس قوي للبيانات من أجل الذكاء الاصطناعي من خلال التركيز على ثلاثة مجالات رئيسية لإدارة البيانات: الوصول، والحوكمة، والخصوصية والامتثال.
يمكن أن يساعد نسيج البيانات الشركات التي تستثمر في الذكاء الاصطناعي والتعلم الآلي وإنترنت الأشياء وحوسبة الحافة في تحقيق قيمة أكبر من بياناتها.