ما هو عقد البيانات؟

تعريف عقود البيانات

عقود البيانات هي اتفاقيات رسمية بين منتجي البيانات ومستهلكيها، تُحدد جودة البيانات وبنيتها ودلالاتها ومدى توفر البيانات. إنَّ إنشاء هذه الاتفاقيات وتنفيذها يمكن أن يساعد الشركات على تعزيز صنع القرار القائم على البيانات.

 

على غرار عقود العمل التقليدية، تتضمن عقود البيانات شروطاً وأحكاماً تحكم ما يتم تسليمه من طرف إلى آخر. في عقد البيانات، يمكن أن يشمل ذلك مكونات مثل قواعد جودة البيانات، وتحديدات المخطط ، واتفاقيات مستوى الخدمة، ومعلومات منتج البيانات، ومعلومات الخادم.

ومع ذلك، فإن وجه الاختلاف الحقيقي لعقود البيانات يكمن في أنها مكتوبة برمجياً؛ ومن ثم، فإن هذه الاتفاقيات قابلة للتنفيذ من خلال الأتمتة بدلاً من العمليات اليدوية.

تأثير عقود البيانات على هندسة البيانات يُشبّه بتأثير واجهات برمجة التطبيقات (APIs) على تطوير البرمجيات. تُحدد واجهات برمجة التطبيقات (APIs) القواعد التي تُمكِّن تطبيقات البرمجيات من التواصل مع بعضها البعض، بينما تُحدد عقود البيانات القواعد التي تُمكِّن مستهلكي البيانات من تكامل البيانات واستخدامها بنجاح من مصادر مختلفة.

وكما يُعزى إلى واجهات برمجة التطبيقات (APIs) الفضل في تحسين الإنتاجية وتسريع وتيرة الابتكار في تطوير البرمجيات، فإن التطبيق الناجح لعقود البيانات يمكن أن يحقق مجموعة واسعة من الفوائد للمؤسسات ومستخدمي البيانات على حدٍ سواء.

وأكثر هذه الأمور أهمية هو منع فشل مسارات البيانات؛ فمن دون عقود البيانات، يمكن أن تؤدي التغييرات التي تطرأ في المراحل السابقة لإنتاج البيانات إلى عواقب وخيمة على المستخدمين في المراحل اللاحقة. يمكن لعقود البيانات ضمان تحديد هذه التغييرات العاجلة ومعالجتها قبل أن تؤثر على مستهلكي البيانات.

تشمل الفوائد الأخرى لعقود البيانات تحسينات جودة البيانات، وحوكمة البيانات ، وقابلية التوسع. توفر عقود البيانات أيضًا دعمًا أساسيًا لمنتجات البيانات وبنيات شبكة البيانات التي تُمكِّن مستخدمي الأعمال من العثور على القيمة واستخلاصها من البيانات عبر المؤسسة.

هناك مجموعة متنوعة من الأدوات والمنصات التي تساعد الشركات على تحديد عقود البيانات وفرضها، بما في ذلك أدوات جودة البيانات ومنصات حوكمة البيانات.

ما أهمية عقود البيانات؟

تُعد مسارات البيانات الهشة والمعطلة مصدر إزعاج للعديد من مهندسي البيانات. وجدت إحدى الدراسات أن أكثر من نصف المهندسين يواجهون أعطالًا في مسارات البيانات في أنظمة بياناتهم مرة واحدة على الأقل شهريًا ، إن لم يكن أكثر.1

وكما أشار أحد مهندسي البيانات، إن غالباً ما تكون مسارات البيانات "تُجمَع معاً بالشريط اللاصق وبدافع اليأس." وعندما تفشل، يمكن أن تقوض عملية اتخاذ القرار ومبادرات الذكاء الاصطناعي (AI) بشكل كارثي.

يمكن لعقود البيانات أن تساعد في منع مثل هذه العواقب من خلال استهداف مصدر متكرر لإخفاقات تدفق المسارات: وهو عدم التوافق بين منتجي البيانات ومستهلكيها. يحدث عدم الاتساق عندما لا تلبي البيانات الجديدة المقدمة من مُنتجي البيانات توقعات المستهلكين ، والذين قد يعتمدون على أنواع بيانات، ومخططات، وقيود معينة لتناسب حالات الاستخدام الخاصة بهم.

ومِن المفهوم أن يشعر المستهلكون في المراحل اللاحقة "بالشك بشأن استقرار البيانات التي يجدونها"، وفقًا لـ Jean-Georges Perrin، وهو حائز على لقب بطل IBM مدى الحياة. "لكي يتحقق عامل الثقة، يتعين على منتج البيانات أو مالكها إظهار الالتزام وضمانه"، كما كتب Perrin

إن مثل هذا الالتزام—سواء كان يتعلق بجودة البيانات، أو التحقق من صحتها، أو الوصول إليها، أو بنيتها—يمكن ضمانه من خلال تطبيق عقود البيانات. عندما يتوافق منتجو البيانات ومستهلكوها على متطلبات البيانات ويقومون بتقنينها، يمكن لذك أن يمنع مشكلات جودة البيانات قبل أن تؤثر على سير العمل في المراحل اللاحقة.

تظهر عقود البيانات كعنصر بالغ الأهمية لا سيما في سير عمل الذكاء الاصطناعي؛ لأن ضمان توفير البيانات المناسبة لتدريب النماذج وتحليل البيانات أمر حاسم لتحقيق توقعات دقيقة.

قال Perrin: "إنك تحصل على بيانات أفضل في أنظمتك، وبذلك تتجنب قاعدة البيانات الفاسدة تؤدي إلى نتائج فاسدة".

منتجو البيانات ومستهلكو البيانات: الاختلافات والأدوار الرئيسية

بما أن عدم التوافق بين منتجي البيانات ومستهلكيها هو الدافع الرئيسي وراء الحاجة إلى عقود البيانات، فمن المفيد إلقاء نظرة عن كثب على كلتا المجموعتين وأدوارهما داخل منظومات البيانات.

  • غالباً ما يكون منتجو البيانات هم مهندسو البرمجيات الذين يقومون بجمع البيانات وتخزينها أثناء بناء التطبيقات. غالباً ما تتضمن هذه البيانات أحداث المعاملات، مثل طلبات العملاء، والتي يمكن أن تتباين بشكل هائل من حيث المخطط، والحجم، والمحتوى، وما إلى ذلك.2

  • تضم فئة مستهلكي البيانات مستهلكي البيانات التقنيين (مهندسي البيانات، وعُلماء البيانات، وغيرهم من أعضاء فرق البيانات الذين يستخدمون لغات البرمجة لتحويل البيانات وتحليلها وبناء مسارات البيانات)، ومستهلكي البيانات غير التقنيين، وتحديداً مستخدمي الأعمال الذين يستخدمون البيانات المحوَّلة لاتخاذ قرارات مدروسة.

يعتمد مستهلكو البيانات على مُنْتِجيها لإتاحتها للاستخدام في المراحل اللاحقة. لكن هذا الاعتماد في حد ذاته لا ينشئ علاقة قوية بين المستهلكين والمنتجين. يعود السبب في ذلك إلى أن منتجي للبيانات يميلون إلى تخزين البيانات بالصيغ الأكثر ملاءمة لتطبيقاتهم—وحيث إن احتياجات إدارة البيانات للمستهلكين في المراحل اللاحقة لا تشكّل بالضرورة جزءاً من تركيزهم الأساسي.

وبناءً على ذلك، عندما يقوم مهندسو البرمجيات بتحديث التطبيقات والتعليمات البرمجية، فقد لا يضعون في الحسبان مدى تأثير هذه التحديثات على البيانات التي يتم تسليمها في نهاية المطاف إلى مستهلكي البيانات.

عندما تكون مثل هذه التغييرات غير متوقعة — حتى وإن كانت تغييرات صغيرة نسبيًا مثل إسقاط عمود واحد من جدول يحتوي على 1000 عمود — فقد ينجم عن ذلك حالة من الفوضى لدى مستهلكي البيانات. يمكن أن تؤدي هذه التغييرات المزعومة إلى تعطيل تدفقات البيانات وتعريض توافق مجموعة البيانات للخطر.

نتيجةً لذلك، تفشل النصوص البرمجية، وتصبح لوحات المعلومات قديمة أو غير دقيقة، ويُحرم كلٌّ من البشر ووكلاء الذكاء الاصطناعي من البيانات الموثوقة اللازمة لاتخاذ القرارات والعمليات الأساسية.

من خلال إبرام اتفاقيات نهائية بين منتجي البيانات ومستهلكيها، يمكن لعقود البيانات كسر العزلة بين المجموعتين، مما يمنع عدم الاتساق ويدعم مسارات بيانات أكثر فاعلية.

ماذا تتضمن عقود البيانات؟

إن عقود البيانات، كما يرى مؤيدوها، تُحوّل الافتراضات الضمنية إلى ضمانات صريحة؛ فهي تُفصّل بدقة ما يتعين على منتجي البيانات تقديمه لمستهلكيها، وكيفية تحقيق آلية هذا التسليم المتوقعة منهم. تتضمن العناصر الرئيسية لعقود البيانات ما يلي:

  • الأساسيات
  • المخطط
  • جودة البيانات
  • قنوات الدعم
  • التسعير
  • الفريق
  • الأدوار
  • اتفاقيات مستوى الخدمة (SLAs)
  • البنية التحتية والخوادم

الأساسيات

المبادئ الأساسية، والمعروفة أيضًا بالبيانات الديموغرافية، تشمل معلومات عامة عن العقد. يمكن أن يشمل ذلك المعرِّفات الفريدة، وإصدار العقد (على سبيل المثال، 1.0 أو 2.0)، وحالة العقد (مثل "نشط" أو "متقاعد")، والغرض المقصود من البيانات، والقيود القانونية المفروضة على استخدام البيانات.

المخطط

يوضح تعريف المخطط كيفية تنظيم البيانات. وهو يحدد الكائنات (بِنى البيانات مثل الجداول والمستندات)، وخصائص الكائنات (مثل الأعمدة في الجدول)، والبيانات الوصفية لأنواع البيانات المضمّنة، مثل الطوابع الزمنية وحدود طول السلسلة النصية. يمكن أن تساعد سجلات المخطط، وهي مستودعات مركزية لإدارة المخططات، في دعم عقود البيانات.

جودة البيانات

تحدد عقود البيانات القواعد والمعلمات لضمان بيانات عالية الجودة. يمكن لهذه الأدوات معالجة العديد من مقاييس جودة البيانات، مثل الدقة، والاكتمال، والصلاحية، وعدد القيم الفارغة. إضافةً إلى ذلك، يمكن للقواعد المخصصة أن تتيح إجراء فحص الجودة بواسطة أدوات جودة البيانات.

قنوات الدعم

يمكن لاتفاقيات البيانات إدراج مصادر للدعم — مثل قنوات Slack، وقنوات Teams، ومحادثات Discord، وقوائم التوزيع عبر البريد الإلكتروني، والمواقع الإلكترونية — لمستهلكي البيانات الذين يحتاجون إلى المساعدة بشأن اتفاقيات البيانات الخاصة بهم.

التسعير

يحدد قسم التسعير في عقد البيانات المبالغ التي يتم تحصيلها من مستهلك البيانات مقابل منتج البيانات. يمكن أن تتضمن العملة المستخدمة ووحدة القياس (مثل الميجابايت أو الجيجابايت) التي يمكن استخدامها لحساب التكلفة.

الفريق

تتضمن خانة فريق العمل في عقد البيانات معلومات عن أعضاء الفريق المالك للبيانات وعلاقتهم بعقد البيانات، وهي الخانة التي كانت تُعرف في بعض نماذج عقود البيانات الأقدم باسم "الأطراف المعنية".

الأدوار

يُدرج قسم الأدوار في عقد البيانات الأدوار التي تمنح مستهلكي البيانات أنواعًا مختلفة من صلاحيات الوصول (مثل صلاحيات القراءة أو الكتابة) إلى مجموعة البيانات.

اتفاقيات مستوى الخدمة (SLAs)

تتضمن عقود البيانات أوصافاً لاتفاقيات مستوى الخدمة، والتي تحدد مستوى الأداء المتوقع من المزود تحقيقه. على سبيل المثال، قد تتضمن أقسام اتفاقية مستوى الخدمة (SLA) ضمانات بشأن موعد توفر البيانات ومدة الاحتفاظ بها.

البنية التحتية والخوادم

تحديد خادم البيانات — مثل Kafka أو Microsoft SQL أو Google BigQuery أو IBM Db2 — يتيح إمكانية اكتشافها لمستهلكي البيانات، مع تزويد مهندسي المنصات بالمعلومات التي يحتاجون إليها لأتمتة عملية الوصول. يمكن أن يتضمن هذا القسم أيضًا معلومات عن بيئات مختلفة، مثل التطوير والإنتاج.

بالإضافة إلى القيم الأساسية لعقد البيانات، يمكن للأطراف المعنية إضافة خصائص مخصصة إلى عقود البيانات لتلبية احتياجاتهم المحددة. تتضمن الإصدارات الأخيرة من قوالب عقود البيانات الشائعة أيضًا القدرة على توثيق العلاقات بين الخصائص، والإشارة إلى العقود الخارجية، والوصول إلى مكتبة من قواعد جودة البيانات المحددة مسبقًا لإجراء فحص متسق للجودة.

ما هي صيغة عقود البيانات؟

تختلف عقود البيانات بشكل ملحوظ عن العقود الأخرى في أنها ليست مكتوبة بلغة واضحة. بل عادةً ما تُكتب بلغة YAML أو JSON، وهما لغتان لتسلسل البيانات يمكن للإنسان والآلة قراءتهما. (بالنسبة للمستخدمين الذين ليسوا على دراية بلغات تسلسل التعليمات البرمجية، يمكنهم إنشاء عقود البيانات في برنامج Excel وتحويلها إلى ملفات YAML عبر الأداة مفتوحة المصدر، Data Contract CLI.)

إن ميزة كتابة عقود البيانات بلغة تسلسل البيانات هي أنها تتيح الأتمتة بدلاً من العمليات اليدوية الشاقة. يمكن دمج عقود البيانات المقروءة آلياً في منصات البيانات وأدوات إنفاذ السياسات. يمكن للمؤسسات نشر هذه الحلول لاختبار مدى التزام مجموعات البيانات بقواعد عقود البيانات، مما يتيح لها معالجة المشكلات قبل أن تؤدي إلى فشل مسارات البيانات.

كيف يتم تصميم عقود البيانات؟

تستند العديد من عقود البيانات إلى معيار عقد البيانات المفتوحة (ODCS). كما يوحي اسمه، يعد ODCS إطار عمل مفتوح المصدر لتوحيد عقود البيانات. تم تحديد المعيار بواسطة Bitol، وهو مشروع بيئة تجريبية تابع لمؤسسة Linux Foundation AI & Data تحت رخصة Apache 2.0، وهو متاح على GitHub.

يقول مؤيدو هذه المبادرة إنها تساعد في تسهيل الابتكار من خلال السماح للمؤسسات بتطبيق عقود البيانات التي تدعم بنية البيانات الخاصة بها، دون المخاطرة الاحتكار لمنتج معين.

ما فوائد عقود البيانات؟

يمكن لعقود البيانات معالجة العديد من مشكلات مسارات البيانات، مما يمهد الطريق للمؤسسات لتحقيق أقصى استفادة من أصول البيانات لديها. تشمل مزايا عقود البيانات ما يلي:

جودة البيانات المُحسّنة

كما يقول المثل القديم، ما يتم قياسه، يتم إدارته. إن تحديد معايير الدقة، والصلاحية، وحداثة البيانات وغيرها من مقاييس جودة البيانات في عقد البيانات من شأنه أن يرفع جودة البيانات المُسلّمة مع تقليل زمن الاستجابة.

زيادة الشفافية فيما يتعلق بالتبعيات

يمكن لعقود البيانات تحديد العلاقات بين المهام المترابطة، أو ما يُعرف بالتبعيات. بالتوضيح الكامل لهذه التبعيات، يمكن لمنتجي البيانات تجنب إجراء تغييرات جذرية.

إدارة التغيير بشكل أفضل

تخضع عقود البيانات لإصدارات محددة، مما يعني أنه يتم إنشاء إصدارات جديدة من العقود لتعكس التغييرات الهامة. ويمكن أن يساعد ذلك المنتجين على إدخال تعديلات، مثل تغييرات المخطط، بطريقة "آمنة" تمنح المستهلكين الوقت الكافي للتكيف مع تلك التغييرات، مما يقلل من مخاطر الانقطاع المفاجئ في مسارات البيانات.

تعزيز التعاون

إن عملية إنشاء عقد البيانات تُسهّل التواصل والاتفاق بين منتجي البيانات ومستهلكيها. بمجرد إنشاء العقد، فإنه يعمل كأساس للتعاون المستمر، حيث تتيح إدارة الإصدارات التكيف مع البيانات والاحتياجات المتغيرة.

مزيد من المساءلة

تحدد عقود البيانات طبيعة العلاقات بين الأطراف المعنية والبيانات، بما في ذلك الجهة المالكة لها، والأدوار التي يحق لها الوصول إليها، وكيفية حصول المستخدمين على الدعم. تساعد العقود في توضيح مسؤوليات كل طرف، مما يضمن تحقيق قدر أكبر من المسؤولية والمساءلة.

حوكمة البيانات

يمكن اعتبار عقود البيانات أدوات لحوكمة البيانات لأنها تعكس أهداف الحوكمة البالغة الأهمية وتفرض تطبيقها، مثل ضمان جودة البيانات وأمنها وتوافرها طوال دورة حياة البيانات.

قابلية توسع أسهل

من خلال دعم حوكمة البيانات والتعاون، يمكن لعقود البيانات المساعدة في تمكين المؤسسات ووحدات الأعمال من مشاركة البيانات بنجاح، حتى مع زيادة أحجام البيانات بمعدلات غير مسبوقة.

أكاديمية الذكاء الاصطناعي

هل تعد إدارة البيانات هي سر الذكاء الاصطناعي التوليدي؟

استكشف سبب أهمية البيانات عالية الجودة للاستخدام الناجح للذكاء الاصطناعي التوليدي.

مقارنة بين عقود البيانات ومنتجات البيانات وشبكة البيانات

عقود البيانات غالبًا ما تُذكر في النقاشات المتعلقة بمنتجات البيانات وشبكة البيانات. وهذا لسبب وجيه: إذ تؤدي عقود البيانات أدوارًا رئيسية في دعم كلتا التقنيتين.

لنبدأ بمنتجات البيانات. إن منتج البيانات عبارة عن حزمة قائمة بذاتها وقابلة لإعادة الاستخدام، تجمع بين البيانات، والبيانات الوصفية، والدلالات، والقوالب لدعم حالات الاستخدام التجاري المتنوعة. يمكن أن تعمل عقود البيانات بمثابة "أداة لضبط الجودة" لمنتجات البيانات، مما يضمن اتساق البيانات الواردة فيها، وموثوقيتها، وتنسيقها بشكل صحيح.

يصف Perrin العلاقة بين منتجات البيانات وعقود البيانات بمصطلحات عائلية: "عقود البيانات ومنتجات البيانات مثل أبناء العمومة الذين لا ينفصلون—يعملون معاً دائماً، ومتوافقون دائماً، ويحرصون دائماً على سير الأمور بسلاسة."

إنَّ أهمية عقود البيانات بالنسبة لمنتجات البيانات تجعلها مهمة أيضاً لآلية عمل شبكة البيانات. إن شبكة البيانات هي بنية بيانات لا مركزية تُنظّم البيانات حسب مجال الأعمال—مثل التسويق أو المبيعات أو خدمة العملاء.

في بنية شبكة البيانات، يستخدم منتجو بيانات النطاق منتجات البيانات التي تتيح لمستخدمي الأعمال العثور على البيانات واستخدامها من مختلف أقسام المؤسسة. على هذا النحو، عندما تضمن عقود البيانات أداء منتجات البيانات، فإنها تدعم نجاح شبكة البيانات ككل.

كيف يتم تنفيذ وفرض عقود البيانات؟

في كتاب عقود البيانات، يحدد خبراء البيانات Chad Sanderson و Mark Freeman و B.E. Schmidt العملية التالية لكيفية عمل عقود البيانات.3

  • يحدد مستهلكو البيانات احتياجاتهم من البيانات لتحقيق أهداف الأعمال.

  • يقوم مستهلكو البيانات التقنية بترجمة متطلبات العمل إلى متطلبات تقنية للبيانات.

  • يطلب مستهلكو البيانات عقود بيانات من منتجي البيانات بناءً على هذه المتطلبات.

  • يحدد منتجو البيانات ما إذا كانت الطلبات قابلة للتطبيق.

  • يُكتب عقد البيانات بلغة برمجية، مثل YAML.

  • يقوم منتجو البيانات بإنشاء طلب سحب (طريقة لاقتراح تغييرات على المستودع) عندما يحتاجون إلى تغيير أحد أصول البيانات.

  • تُجرى عمليات التحقق القائمة على عقود البيانات على التغيير المطلوب كجزء من مسار CI/CD لضمان عدم انتهاكه لشروط العقد.

  • يتم تنبيه منتجي البيانات إذا كان التغيير ينتهك العقد، مما يؤدي إلى اتخاذ تدابير لمعالجة الانتهاك.

حلول عقود البيانات

يمكن للمؤسسات الاختيار من بين مجموعة متنوعة من الأدوات والمنصات لإنشاء عقود البيانات وإدارتها. وتشمل ما يلي:

  • مشاريع مفتوحة المصدر تقوم بتسلسل البيانات وإلغاء تسلسلها، مثل Apache Avro و Google Protocol Buffers (protobuf)

  • أدوات جودة البيانات واختبارها، مثل Great Expectations و dBT

  • سجلات المخطط للتحقق من توافق المخطط، مثل سجل Confluent

  • منصات حوكمة البيانات بميزات مثل تتبع دورة حياة البيانات وكتالوجات البيانات

يمكن للاحتياجات الفريدة للمؤسسة ومجموعات البيانات الموجودة أن تساعد في تحديد أي حلول عقود البيانات أو تركيبة الحلول هي الأفضل لدعم عقود بياناتها.

المؤلفون

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

حلول ذات صلة
منصة IBM StreamSets

إنشاء أنظمة تدفق البيانات الذكية وإدارتها من خلال واجهة رسومية سهلة الاستخدام، ما يسهِّل تكامل البيانات بسلاسة عبر البيئات الهجينة ومتعددة السحابة.

استكشف StreamSets
IBM watsonx.data

يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.

اكتشف watsonx.data
خدمات الاستشارات في مجال البيانات والتحليلات

استفِد من قيمة بيانات المؤسسة مع IBM® Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.

اكتشف خدمات التحليلات
اتخِذ الخطوة التالية

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

  1. استكشف حلول إدارة البيانات
  2. اكتشف watsonx.data