أفضل إطار عمل لجودة البيانات لكبار مهندسي المنصات

12 نوفمبر 2021

قراءة لمدة 7 دقائق

في العديد من الأحيان، يُعتبر نجاحك محكومًا بآخر أداء قدمته، وبالنسبة للعديد منا، يعني التسليم المستمر التعرُّض للتدقيق المستمرة. عليك الحفاظ على الجودة، ولكن من المهم أيضًا الحفاظ على مفهوم الجودة؛ لأنه بمجرد انهيار الثقة في البيانات، تصبح مهمتك أكثر صعوبة.

ولهذا السبب، يجب على أي مؤسسة تعتبر البيانات مهمة لسير أعمالها -سواء أكانت تستخدمها داخليًا أم تقدمها للعملاء الخارجيين- أن تمارس إدارة جودة البيانات وتنفِّذ إطار عمل لجودة البيانات. هذا هو ما يبدو عليه الأمر: تطوير عمليات وأنماط قابلة للتكرار، ويفضَّل أن تكون آلية، لضمان أن البيانات التي تدخل نظامك وتُسلَّم لاحقًا تتوافق مع ما تتوقعه أنت ومستهلكوك.

وكما يعرف مهندسو البيانات المتقدمون جيدًا، فإن فهم تلك التوقعات يُعَد نصف المعركة. والجزء الأكبر من النصف الآخر يُستغَل في تحويل تلك التوقعات إلى تتبُّع وتنبيهات تساعدك على اكتشاف وإصلاح المشكلات في عمليات إدخال البيانات المعقدة.

في هذا الدليل، نشارك استراتيجيات لضمان أن إدارة جودة البيانات لا تُضاف ببساطة إلى العمليات الثابتة الحالية، بل تُدمج في كل بنية DAG. ولإدارتها بشكل جيد، تحتاج إلى اكتشاف حالات الخلل قبل وقت طويل من دخول البيانات منخفضة الجودة إلى طبقة التحويل.

 

ما إطار عمل جودة البيانات؟

لنبدأ بتعريفه أولًا، إطار عمل جودة البيانات هو أداة يمكن للمؤسسة استخدامها لتحديد سمات جودة البيانات ذات الصلة وتوفير التوجيه لعملية إدارة جودة البيانات لضمان استمرارية تلبية جودة البيانات لتوقعات المستهلكين (اتفاقيات مستوى الخدمة).

تبدو هذه الجملة بسيطة لكنها معقدة في الواقع؛ لِذا دعونا نشرحها.

  1. يتطلب الأمر وجود عملية: ما لم يكن لديك عدد غير محدود من ساعات عمل المهندسين، يجب أن تتضمن العملية اختبارات وحدة قابلة للتكرار ومن الأفضل أن تكون تلقائية في كل مرحلة من مراحل مسار البيانات (خاصةً عند الاستيعاب إذا كنت ترغب في اكتشاف المشكلات بشكل استباقي)، وسير عمل للتعامل مع مشكلات البيانات.
  2. من الضروري استمرار الضمان: تتدهور جودة البيانات بنسبة تتناسب مع سرعة البيانات، والمعروفة أيضًا بتغير البيانات. تتطلب البيانات عالية السرعة من النوع الذي يتعامل معه الكثير منا الآن فحوصات متكررة.
  3. يجب أن تلبي توقعات المستهلكين وليس توقعاتك الخاصة: جودة البيانات هي في الأساس عملية تجارية. إن اتفاقيات مستوى الخدمة الخاصة ببياناتك  تكون مع المستهلكين، ولا شيء في الجانب الهندسي يهم إذا لم يتمكَّن علماء البيانات من تشغيل نماذجهم، أو إذا تلقى العملاء تقديرات شحن غير دقيقة، أو إذا كان نائب الرئيس الإقليمي لديك مضطرًا إلى الذهاب إلى اجتماع مجلس الإدارة دون تقديم نتائج لأن لوحة المعلومات لم يتم تحميلها.

هناك الكثير من الجوانب التي تجب مراعاتها لتحقيق الوعد المذكور أعلاه، وكل عنصر من هذه العناصر يحتوي على تبعيات كثيرة. على سبيل المثال، إذا كنت ستسأل نفسك عن كيفية تصميم مثل هذا النظام، فستطرح الأسئلة التالية:

  1. كيف ستتوصل إلى فهم توقعات المستهلكين حول جودة البيانات؟
  2. كيف ستحوِّل هذه التوقعات إلى مقاييس كمية لجودة البيانات؟
  3. كيف ستنفِّذ مقاييس الجودة التلقائية لكل مسار من المسارات الخاصة بك؟
  4. كيف ستحدِّد عتبات كل بُعد من أبعاد جودة البيانات؟
  5. كيف ستنبِّه فريقك عندما تنتهك البيانات هذه العتبات؟
  6. ماذا سيفعل فريقك عندما يتلقون تنبيهًا؟
  7. كيف سيحكمون على صحة التنبيه ومدى إلحاحه؟
  8. إذا كانت هناك مشكلة، فكيف سيحددون السبب المباشر لها؟
  9. كيف سيحددون الأسباب الأساسية؟
  10. كيف سيُعلِمون المستهلكين بما يمكن توقعه؟
  11. كيف سيعالجون السبب الأساسي؟
  12. كيف سيتحققون من أنهم قد عالجوا السبب الأساسي؟
  13. كيف يوثقون ما حدث لبناء المعرفة؟

تبدو وكأنها قائمة طويلة، ومن المحتمل أن تكون مرقمة بشكل غير موفق؟ لا تخف أبدًا. يمكنك التفويض.

السؤال الأول يناسب محلل الأعمال في المجموعة أو الفريق الذي تعمل فيه. فمن مسؤوليتهم التفاعل مع وحدات الأعمال لتفكيك قصص المستخدمين، والتفضيلات المعلنة والضمنية، والطلبات، وتقارير الحوادث إلى قائمة من "المطالب" الخاصة بالبيانات. هذه هي التوقعات النوعية التي يمتلكها المستهلكون تجاه البيانات، وهي محادثة ذات اتجاهين؛ لأنهم قد لا يمتلكون الكلمات الدقيقة لوصف ما يريدونه. (إلا إذا كان مستهلكو البيانات هم علماء البيانات لديك، فهذا يمكن أن يسرع العملية بشكل كبير).

 

السؤال الثاني موجه إليك وإلى علماء البيانات لديك للإجابة عنه معًا (خاصةً إذا كانوا هم المستهلكون أيضًا). بالنظر إلى خصائص كل مسار من مسارات البيانات لديك، ما السمات التي يمكنك قياسها بالفعل لتحليل قائمة التوقعات النوعية إلى قائمة من القياسات الكمية؟

اعتمادًا على نموذج جودة البيانات الذي تتبعه، هناك أربعة أو خمسة أبعاد للجودة يجب النظر إليها. في IBM Databand، نفضِّل نموذجًا يحتوي على أربع خصائص:

  • الملاءمة
    • الدقة - تعكس البيانات الواقع
    • التكامل - الجودة/الوقت
  • دورة حياة البيانات
    • المصدر - هل يفي المزود بتوقعاتك؟
    • الأصل - من أين أتت؟
  • الحوكمة
    • ضوابط البيانات
    • خصوصية البيانات
    • اللوائح
    • الأمان
  • الاستقرار
    • الاتساق
    • الاعتمادية
    • حسن التوقيت
    • التحيز

مع وجود هذه المقاييس، يمكن لمهندسي البيانات معالجة الأسئلة من 3 إلى 13 وبدء بناء استراتيجية لإدارة جودة البيانات. وقبل أن نتطرق إلى كيفية القيام بذلك بالتحديد، يجدر بنا أن نسأل، لماذا نبذل كل هذا الجهد؟

 

لماذا يُعَد إطار عمل جودة البيانات بالغ الأهمية

منذ بضع سنوات، أدى تغيير غير ملحوظ في إعدادات نظام إدارة علاقات العملاء Microsoft Dynamics لأحد تجار التجزئة الرئيسيين إلى أن أعداد المخزون المعروضة على كل منتج على الإنترنت لم تَعُد تعكس الواقع. توقَّف العداد ببساطة عن التحديث.

استمر الأشخاص في الشراء، لكن عدد الكميات ظل ثابتًا. وبحلول الوقت الذي تم فيه تنبيه فريق هندسة البيانات، كانت الأمور قد ساءت.

كانت معظم المنتجات متاحة للشراء عبر الإنترنت، بالإضافة إلى إمكانية استلامها من المتجر. اختار الكثير من الناس الاستلام من المتجر. تمّت معالجة الطلبات، ومع ذلك تم بيع العناصر التي لم تكن موجودة. لذلك، زار المستهلكون المتاجر حيث كان موظفو التجزئة يحاولون جاهدين العثور على بدائل أو تقديم خصومات أو محاولة إرضائهم بطريقة ما. وتكوَّنت صفوف من الزبائن. كان على زوار المتاجر الانتظار للشراء، وقد أصابهم الإحباط؛ بسبب رؤية العديد من الأشخاص يضغطون على هواتفهم بغضب. ونظرًا لأن اكتشاف المشكلة وإصلاح النظام استغرق عدة أيام، فقد استغرق حل المشكلة أيامًا إضافية.

مع الأخذ في الاعتبار فقدان سمعة العلامة التجارية، فإن الخطأ كلف عشرات الملايين، ولم يكن من الضروري حدوثه.

وهذا يعني ببساطة أن مشكلات البيانات تتفاقم. قد يكون من الصعب اكتشافها ومعالجتها، وتتفاقم بشكل غير مرئي. من السهل الوقوع في نمط افتراض أن كل شيء يعمل بشكل جيد لمجرد أنك لا تزال تستخلص بعض الرؤى، بالرغم من تراكم المزيد من ديون البيانات الكامنة.

علاوةً على ذلك، فإن العلامات الأكثر دقة لمشكلات جودة البيانات تميل أيضًا إلى أن تكون مؤشرات متأخرة. على سبيل المثال، عندما يخبرك المستهلكون بذلك. أو كما في مثال نظام إدارة علاقات العملاء في قطاع التجزئة المذكور سابقًا، عندما يخبرك آلاف من مديري المتاجر ونواب المديرين الإقليميين. وهذا سيئ. حيث يعني هذا أن البيانات موجودة في نظامك لبعض الوقت وسوف يستغرق الأمر أيامًا حتى تظهر نتائج الإصلاح. وهنا نتحدَّث عن الإخفاق في تلبية توقعات المستهلكين.

هذا هو الموقف الذي وجدت شركة الشحن الناشئة Shipper نفسها فيه، وهو ما دفعها إلى الاستثمار بشكل مكثف لمنع حدوثه مرة أخرى. يقوم فريق هندسة البيانات لديهم بتوفير بيانات قريبة من الوقت الفعلي قدر الإمكان لتطبيق يساعد مورِّدي التجارة الإلكترونية على توصيل مخزونهم إلى الموانئ. ولا تقتصر المخاوف على توقعات مستهلكيهم فقط، بل عليهم القلق أيضًا بشأن توقعات مستهلكي مستهلكيهم. وعندما كان نظامهم متأخرًا في بعض الأحيان بمقدار يومين، كان ذلك يؤدي إلى سلسلة من التوقعات المفقودة. لذلك، استثمروا بشكل كبير في إدارة جودة البيانات والأدوات التي تمكِّنهم من الحصول على تنبيهات تحذير مبكرة مع فحوصات تلقائية.

تُعَد إدارة جودة البيانات وسيلة لجعل فحوصات جودة البيانات تلقائية وشاملة، بحيث تتمكَّن من مقاومة تأثيرات الفوضى في البيانات باستخدام قوة معاكسة ومتساوية.

 

بناء إطار عمل جودة البيانات الخاص بك

لنعد إلى المثال السابق وقائمة الأسئلة. يتحدث المحللون لديك إلى الشركة لجمع المتطلبات، وتتلقى قائمة بتوقعات المستهلكين الكمية من علماء البيانات لديك. كيف يمكنك بعد ذلك المضي قُدُمًا وبناء النظام؟

تبدأ أولًا ببناء إطار عمل جودة البيانات. يجب أن يعترف إطار العمل أولاً وقبل كل شيء بأن النظام هو دورة وأن كل ما تتعلمه عن توقعات المستهلكين، التي تتطور دائمًا، يجب أن يؤثر في النظام.

 

دعنا نستكشف كل مرحلة من هذه المراحل:

  1. التأهيل: يقوم محللو الأعمال بتحليل احتياجات المستهلكين إلى قائمة من المتطلبات.
  2. التحديد الكمي: يقوم علماء البيانات بتفكيك المتطلبات إلى مقاييس كمية لجودة البيانات، والتي في هذه المرحلة، لا تزال نظرية.
  3. التخطيط: يُترجِم مهندسو البيانات المقاييس الكمية لجودة البيانات إلى فحوصات يمكنهم تشغيلها في منصة مراقبة مسارات البيانات. تُعتبر هذه المنصة بالغة الأهمية؛ حيث يمكن لأنظمة جدولة سير العمل والتدفق مثل Airflow وSpark اكتشاف المشكلات في المسار نفسه، ولكن ليس داخل البيانات، وهو المكان الذي تنشأ فيه معظم المشكلات. سيحتاج المهندسون لديك إلى فهم ما يمكن وما لا يمكن تتبُّعه في نظامك.
  4. التنفيذ: يقوم مهندسو البيانات بتنفيذ التتبُّع واختباره. كمثال بسيط جدًا، إذا كان يجب أن تكون البيانات كاملة، دون أي نقص في الحقول أو الأعمدة، يمكنك ضبط تنبيه حول معايير اكتمال البيانات. تجعل منصة المراقبة مثل Databand هذا ممكنًا، ويمكنها السماح لك بإعداد اكتشاف حالات الخلل بحيث لا تحتاج إلى ضبط كل قيمة يدويًا.
  5. الإدارة: يقوم مهندسو البيانات بإجراء اختبار رجعي لهذه التنبيهات مقارنةً ببيانات المسار السابقة للتحقق من أنها كانت ستعمل بالفعل على النحو المنشود. وإذا كانت النتيجة صحيحة، يتم إدخالها في بيئة الإنتاج مع خطة لإدارة الحوادث تحدِّد المسؤولين عن التعامل مع التنبيهات، وما سيقومون به عند تلقي تلك التنبيهات.
  6. التحقق: يؤكِّد مهندسو البيانات وعلماء البيانات أن وجود إطار عمل إدارة البيانات قد حسَّن الأداء بشكل ملموس وفقًا للمقاييس المطلوبة. ويؤكِّد محللو الأعمال للمستهلكين أن هذا هو الحال بالفعل.

وماذا تفعل بإطار العمل الخاص بك؟ تضعه موضع التنفيذ.

 

وجود إطار عمل جيد لجودة البيانات يعني وضع حد للمفاجآت

كما استكشفنا في العديد من أمثلتنا، أسوأ مؤشر لمشكلة جودة البيانات هو المؤشر المتأخر - على سبيل المثال، عندما يخبرك المستهلك أن شيئًا ما معطَّل. الكثير مما نفعله في هندسة البيانات هو بناء الثقة جنبًا إلى جنب مع بناء مسارات التدفق.

ومن خلال الاستثمار في إطار عمل إدارة جودة البيانات الذي يساعد فريقك على التعرف على المشكلات بشكل تلقائي، ستتمكَّن من بناء بيانات يمكن الوثوق بها. وهذا يجعل عملك أسهل كثيرًا.

اكتشف كيف يوفِّر IBM Databand مراقبة أفضل لجودة البيانات من خلال اكتشاف تغييرات الأعمدة غير المتوقعة والسجلات الفارغة لمساعدتك على تلبية اتفاقيات مستوى الخدمة الخاصة بالبيانات. إذا كنت مستعدًا لإلقاء نظرة أعمق، فاحجز عرضًا توضيحيًا اليوم.

 

المؤسس