وفقًا لبحث جديد أجراه معهد IBM Institute for Business Value، فإن إنشاء بيئة بيانات ديناميكية يمكن أن يدعم المؤسسات في تسريع وتيرة النمو. لكن كيف يمكن للمؤسسات أن تعرف إذا ما كانت بياناتها فعَّالة حقًا ومستعدة لدفع عجلة النمو؟
قد يساعد على ذلك استخدام مقاييس جودة البيانات.
مقاييس جودة البيانات هي مقاييس كمية لتقييم جودة البيانات. يمكن للمؤسسات الاستفادة من مقاييس جودة البيانات لتتبُّع جودة البيانات ومراقبتها بمرور الوقت، ما يساعد على تحديد البيانات عالية الجودة المناسبة لاتخاذ القرارات القائمة على البيانات وحالات استخدام الذكاء الاصطناعي.
تختلف المقاييس باختلاف المؤسسة وقد تعكس أبعاد جودة البيانات التقليدية مثل الدقة والتوقيت والتفرُّد، بالإضافة إلى الخصائص الخاصة بمسارات البيانات الحديثة، مثل مدة المسار. من خلال مقاييس جودة البيانات، يمكن تحويل أبعاد الجودة إلى قيم رقمية.
يمكن أن تساعد أدوات جودة البيانات المدعومة بالأتمتة والتعلم الآلي مهندسي البيانات على تقييم مقاييس جودة البيانات وتحديد مشكلات جودة البيانات في الوقت الفعلي. وهذا يمكِّن المؤسسات وفرق البيانات التابعة لها من اتخاذ الخطوات اللازمة لتحسين مصداقية وموثوقية مجموعات ومسارات البيانات الخاصة بها.
يُعَد الحفاظ على بيانات عالية الجودة وموثوق بها هدفًا يسعى إليه العديد من المؤسسات الحديثة - ولسبب وجيه.
تُسهم البيانات الجيدة في الحصول على ذكاء الأعمال الفعَّال، والكفاءة التشغيلية، وسير العمل الأمثل، والامتثال التنظيمي، ورضا العملاء، ونمو المؤسسة والتقدُّم في مؤشرات الأداء الرئيسية (KPIs). كما تُعَد جودة البيانات العالية أمرًا حيويًا لفاعلية مبادرات الذكاء الاصطناعي، حيث تتطلب نماذج الذكاء الاصطناعي تدريبًا على بيانات موثوق بها ودقيقة لتقديم نتائج مفيدة.
ولكن للحصول على مثل هذه المكافآت، يجب على المؤسسات التأكد من أن بياناتها تتمتع بجودة عالية حقًا. وهنا تؤدي مقاييس جودة البيانات دورًا رئيسيًا. يمكن أن تساعدك مقاييس جودة البيانات على التحقق من جودة بياناتك من خلال ربط أبعاد جودة البيانات بقيم رقمية، مثل الدرجات.1
من خلال تقييمات جودة البيانات، يمكن للمؤسسات تحديد مدى سهولة استخدام بياناتها لاتخاذ قرارات الأعمال وتدريب نماذج الذكاء الاصطناعي. غالبًا ما يمكن تحسين البيانات منخفضة الجودة التي يتم تحديدها من خلال مقاييس جودة البيانات من خلال جهود معالجة البيانات.
ستة أبعاد تقليدية يتم تتبُّعها من خلال مقاييس جودة البيانات، وهي:
يمكن غالبًا قياس الأبعاد الشائعة لجودة البيانات من خلال نِسَب بسيطة، مثل نسبة عدد النتائج المفضلة (عدد نقاط البيانات الدقيقة، وإدخالات البيانات الصحيحة، وما إلى ذلك) إلى إجمالي عدد النتائج.2
على سبيل المثال، الطريقة الأساسية لحساب اكتمال البيانات هي:
الاكتمال = (عدد عناصر البيانات الكاملة) / (إجمالي عدد عناصر البيانات)
بدلًا من ذلك، يمكن أيضًا استخدام مقياس عكسي يركِّز على البيانات السيئة:
الاكتمال = 1 – [(عناصر البيانات المفقودة) / (إجمالي عدد عناصر البيانات)]
تتطلب الطرق الأخرى لقياس الأبعاد حسابات أكثر تعقيدًا.
على سبيل المثال، قد تعتمد صيغ حساب توقيت البيانات على متغيّرات مثل عمر البيانات، ووقت التسليم (وقت إرسال البيانات)، ووقت الإدخال (وقت استلام البيانات)، والتقلُّب (مدة صلاحية البيانات).
بالإضافة إلى مقاييس البيانات التي تمثِّل أبعاد جودة البيانات التقليدية، هناك مقاييس رئيسية أخرى يمكن أن تساعد المؤسسات على الحفاظ على سير عمل مسارات البيانات بشكل سلس. ومن الأمثلة على ذلك:
تدعم مقاييس جودة البيانات العمليات الرئيسية المتعلقة بالبيانات، مثل حوكمة البيانات وقابلية ملاحظة البيانات وإدارة جودة البيانات.
تُعَد حوكمة البيانات أحد تخصُّصات إدارة البيانات التي تساعد على ضمان سلامة البيانات وأمن البيانات من خلال تحديد وتنفيذ السياسات ومعايير الجودة والإجراءات الخاصة بجمع البيانات وملكيتها وتخزينها ومعالجتها واستخدامها. تساعد مقاييس جودة البيانات مثل اتساق البيانات واكتمالها المؤسسات على تقييم التقدُّم نحو تلبية المعايير المحددة من خلال ممارسات الحوكمة.
قابلية ملاحظة البيانات هي ممارسة مراقبة البيانات وإدارتها للمساعدة على ضمان جودتها وتوافرها وموثوقيتها عبر العمليات والأنظمة والمسارات المختلفة داخل المؤسسة. تتضمن مقاييس جودة البيانات التي يتم تتبُّعها من خلال ممارسات قابلية ملاحظة البيانات حداثة البيانات والأرقام الفارغة وتغييرات المخطط.
إدارة جودة البيانات أو DQM هي مجموعة من الممارسات لتحسين جودة بيانات المؤسسة والحفاظ عليها. من الممارسات الأساسية في إدارة جودة البيانات (DQM) تنميط البيانات، والذي يتضمن مراجعة بنية البيانات ومحتواها لتقييم جودتها وتحديد خط أساس يتم قياس التحسين عليه لاحقًا. يتم تقييم جودة البيانات وفقًا لأبعاد ومقاييس جودة البيانات.
يمكن معالجة ضعف جودة البيانات، الذي يتم الكشف عنه من خلال التنميط، باستخدام ممارسة أخرى من ممارسات إدارة جودة البيانات (DQM): تنظيف البيانات. تنظيف البيانات، المعروفة أيضًا باسم تنقية البيانات، هي عملية تصحيح الأخطاء والتفاوتات في مجموعات البيانات غير المنسقة. يُعَد تنظيف البيانات خطوة أولى أساسية في عملية تحويل البيانات، والتي تهدف إلى تحويل البيانات غير المنسقة إلى صيغة قابلة للاستخدام في التحليل.
يمكن أن توفِّر حلول البرمجيات مراقبة جودة البيانات في الوقت الفعلي، بما في ذلك تتبُّع الأداء على مقاييس جودة البيانات. قد تتضمن الحلول الرائدة ميزات مثل:
يُتيح العرض المجمع لمسارات وأصول البيانات في المؤسسة إدارة الحوادث البيانية عبر طبقات البيانات المختلفة.
مراقبة فحوصات جودة البيانات ومخالفات قواعد اتفاقية مستوى الخدمة (SLA) المتعلقة بتأخُّر تسليم البيانات، أو تغييرات المخطط، أو الحالات الشاذة.
إشعارات مخصصة ومؤتمتة تُرسَل إلى الأطراف المعنية في البيانات عبر أدوات ومنصات مثل Slack وPagerDuty والبريد الإلكتروني.
يمكن أن تساعد الرسوم البيانية الخاصة بعدد الصفوف والعمليات المكتوبة والمقروءة يوميًا المؤسسات على تحديد التوجهات المهمة والأنماط الإشكالية.
تعرِض دورة حياة البيانات الشاملة مجموعات ومسارات البيانات التي تتأثر بمشكلات جودة البيانات.
تقدم IBM حلول جودة بيانات تعمل على تحسين الأبعاد الرئيسية مثل الدقة والاكتمال والاتساق.
يتيح IBM Databand مراقبة جودة البيانات في الوقت الفعلي لاكتشاف مشكلات جودة البيانات السيئة وضمان جودة أفضل للبيانات.
استفِد من قيمة بيانات المؤسسة مع IBM Consulting لبناء مؤسسة تعتمد على الرؤى لتحقيق ميزة تنافسية في الأعمال.
1, 2 “A Survey of Data Quality Measurement and Monitoring Tools.” Frontiers in Big Data. 30 مارس 2022.