الجوهر يكمن في البيانات: كيف تساعد مؤشرات جودة البيانات المؤسسات على التفوق.

مدير منتجات يقود اجتماعًا، ويشرح البيانات على شاشة تحتوي على رسوم بيانية.

المؤلفون

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

وفقًا لبحث جديد أجراه معهد IBM Institute for Business Value، فإن إنشاء بيئة بيانات ديناميكية يمكن أن يدعم المؤسسات في تسريع وتيرة النمو. لكن كيف يمكن للمؤسسات أن تعرف إذا ما كانت بياناتها فعَّالة حقًا ومستعدة لدفع عجلة النمو؟

قد يساعد على ذلك استخدام مقاييس جودة البيانات.

مقاييس جودة البيانات هي مقاييس كمية لتقييم جودة البيانات. يمكن للمؤسسات الاستفادة من مقاييس جودة البيانات لتتبُّع جودة البيانات ومراقبتها بمرور الوقت، ما يساعد على تحديد البيانات عالية الجودة المناسبة لاتخاذ القرارات القائمة على البيانات وحالات استخدام الذكاء الاصطناعي.

تختلف المقاييس باختلاف المؤسسة وقد تعكس أبعاد جودة البيانات التقليدية مثل الدقة والتوقيت والتفرُّد، بالإضافة إلى الخصائص الخاصة بمسارات البيانات الحديثة، مثل مدة المسار. من خلال مقاييس جودة البيانات، يمكن تحويل أبعاد الجودة إلى قيم رقمية.

يمكن أن تساعد أدوات جودة البيانات المدعومة بالأتمتة والتعلم الآلي مهندسي البيانات على تقييم مقاييس جودة البيانات وتحديد مشكلات جودة البيانات في الوقت الفعلي. وهذا يمكِّن المؤسسات وفرق البيانات التابعة لها من اتخاذ الخطوات اللازمة لتحسين مصداقية وموثوقية مجموعات ومسارات البيانات الخاصة بها.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

لماذا تُعَد مقاييس جودة البيانات مهمة؟

يُعَد الحفاظ على بيانات عالية الجودة وموثوق بها هدفًا يسعى إليه العديد من المؤسسات الحديثة - ولسبب وجيه.

تُسهم البيانات الجيدة في الحصول على ذكاء الأعمال الفعَّال، والكفاءة التشغيلية، وسير العمل الأمثل، والامتثال التنظيمي، ورضا العملاء، ونمو المؤسسة والتقدُّم في مؤشرات الأداء الرئيسية (KPIs). كما تُعَد جودة البيانات العالية أمرًا حيويًا لفاعلية مبادرات الذكاء الاصطناعي، حيث تتطلب نماذج الذكاء الاصطناعي تدريبًا على بيانات موثوق بها ودقيقة لتقديم نتائج مفيدة.

ولكن للحصول على مثل هذه المكافآت، يجب على المؤسسات التأكد من أن بياناتها تتمتع بجودة عالية حقًا. وهنا تؤدي مقاييس جودة البيانات دورًا رئيسيًا. يمكن أن تساعدك مقاييس جودة البيانات على التحقق من جودة بياناتك من خلال ربط أبعاد جودة البيانات بقيم رقمية، مثل الدرجات.1

من خلال تقييمات جودة البيانات، يمكن للمؤسسات تحديد مدى سهولة استخدام بياناتها لاتخاذ قرارات الأعمال وتدريب نماذج الذكاء الاصطناعي. غالبًا ما يمكن تحسين البيانات منخفضة الجودة التي يتم تحديدها من خلال مقاييس جودة البيانات من خلال جهود معالجة البيانات.

أكاديمية الذكاء الاصطناعي

هل تعد إدارة البيانات هي سر الذكاء الاصطناعي التوليدي؟

استكشف سبب أهمية البيانات عالية الجودة للاستخدام الناجح للذكاء الاصطناعي التوليدي.

الأبعاد الرئيسية لجودة البيانات

ستة أبعاد تقليدية يتم تتبُّعها من خلال مقاييس جودة البيانات، وهي:

  • دقة البيانات: تمثِّل البيانات الأحداث والقيم الواقعية بشكل صحيح.
  • اكتمال البيانات: تحتوي البيانات على جميع السجلات الضرورية دون قيم مفقودة.
  • اتساق البيانات: البيانات متسقة وموحَّدة على مستوى المؤسسة، ما يضمن توافق سجلات البيانات في مختلَف مجموعات البيانات.
  • توقيت البيانات: قيم البيانات محدَّثة، ما يُتيح للمؤسسات تجنُّب اتخاذ قرارات بناءً على معلومات قديمة.
  • تفرُّد البيانات: البيانات خالية من التكرار أو السجلات المزدوجة التي يمكن أن تشوِّه التحليل.
  • صحة البيانات: تتوافق البيانات مع قواعد الأعمال، مثل الالتزام بالنطاقات المسموح بها لقيم بيانات معينة والامتثال لمعايير تنسيق البيانات المحددة.

يمكن غالبًا قياس الأبعاد الشائعة لجودة البيانات من خلال نِسَب بسيطة، مثل نسبة عدد النتائج المفضلة (عدد نقاط البيانات الدقيقة، وإدخالات البيانات الصحيحة، وما إلى ذلك) إلى إجمالي عدد النتائج.2

على سبيل المثال، الطريقة الأساسية لحساب اكتمال البيانات هي:

الاكتمال = (عدد عناصر البيانات الكاملة) / (إجمالي عدد عناصر البيانات)

بدلًا من ذلك، يمكن أيضًا استخدام مقياس عكسي يركِّز على البيانات السيئة:

الاكتمال = 1 – [(عناصر البيانات المفقودة) / (إجمالي عدد عناصر البيانات)]

تتطلب الطرق الأخرى لقياس الأبعاد حسابات أكثر تعقيدًا.

على سبيل المثال، قد تعتمد صيغ حساب توقيت البيانات على متغيّرات مثل عمر البيانات، ووقت التسليم (وقت إرسال البيانات)، ووقت الإدخال (وقت استلام البيانات)، والتقلُّب (مدة صلاحية البيانات).

مقاييس جودة البيانات الإضافية

بالإضافة إلى مقاييس البيانات التي تمثِّل أبعاد جودة البيانات التقليدية، هناك مقاييس رئيسية أخرى يمكن أن تساعد المؤسسات على الحفاظ على سير عمل مسارات البيانات بشكل سلس. ومن الأمثلة على ذلك:

  • حداثة البيانات: تُستخدم أحيانًا بالتبادل مع "توقيت البيانات"، إلا إن حداثة البيانات تُشير تحديدًا إلى وتيرة تحديث البيانات داخل النظام. يحدث تقادم البيانات عندما توجد فواصل زمنية كبيرة بين عمليات تحديث البيانات.
  • دورة حياة البيانات: يمكن أن تساعد دورة حياة البيانات، وهي عملية مراقبة نقاط الاتصال وتتبُّعها على طول رحلة البيانات، المؤسسات على تأكيد الدقة والاتساق في البيانات.
  • عدد القيم الفارغة: قد يقوم مهندسو البيانات والمحللون بتتبُّع عدد القيم الفارغة أو نسبتها في أحد الأعمدة. قد يشير ازدياد عدد القيم الفارغة إلى مشكلات مثل القيم المفقودة وانحراف البيانات.
  • تغييرات المخطط: قد تُشير التغييرات المتكررة في المخطط، مثل تغيير نوع بيانات الأعمدة أو إضافة أعمدة جديدة، إلى أن مصدر البيانات غير موثوق به.
  • أعطال المسارات: قد تؤدي أعطال المسارات إلى مشكلات في صحة البيانات مثل تغييرات المخطط، وعمليات البيانات المفقودة، وتقادُم البيانات.
  • مدة المسار: عادةً ما تستغرق المسارات المعقدة فترات زمنية متقاربة لإتمام عمليات التشغيل المختلفة. يمكن أن تؤدي التغييرات الرئيسية في المدة إلى معالجة البيانات القديمة.

تعرَّف على أبرز مقاييس جودة البيانات المناسبة لبيئتك.

مقاييس جودة البيانات في عمليات البيانات الرئيسية

تدعم مقاييس جودة البيانات العمليات الرئيسية المتعلقة بالبيانات، مثل حوكمة البيانات وقابلية ملاحظة البيانات وإدارة جودة البيانات.

إدارة البيانات

تُعَد حوكمة البيانات أحد تخصُّصات إدارة البيانات التي تساعد على ضمان سلامة البيانات وأمن البيانات من خلال تحديد وتنفيذ السياسات ومعايير الجودة والإجراءات الخاصة بجمع البيانات وملكيتها وتخزينها ومعالجتها واستخدامها. تساعد مقاييس جودة البيانات مثل اتساق البيانات واكتمالها المؤسسات على تقييم التقدُّم نحو تلبية المعايير المحددة من خلال ممارسات الحوكمة.

إمكانية ملاحظة البيانات

قابلية ملاحظة البيانات هي ممارسة مراقبة البيانات وإدارتها للمساعدة على ضمان جودتها وتوافرها وموثوقيتها عبر العمليات والأنظمة والمسارات المختلفة داخل المؤسسة. تتضمن مقاييس جودة البيانات التي يتم تتبُّعها من خلال ممارسات قابلية ملاحظة البيانات حداثة البيانات والأرقام الفارغة وتغييرات المخطط.

إدارة جودة البيانات

إدارة جودة البيانات أو DQM هي مجموعة من الممارسات لتحسين جودة بيانات المؤسسة والحفاظ عليها. من الممارسات الأساسية في إدارة جودة البيانات (DQM) تنميط البيانات، والذي يتضمن مراجعة بنية البيانات ومحتواها لتقييم جودتها وتحديد خط أساس يتم قياس التحسين عليه لاحقًا. يتم تقييم جودة البيانات وفقًا لأبعاد ومقاييس جودة البيانات.

يمكن معالجة ضعف جودة البيانات، الذي يتم الكشف عنه من خلال التنميط، باستخدام ممارسة أخرى من ممارسات إدارة جودة البيانات (DQM): تنظيف البيانات. تنظيف البيانات، المعروفة أيضًا باسم تنقية البيانات، هي عملية تصحيح الأخطاء والتفاوتات في مجموعات البيانات غير المنسقة. يُعَد تنظيف البيانات خطوة أولى أساسية في عملية تحويل البيانات، والتي تهدف إلى تحويل البيانات غير المنسقة إلى صيغة قابلة للاستخدام في التحليل.

أدوات تتبُّع مقاييس جودة البيانات

يمكن أن توفِّر حلول البرمجيات مراقبة جودة البيانات في الوقت الفعلي، بما في ذلك تتبُّع الأداء على مقاييس جودة البيانات. قد تتضمن الحلول الرائدة ميزات مثل:

لوحات المعلومات الشاملة

يُتيح العرض المجمع لمسارات وأصول البيانات في المؤسسة إدارة الحوادث البيانية عبر طبقات البيانات المختلفة.

المراقبة في الوقت الحقيقي

مراقبة فحوصات جودة البيانات ومخالفات قواعد اتفاقية مستوى الخدمة (SLA) المتعلقة بتأخُّر تسليم البيانات، أو تغييرات المخطط، أو الحالات الشاذة.

التنبيهات المخصصة

إشعارات مخصصة ومؤتمتة تُرسَل إلى الأطراف المعنية في البيانات عبر أدوات ومنصات مثل Slack وPagerDuty والبريد الإلكتروني.

الرسوم البيانية على مستوى الاتجاه

يمكن أن تساعد الرسوم البيانية الخاصة بعدد الصفوف والعمليات المكتوبة والمقروءة يوميًا المؤسسات على تحديد التوجهات المهمة والأنماط الإشكالية.

دورة الحياة الشاملة

تعرِض دورة حياة البيانات الشاملة مجموعات ومسارات البيانات التي تتأثر بمشكلات جودة البيانات.

حلول ذات صلة
حلول جودة البيانات

تقدم IBM حلول جودة بيانات تعمل على تحسين الأبعاد الرئيسية مثل الدقة والاكتمال والاتساق.

استكشف حلول جودة البيانات
IBM Databand

يتيح IBM Databand مراقبة جودة البيانات في الوقت الفعلي لاكتشاف مشكلات جودة البيانات السيئة وضمان جودة أفضل للبيانات.

استكشف ®Databand
الخدمات الاستشارية في مجال البيانات والتحليلات

استفِد من قيمة بيانات المؤسسة مع IBM Consulting لبناء مؤسسة تعتمد على الرؤى لتحقيق ميزة تنافسية في الأعمال.

اكتشف خدمات التحليلات
اتخِذ الخطوة التالية

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

استكشف حلول إدارة البيانات اكتشف watsonx.data
الحواشي

1, 2A Survey of Data Quality Measurement and Monitoring Tools.” Frontiers in Big Data. 30 مارس 2022.