ما هي جودة البيانات؟
استكشف حل جودة البيانات الذي تقدِّمه شركة IBM سجل للتعرف على تحديثات الذكاء الاصطناعي
 رسم توضيحي يحتوي على مجموعة من الرموز التوضيحية على شكل سحب، ومخطط دائري، ورسم بياني من الرموز التوضيحية على ما يلي
ما هي جودة البيانات؟

المعنى: تقيس جودة البيانات مدى تلبية مجموعة البيانات لمعايير الدقة، والشمول، والصلاحية، والتناسق، والتفرد، وحُسن التوقيت، والملاءمة للغرض، وهي أمر حاسم لجميع مبادرات حوكمة البيانات داخل المؤسسة.

تضمن معايير جودة البيانات اتخاذ الشركات لقرارات قائمة على البيانات لتحقيق أهداف أعمالها. فإذا لم تتم معالجة مشكلات البيانات، مثل البيانات المكررة والقيم المفقودة والقيم المتطرفة، بشكل صحيح، فإن الشركات تزيد من خطر مواجهة نتائج سلبية في أعمالها. ووفقًا لتقرير صادر عن مؤسسة Gartner، فإن ضَعف جودة البيانات يكلِّف المؤسسات 12.9 مليون دولار أمريكي في المتوسط كل عام1. ونتيجةً لذلك، ظهرت أدوات جودة البيانات للتخفيف من الأثر السلبي المرتبط بضَعف جودة البيانات.

عندما تفي جودة البيانات بمعيار الاستخدام المقصود، يمكن لمستهلكي البيانات الوثوق بالبيانات والاستفادة منها لتحسين عملية صنع القرار، ما يؤدي إلى تطوير استراتيجيات أعمال جديدة أو تحسين الاستراتيجيات الحالية. ومع ذلك، عندما لا يتم استيفاء معيار ما، توفِّر أدوات جودة البيانات قيمة من خلال مساعدة الشركات على تشخيص مشكلات البيانات الأساسية. وتحليل السبب الأساسي يُمكِّن الفِرَق من معالجة مشكلات جودة البيانات بسرعة وفاعلية.

جودة البيانات ليست مجرد أولوية للعمليات اليومية للأعمال؛ فمع دمج الشركات لتقنيات الذكاء الاصطناعي والأتمتة في سير العمل لديها، ستكون البيانات عالية الجودة ضرورية لاعتماد هذه الأدوات بشكل فعَّال. ومن المعروف عمومًا أن المدخلات السيئة تؤدي إلى مخرجات سيئة، وهذا ينطبق أيضًا على خوارزميات التعلم الآلي. فإذا كانت الخوارزمية تتعلم التنبؤ أو التصنيف من خلال بيانات رديئة، فمن المتوقع أن تَنتُج عنها نتائج غير دقيقة.

 

بناء سير عمل الذكاء الاصطناعي المسؤول مع حوكمة الذكاء الاصطناعي (Build responsible AI workflows with AI governance)

تعرّف على العناصر الأساسية وأفضل الممارسات لمساعدة فِرق عملك على تسريع الذكاء الاصطناعي المسؤول.

محتوى ذو صلة اقرأ الدليل الإرشادي لقادة البيانات
المقارنة بين جودة البيانات وسلامة البيانات وتحليل البيانات

ترتبط جميع هذه العناصر مع بعضها. وتُعَد جودة البيانات فئة أوسع من المعايير التي تستخدمها المؤسسات لتقييم بياناتها من حيث الدقة والاكتمال والصلاحية والاتساق والتفرد والتوقيت والملاءمة للغرض. أما سلامة البيانات فهي تركِّز فقط على مجموعة فرعية من هذه السمات، وهي الدقة، والاتساق، والاكتمال. كما أنها تركِّز على هذا الأمر من منظور أمان البيانات، حيث تُطبق تدابير وقائية لمنع فساد البيانات بواسطة الجهات الخبيثة.

من ناحية أخرى، يركِّز تحليل البيانات على عملية تقييم البيانات وتنقيتها للحفاظ على معايير جودة البيانات داخل المؤسسة. ويمكن أن يشمل هذا أيضًا التقنية التي تدعم هذه العمليات.

أبعاد جودة البيانات

يتم تقييم جودة البيانات بناءً على عدد من الأبعاد، والتي يمكن أن تختلف بناءً على مصدر المعلومات. تُستخدَم هذه الأبعاد لتصنيف مقاييس جودة البيانات:

  • الاكتمال: يمثِّل هذا مقدار البيانات القابلة للاستخدام أو المكتملة. إذا كانت هناك نسبة عالية من القيم المفقودة، فقد يؤدي ذلك إلى تحليل متحيز أو مضلل إذا لم تكن البيانات ممثلة لعيِّنة بيانات نموذجية.
  • التفرُّد: يمثِّل هذا مقدار البيانات المكررة في مجموعة البيانات. على سبيل المثال، عند مراجعة بيانات العميل، يجب أن تتوقع أن يكون لكل عميل معرِّف عميل فريد.
  •  الصلاحية: يقيس هذا البُعد مقدار البيانات التي تطابق التنسيق المطلوب لأي قواعد عمل. يتضمن التنسيق عادة البيانات الوصفية، مثل أنواع البيانات الصالحة والنطاقات والأنماط وغير ذلك.
  • حُسن التوقيت: يشير هذا البُعد إلى جاهزية البيانات ضمن إطار زمني متوقع. على سبيل المثال، يتوقع العملاء تلقي رقم طلب فور إجراء عملية شراء، ويجب إنشاء هذه البيانات في الوقت الفعلي.
  • الدقة: يشير هذا البُعد إلى صحة قيم البيانات بناءً على "مصدر الحقيقة" المتفق عليه. ونظرًا لأنه من الممكن وجود مصادر متعددة تقدِّم تقارير عن المقياس نفسه، فمن المهم تعيين مصدر بيانات أساسي؛ ويمكن استخدام مصادر البيانات الأخرى لتأكيد دقة المصدر الأساسي. على سبيل المثال، يمكن للأدوات التحقق من أن كل مصدر بيانات يسير في الاتجاه نفسه لتعزيز الثقة في دقة البيانات.
  • الاتساق: يقيِّم هذا البُعد سجلات البيانات من مجموعتَي بيانات مختلفتين. كما ذُكر سابقًا، يمكن تحديد مصادر متعددة للإبلاغ عن مقياس واحد. واستخدام مصادر مختلفة للتحقق من تناسق توجهات البيانات وسلوكها يمكِّن المؤسسات من الوثوق في أي رؤى قابلة للتنفيذ ناتجة عن تحليلاتها. ويمكن تطبيق هذا المنطق أيضًا حول العلاقات بين البيانات. على سبيل المثال، يجب ألا يتجاوز عدد الموظفين في القسم إجمالي عدد الموظفين في الشركة.
  • الملاءمة للغرض: أخيرًا، تساعد ملاءمة الغرض على ضمان تلبية أصول البيانات لاحتياجات العمل. قد يكون من الصعب تقييم هذا البُعد، خاصةً مع مجموعات البيانات الجديدة والناشئة.                                                                                                          

تساعد هذه المقاييس الفِرَق على إجراء تقييمات جودة البيانات عبر مؤسساتهم لتقييم مدى إفادة البيانات وصلاحيتها لتحقيق غرض معين.

لماذا تُعتبر جودة البيانات مهمة؟

على مدى العقد الماضي، أدت التطورات في الحوسبة السحابية الهجينة والذكاء الاصطناعي وإنترنت الأشياء (IoT) وحوسبة الحافة إلى النمو الهائل حجم البيانات الكبيرة. ونتيجةً لذلك، أصبحت ممارسة إدارة البيانات الرئيسية (MDM) أكثر تعقيدًا، ما يتطلب المزيد من المشرفين على البيانات والضمانات الصارمة لضمان جودة البيانات الجيدة.

تعتمد الشركات على إدارة جودة البيانات لدعم مبادرات تحليلات البيانات الخاصة بها، مثل لوحات معلومات ذكاء الأعمال. من دون ذلك، قد تترتب عواقب وخيمة، وربما أخلاقية أيضًا، حسب المجال أو الصناعة (على سبيل المثال، الرعاية الصحية). تهدف حلول جودة البيانات إلى تمكين الشركات من الاستفادة المُثلى من بياناتها، ما أدى إلى تحقيق مزايا رئيسية مثل:

  • اتخاذ قرارات أفضل للأعمال: تُتيح البيانات عالية الجودة للمؤسسات تحديد مؤشرات الأداء الرئيسية لقياس أداء البرامج المختلفة، ما يسمح للفِرَق بتحسينها أو تنميتها بشكل أكثر فاعلية. والمؤسسات التي تعطي الأولوية لجودة البيانات ستحظى بلا شك بميزة تنافسية على منافسيها.
  • تحسين عمليات العمل: تعني البيانات الجيدة أيضًا أن الفِرق تستطيع تحديد مواطن الخلل في سير العمل التشغيلي. وينطبق هذا بشكل خاص على مجال سلسلة التوريد الذي يعتمد على البيانات الآنية؛ لتحديد المخزون المناسب وموقعه بعد الشحن.
  • زيادة رضا العملاء: توفِّر الجودة العالية للبيانات للمؤسسات، لا سيما فِرَق التسويق والمبيعات، رؤى قيِّمة حول المشترين المستهدفين. حيث يمكنهم دمج بيانات مختلفة عبر قنوات المبيعات والتسويق، ما يمكِّنهم من بيع منتجاتهم بكفاءة أكبر. على سبيل المثال، يمكن أن يؤدي الجمع بين البيانات الديموغرافية وسلوك الويب إلى إعلام كيفية إنشاء المؤسسات لرسائلها أو استثمار ميزانيتها التسويقية أو توظيف فرق المبيعات لخدمة العملاء الحاليين أو المحتملين.
الموارد
دليل حوكمة البيانات وخصوصيتها لقادة البيانات

اقرأ دليل IBM حول اللبنات الأساسية لحوكمة البيانات والخصوصية.

ثلاث خطوات لتحسين جودة البيانات وأداء الذكاء الاصطناعي

تعلَّم من الخبراء في هذا الدليل التفصيلي خطوة بخطوة كيفية اتخاذ نهج قائم على القيم لتحسين جودة البيانات وممارسات الذكاء الاصطناعي.

Gartner® Magic Quadrant™

تم اختيار IBM كشركة رائدة للعام الثامن عشر على التوالي في تقرير ™Gartner® Magic Quadrant لعام 2023 لأدوات تكامل البيانات

اقتباس

1 Gartner, "How to Improve Your Data Quality" (الرابط موجود خارج موقع ibm.com)، 14 يوليو 2021