ما المقصود بموثوقية البيانات؟

ما المقصود بموثوقية البيانات؟

تُشير موثوقية البيانات إلى اكتمال البيانات ودقتها كمقياس لمدى إمكانية الاعتماد عليها لتكون متسقة وخالية من الأخطاء عبر الزمن والمصادر.

كلما كانت البيانات أكثر موثوقية، أصبحت أكثر جدارة بالثقة. توفِّر الثقة في البيانات أساسًا متينًا لاستخلاص رؤى مفيدة واتخاذ قرارات مستنيرة، سواء في البحث الأكاديمي أو تحليلات الأعمال أو السياسة العامة.

يمكن أن تؤدي البيانات غير الدقيقة أو غير الموثوق بها إلى استنتاجات غير صحيحة ونماذج معيبة واتخاذ قرارات سيئة. وهذا هو السبب وراء تزايد عدد الشركات التي تقوم بتعيين مسؤولي بيانات رئيسيين - وهو رقم تضاعَف بين أكبر الشركات المدرجة في البورصة بين عامَي 2019 و2021.1

إن مخاطر البيانات السيئة جنبًا إلى جنب مع المزايا التنافسية للبيانات الدقيقة تعني أن مبادرات موثوقية البيانات يجب أن تكون أولوية لكل شركة. ولتحقيق النجاح، من المهم فهم ما ينطوي عليه تقييم الموثوقية وتحسينها - وهو ما يعود إلى حد كبير إلى إمكانية ملاحظة البيانات - ثم تحديد المسؤوليات والأهداف الواضحة للتحسين.

يساعد تنفيذ إمكانية ملاحظة البيانات بشكل شامل فرق هندسة البيانات على ضمان موثوقية البيانات عبر مجموعة البيانات الخاصة بهم من خلال تحديد المشكلات واستكشاف الأخطاء وإصلاحها قبل أن تُتاح الفرصة لمشكلات البيانات السيئة للانتشار.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

كيفية قياس موثوقية البيانات

يتطلب قياس موثوقية بياناتك النظر في ثلاثة عوامل أساسية:

1. هل هي صالحة؟

يتم تحديد صلاحية البيانات بناءً على إذا ما كانت مخزنة ومنسقة بطريقة صحيحة، وعلى إذا ما كانت تقيس فعليًا ما يُفترض بها أن تقيسه. على سبيل المثال، إذا كنت تجمع بيانات جديدة حول ظاهرة حقيقية معينة، فإن البيانات تكون صالحة فقط إذا كانت تعكس تلك الظاهرة بدقة ولا تتأثر بعوامل خارجية.

2. هل هي مكتملة؟

يحدِّد اكتمال البيانات إذا ما كان هناك أي شيء مفقود من المعلومات. رغم أن البيانات قد تكون صالحة، إلا أنها قد تظل غير مكتملة إذا لم تكن هناك حقول مهمة يمكن أن تغيِّر فهم شخص ما للمعلومات. يمكن أن تؤدي البيانات غير الكاملة إلى تحليلات متحيزة أو غير صحيحة.

3. هل هي فريدة من نوعها؟

يتحقق تفرد البيانات مما إذا كانت هناك أي تكرارات في مجموعة البيانات. تُعَد هذه الميزة الفريدة مهمة لتجنب الإفراط في التمثيل، والذي قد يكون غير دقيق.

وللمضي قدمًا في الأمر، تنظر بعض فرق البيانات أيضًا إلى عوامل أخرى مختلفة، بما في ذلك:

  • إذا ومتى تم تعديل مصدر البيانات
  • ما التغييرات التي تم إجراؤها على البيانات
  • عدد المرات التي تم فيها تحديث البيانات
  • من أين أتت البيانات في الأصل
  • كم مرة تم استخدام البيانات

يُعَد قياس موثوقية البيانات أمرًا ضروريًا لمساعدة الفرق على بناء الثقة في مجموعات البيانات الخاصة بها وتحديد المشكلات المحتملة في وقت مبكر. يمكن أن يساعد اختبار البيانات المنتظم والفعَّال فرق البيانات على تحديد المشكلات بسرعة لتحديد مصدر المشكلة واتخاذ الإجراءات اللازمة لإصلاحها.

أكاديمية الذكاء الاصطناعي

هل تعد إدارة البيانات هي سر الذكاء الاصطناعي التوليدي؟

استكشف سبب أهمية البيانات عالية الجودة للاستخدام الناجح للذكاء الاصطناعي التوليدي.

موثوقية البيانات مقابل جودة البيانات

لا يتم دعم منصة البيانات الحديثة بواسطة التكنولوجيا فحسب، بل تدعمها أيضًا فلسفات عمليات التطوير (DevOps) وعمليات البيانات (DataOps) والأسلوب الرشيق (Agile). وعلى الرغم من أن DevOps وDataOps لهما أغراض مختلفة تمامًا، إلا أن كلًا منهما يشبه فلسفة Agile، المصممة لتسريع دورات عمل المشروع.

تركِّز عمليات التطوير على تطوير المنتجات، بينما تركِّز عمليات البيانات على إنشاء وصيانة نظام بنية بيانات موزعة يوفر قيمة للأعمال من البيانات.

الأسلوب الرشيق هو فلسفة لتطوير البرمجيات تعزِّز السرعة والكفاءة، ولكن دون القضاء على العامل "البشري". وهو يركِّز على المحادثات وجهًا لوجه كوسيلة لتحقيق أقصى قدر من الاتصالات، مع التركيز أيضًا على الأتمتة كوسيلة لتقليل الأخطاء.

موثوقية البيانات مقابل صلاحية البيانات

تتناول موثوقية البيانات وصلاحية البيانات جانبين مختلفين من جودة البيانات.

في سياق إدارة البيانات، تؤدي كلتا الصفتين دورًا حاسمًا في ضمان سلامة البيانات المتاحة وفائدتها.

  • تركِّز موثوقية البيانات على اتساق وتكرار البيانات عبر الملاحظات أو القياسات المختلفة. بشكل أساسي، يجب أن تسفر البيانات الموثوق بها عن النتائج نفسها أو نتائج مشابهة جدًا في كل مرة يتم فيها تكرار قياس أو ملاحظة معينة. يتعلق الأمر بضمان استقرار البيانات واتساقها مع مرور الوقت وعبر السياقات المختلفة.

  • تتعلق صلاحية البيانات، بمعنى التحقق من صحة البيانات، بدقة البيانات وهيكلها وسلامتها. وتضمن أن أي بيانات جديدة يتم تنسيقها بشكل صحيح، وتتوافق مع القواعد اللازمة وأنها دقيقة وخالية من الفساد. على سبيل المثال، يجب أن يحتوي عمود التاريخ على تواريخ وليس أحرف أبجدية رقمية. يمكن أن تؤدي البيانات غير الصالحة إلى مجموعة متنوعة من المشكلات، مثل أخطاء التطبيق، ونتائج تحليل البيانات غير الصحيحة، وضعف جودة البيانات بشكل عام.

على الرغم من أن موثوقية البيانات وصلاحيتها مرتبطتان، إلا أنهما غير قابلتَين للتبادل. على سبيل المثال، قد تكون لديك عملية جمع بيانات موثوق بها للغاية (تقدِّم نتائج متسقة وقابلة للتكرار)، ولكن إذا لم يتم التحقق من صلاحية البيانات التي يتم جمعها (لا تتوافق مع القواعد أو التنسيقات المطلوبة)، فستظل النتيجة النهائية عبارة عن بيانات ذات جودة منخفضة.

وعلى العكس من ذلك، قد تكون لديك بيانات صالحة تمامًا (تُلبي جميع قواعد التنسيق والنزاهة)، ولكن إذا كانت عملية جمع تلك البيانات غير موثوق بها (إذ تعطي نتائج مختلفة مع كل قياس أو ملاحظة)، فإن فائدة تلك البيانات وموثوقيتها تصبح موضع شك.

للحفاظ على موثوقية البيانات، يجب إنشاء طريقة متسقة لجمع ومعالجة جميع أنواع البيانات ومتابعتها عن كثب. ولصلاحية البيانات، يجب وضع بروتوكولات صارمة للتحقق من صحة البيانات. قد يشمل ذلك أشياء مثل عمليات التحقق من نوع البيانات والتحقق من النطاق وفحوصات السلامة المرجعية وغيرها. ستساعد هذه البروتوكولات على ضمان أن البيانات بالتنسيق الصحيح وتلتزم بجميع القواعد اللازمة.

مشكلات وتحديات موثوقية البيانات

تشكِّل جميع مبادرات موثوقية البيانات مشكلات وتحديات كبيرة في العديد من مجالات البحث وتحليل البيانات، بما في ذلك:

جمع البيانات وقياسها

يمكن أن تؤثر طريقة جمع البيانات بشكل كبير في موثوقيتها. إذا كانت الطريقة المستخدمة لجمع البيانات معيبة أو متحيزة، فلن تكون البيانات موثوقًا بها. بالإضافة إلى ذلك، يمكن أن تحدث أخطاء في القياس عند نقطة جمع البيانات أو أثناء إدخال البيانات أو عند معالجة البيانات أو تحليلها.

اتساق البيانات

يجب أن تكون البيانات متسقة مع مرور الوقت وعبر سياقات مختلفة لتكون موثوقًا بها. يمكن أن تنشأ بيانات غير متسقة؛ بسبب التغييرات في تقنيات القياس أو التعريفات أو الأنظمة المستخدمة لجمع البيانات.

الأخطاء البشرية

الخطأ البشري هو دائمًا مصدر محتمل لعدم الموثوقية. يمكن أن يحدث هذا بعدة طرق، مثل إدخال البيانات بشكل غير صحيح والبرمجة غير المتسقة وسوء تفسير البيانات.

التغيُّرات بمرور الوقت

في بعض الحالات، يمكن أن يتغير ما يتم قياسه بمرور الوقت، ما يتسبب في حدوث مشكلات بالموثوقية. على سبيل المثال، قد يكون نموذج التعلم الآلي الذي يتنبأ بسلوك المستهلك موثوقًا به عند إنشائه لأول مرة، لكنه قد يصبح غير دقيق مع تحول سلوك المستهلك الأساسي.

حوكمة البيانات والتحكم فيها

يمكن أن تؤدي ممارسات حوكمة البيانات غير المتسقة والافتقار إلى إدارة البيانات إلى عدم المساءلة عن جودة البيانات وموثوقيتها.

تغيير مصادر البيانات

عندما تتغير مصادر البيانات أو تخضع للتحديثات، يمكن أن يؤدي ذلك إلى تعطيل موثوقية البيانات، خاصةً إذا تغيرت تنسيقات البيانات أو هياكلها. ويمكن أن يؤدي تكامل البيانات من مصادر البيانات المختلفة أيضًا إلى مشكلات في موثوقية البيانات في منصة البيانات الحديثة.

تكرار البيانات

يمكن أن تؤدي السجلات أو الإدخالات المكررة إلى عدم الدقة وتشويه النتائج. يمثل تحديد التكرارات والتعامل معها تحديًا في الحفاظ على موثوقية البيانات.

خطوات ضمان موثوقية البيانات

يُعَد ضمان موثوقية البيانات جانبًا أساسيًا من جوانب إدارة البيانات. فيما يلي بعض أفضل الممارسات للحفاظ على موثوقية البيانات وتحسينها عبر مجموعة البيانات بأكملها:

  1. توحيد عملية جمع البيانات: وضع إجراءات واضحة وموحدة لجمع البيانات. يمكن أن يساعد ذلك على تقليل التباين وضمان الاتساق مع مرور الوقت.

  2. تدريب جامِعي البيانات: يجب تدريب الأفراد الذين يجمعون البيانات بشكل صحيح لفهم الأساليب والأدوات والبروتوكولات لتقليل الأخطاء البشرية. ويجب أن يكونوا على دراية بأهمية البيانات الموثوق بها وعواقب البيانات غير الموثوق بها.

  3. عمليات التدقيق المنتظمة: تُعَد عمليات التدقيق المنتظمة للبيانات ضرورية لاكتشاف التناقضات أو الأخطاء التي قد تؤثر في الموثوقية. يجب أن تتعلق عمليات التدقيق هذه بالعثور على الأخطاء، ولكن يجب أن تتعلق أيضًا بتحديد السبب الأساسي للأخطاء وتنفيذ الإجراءات التصحيحية.

  4. استخدام أدوات موثوق بها: يجب استخدام الأدوات والأجهزة التي تم اختبارها للتأكد من موثوقيتها. على سبيل المثال، إذا كنت تستخدم معالجة التدفق، فاختبر تدفقات الأحداث وراقبها لضمان عدم فقدان البيانات أو تكرارها.

  5. تنظيف البيانات: استخدام عملية تنظيف صارمة للبيانات. يجب أن يتضمن ذلك تحديد ومعالجة القيم الخارجية والقيم المفقودة والتناقضات. وجب استخدام طرق منهجية للتعامل مع البيانات المفقودة أو المثيرة للمشاكل.

  6. الحفاظ على قاموس البيانات: قاموس البيانات هو مستودع مركزي للمعلومات حول البيانات، مثل أنواع البيانات، والمعاني، والعلاقات مع البيانات الأخرى، والأصل، والاستخدام، والتنسيق. وهو يساعد في الحفاظ على اتساق البيانات ويضمن استخدام الجميع للبيانات وتفسيرها بالطريقة نفسها.

  7. ضمان إمكانية إعادة إنتاج البيانات: يضمن توثيق جميع الخطوات في جمع البيانات ومعالجتها أن يتمكن الآخرون من إعادة إنتاج نتائجك، وهو جانب مهم من جوانب الموثوقية. ويشمل ذلك تقديم تفسيرات واضحة للمنهجيات المستخدمة والحفاظ على التحكم في إصدار البيانات والتعليمات البرمجية.

  8. تنفيذ حوكمة البيانات: يمكن أن تساعد سياسات حوكمة البيانات الجيدة على تحسين موثوقية البيانات. ويتضمن ذلك وجود سياسات وإجراءات واضحة حول من يمكنه الوصول إلى البيانات وتعديلها والاحتفاظ بسجلات واضحة لجميع التغييرات التي تم إجراؤها على مجموعات البيانات.

  9. النسخ الاحتياطي للبيانات واستردادها: قم بعمل نسخة احتياطية للبيانات بشكل منتظم لتجنب فقدان البيانات. تأكَّد أيضًا من وجود نظام موثوق به لاستعادة البيانات في حالة فقدانها.

تحسين موثوقية البيانات من خلال إمكانية ملاحظة البيانات

تتعلق إمكانية ملاحظة البيانات بفهم السلامة وحالة البيانات في نظامك. ويتضمن ذلك مجموعة متنوعة من الأنشطة التي لا تقتصر على وصف المشكلة فقط. يمكن أن تساعد إمكانية ملاحظة البيانات على تحديد مشكلات البيانات واستكشاف الأخطاء وإصلاحها في زمن شبه حقيقي.

ومن المهم أن ندرك أن إمكانية ملاحظة البيانات تُعَد أمرًا ضروريًا لتجنب مشكلات البيانات السيئة، والتي تشكِّل جوهر موثوقية البيانات. وعند النظر بشكل أعمق، فإن إمكانية ملاحظة البيانات تشمل أنشطة مثل المراقبة والتنبيه والتتبُّع والمقارنات والتحليلات والتسجيل وتتبُّع اتفاقية مستوى الخدمة ودورة حياة البيانات، والتي تعمل جميعها معًا لفهم جودة البيانات بشكل شامل، بما في ذلك موثوقية البيانات.

عند القيام بذلك بشكل جيد، يمكن أن تساعد إمكانية ملاحظة البيانات على تحسين موثوقية البيانات من خلال تمكين تحديد المشكلات في وقت مبكر، حتى يتمكن فريق البيانات بأكمله من الاستجابة بشكل أسرع وفهم مدى التأثير واستعادة الموثوقية.

من خلال تنفيذ ممارسات وأدوات إمكانية ملاحظة البيانات، يمكن للمؤسسات تعزيز موثوقية البيانات، وضمان دقتها وتناسقها وموثوقيتها طوال دورة حياة البيانات بأكملها. وهذا أمر بالغ الأهمية بشكل خاص في البيئات التي تعتمد على البيانات حيث يمكن للبيانات عالية الجودة أن تؤثر بشكل مباشر في ذكاء الأعمال والقرارات التي تعتمد على البيانات ونتائج الأعمال.

حلول ذات صلة
برمجيات وحلول إدارة البيانات

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

استكشف حلول إدارة البيانات
IBM watsonx.data

يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.

اكتشف watsonx.data
خدمات الاستشارات في مجال البيانات والتحليلات

استفِد من قيمة بيانات المؤسسة باستخدام IBM Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.

اكتشف خدمات التحليلات
اتخِذ الخطوة التالية

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

استكشف حلول إدارة البيانات اكتشف watsonx.data
الحواشي

1 In data we trust, PwC, 28 April 2022