تُشير موثوقية البيانات إلى اكتمال البيانات ودقتها كمقياس لمدى إمكانية الاعتماد عليها لتكون متسقة وخالية من الأخطاء عبر الزمن والمصادر.
كلما كانت البيانات أكثر موثوقية، أصبحت أكثر جدارة بالثقة. توفِّر الثقة في البيانات أساسًا متينًا لاستخلاص رؤى مفيدة واتخاذ قرارات مستنيرة، سواء في البحث الأكاديمي أو تحليلات الأعمال أو السياسة العامة.
يمكن أن تؤدي البيانات غير الدقيقة أو غير الموثوق بها إلى استنتاجات غير صحيحة ونماذج معيبة واتخاذ قرارات سيئة. وهذا هو السبب وراء تزايد عدد الشركات التي تقوم بتعيين مسؤولي بيانات رئيسيين - وهو رقم تضاعَف بين أكبر الشركات المدرجة في البورصة بين عامَي 2019 و2021.1
إن مخاطر البيانات السيئة جنبًا إلى جنب مع المزايا التنافسية للبيانات الدقيقة تعني أن مبادرات موثوقية البيانات يجب أن تكون أولوية لكل شركة. ولتحقيق النجاح، من المهم فهم ما ينطوي عليه تقييم الموثوقية وتحسينها - وهو ما يعود إلى حد كبير إلى إمكانية ملاحظة البيانات - ثم تحديد المسؤوليات والأهداف الواضحة للتحسين.
يساعد تنفيذ إمكانية ملاحظة البيانات بشكل شامل فرق هندسة البيانات على ضمان موثوقية البيانات عبر مجموعة البيانات الخاصة بهم من خلال تحديد المشكلات واستكشاف الأخطاء وإصلاحها قبل أن تُتاح الفرصة لمشكلات البيانات السيئة للانتشار.
يتطلب قياس موثوقية بياناتك النظر في ثلاثة عوامل أساسية:
يتم تحديد صلاحية البيانات بناءً على إذا ما كانت مخزنة ومنسقة بطريقة صحيحة، وعلى إذا ما كانت تقيس فعليًا ما يُفترض بها أن تقيسه. على سبيل المثال، إذا كنت تجمع بيانات جديدة حول ظاهرة حقيقية معينة، فإن البيانات تكون صالحة فقط إذا كانت تعكس تلك الظاهرة بدقة ولا تتأثر بعوامل خارجية.
يحدِّد اكتمال البيانات إذا ما كان هناك أي شيء مفقود من المعلومات. رغم أن البيانات قد تكون صالحة، إلا أنها قد تظل غير مكتملة إذا لم تكن هناك حقول مهمة يمكن أن تغيِّر فهم شخص ما للمعلومات. يمكن أن تؤدي البيانات غير الكاملة إلى تحليلات متحيزة أو غير صحيحة.
يتحقق تفرد البيانات مما إذا كانت هناك أي تكرارات في مجموعة البيانات. تُعَد هذه الميزة الفريدة مهمة لتجنب الإفراط في التمثيل، والذي قد يكون غير دقيق.
وللمضي قدمًا في الأمر، تنظر بعض فرق البيانات أيضًا إلى عوامل أخرى مختلفة، بما في ذلك:
يُعَد قياس موثوقية البيانات أمرًا ضروريًا لمساعدة الفرق على بناء الثقة في مجموعات البيانات الخاصة بها وتحديد المشكلات المحتملة في وقت مبكر. يمكن أن يساعد اختبار البيانات المنتظم والفعَّال فرق البيانات على تحديد المشكلات بسرعة لتحديد مصدر المشكلة واتخاذ الإجراءات اللازمة لإصلاحها.
لا يتم دعم منصة البيانات الحديثة بواسطة التكنولوجيا فحسب، بل تدعمها أيضًا فلسفات عمليات التطوير (DevOps) وعمليات البيانات (DataOps) والأسلوب الرشيق (Agile). وعلى الرغم من أن DevOps وDataOps لهما أغراض مختلفة تمامًا، إلا أن كلًا منهما يشبه فلسفة Agile، المصممة لتسريع دورات عمل المشروع.
تركِّز عمليات التطوير على تطوير المنتجات، بينما تركِّز عمليات البيانات على إنشاء وصيانة نظام بنية بيانات موزعة يوفر قيمة للأعمال من البيانات.
الأسلوب الرشيق هو فلسفة لتطوير البرمجيات تعزِّز السرعة والكفاءة، ولكن دون القضاء على العامل "البشري". وهو يركِّز على المحادثات وجهًا لوجه كوسيلة لتحقيق أقصى قدر من الاتصالات، مع التركيز أيضًا على الأتمتة كوسيلة لتقليل الأخطاء.
تتناول موثوقية البيانات وصلاحية البيانات جانبين مختلفين من جودة البيانات.
في سياق إدارة البيانات، تؤدي كلتا الصفتين دورًا حاسمًا في ضمان سلامة البيانات المتاحة وفائدتها.
على الرغم من أن موثوقية البيانات وصلاحيتها مرتبطتان، إلا أنهما غير قابلتَين للتبادل. على سبيل المثال، قد تكون لديك عملية جمع بيانات موثوق بها للغاية (تقدِّم نتائج متسقة وقابلة للتكرار)، ولكن إذا لم يتم التحقق من صلاحية البيانات التي يتم جمعها (لا تتوافق مع القواعد أو التنسيقات المطلوبة)، فستظل النتيجة النهائية عبارة عن بيانات ذات جودة منخفضة.
وعلى العكس من ذلك، قد تكون لديك بيانات صالحة تمامًا (تُلبي جميع قواعد التنسيق والنزاهة)، ولكن إذا كانت عملية جمع تلك البيانات غير موثوق بها (إذ تعطي نتائج مختلفة مع كل قياس أو ملاحظة)، فإن فائدة تلك البيانات وموثوقيتها تصبح موضع شك.
للحفاظ على موثوقية البيانات، يجب إنشاء طريقة متسقة لجمع ومعالجة جميع أنواع البيانات ومتابعتها عن كثب. ولصلاحية البيانات، يجب وضع بروتوكولات صارمة للتحقق من صحة البيانات. قد يشمل ذلك أشياء مثل عمليات التحقق من نوع البيانات والتحقق من النطاق وفحوصات السلامة المرجعية وغيرها. ستساعد هذه البروتوكولات على ضمان أن البيانات بالتنسيق الصحيح وتلتزم بجميع القواعد اللازمة.
تشكِّل جميع مبادرات موثوقية البيانات مشكلات وتحديات كبيرة في العديد من مجالات البحث وتحليل البيانات، بما في ذلك:
يمكن أن تؤثر طريقة جمع البيانات بشكل كبير في موثوقيتها. إذا كانت الطريقة المستخدمة لجمع البيانات معيبة أو متحيزة، فلن تكون البيانات موثوقًا بها. بالإضافة إلى ذلك، يمكن أن تحدث أخطاء في القياس عند نقطة جمع البيانات أو أثناء إدخال البيانات أو عند معالجة البيانات أو تحليلها.
يجب أن تكون البيانات متسقة مع مرور الوقت وعبر سياقات مختلفة لتكون موثوقًا بها. يمكن أن تنشأ بيانات غير متسقة؛ بسبب التغييرات في تقنيات القياس أو التعريفات أو الأنظمة المستخدمة لجمع البيانات.
الخطأ البشري هو دائمًا مصدر محتمل لعدم الموثوقية. يمكن أن يحدث هذا بعدة طرق، مثل إدخال البيانات بشكل غير صحيح والبرمجة غير المتسقة وسوء تفسير البيانات.
في بعض الحالات، يمكن أن يتغير ما يتم قياسه بمرور الوقت، ما يتسبب في حدوث مشكلات بالموثوقية. على سبيل المثال، قد يكون نموذج التعلم الآلي الذي يتنبأ بسلوك المستهلك موثوقًا به عند إنشائه لأول مرة، لكنه قد يصبح غير دقيق مع تحول سلوك المستهلك الأساسي.
يمكن أن تؤدي ممارسات حوكمة البيانات غير المتسقة والافتقار إلى إدارة البيانات إلى عدم المساءلة عن جودة البيانات وموثوقيتها.
عندما تتغير مصادر البيانات أو تخضع للتحديثات، يمكن أن يؤدي ذلك إلى تعطيل موثوقية البيانات، خاصةً إذا تغيرت تنسيقات البيانات أو هياكلها. ويمكن أن يؤدي تكامل البيانات من مصادر البيانات المختلفة أيضًا إلى مشكلات في موثوقية البيانات في منصة البيانات الحديثة.
يمكن أن تؤدي السجلات أو الإدخالات المكررة إلى عدم الدقة وتشويه النتائج. يمثل تحديد التكرارات والتعامل معها تحديًا في الحفاظ على موثوقية البيانات.
يُعَد ضمان موثوقية البيانات جانبًا أساسيًا من جوانب إدارة البيانات. فيما يلي بعض أفضل الممارسات للحفاظ على موثوقية البيانات وتحسينها عبر مجموعة البيانات بأكملها:
تتعلق إمكانية ملاحظة البيانات بفهم السلامة وحالة البيانات في نظامك. ويتضمن ذلك مجموعة متنوعة من الأنشطة التي لا تقتصر على وصف المشكلة فقط. يمكن أن تساعد إمكانية ملاحظة البيانات على تحديد مشكلات البيانات واستكشاف الأخطاء وإصلاحها في زمن شبه حقيقي.
ومن المهم أن ندرك أن إمكانية ملاحظة البيانات تُعَد أمرًا ضروريًا لتجنب مشكلات البيانات السيئة، والتي تشكِّل جوهر موثوقية البيانات. وعند النظر بشكل أعمق، فإن إمكانية ملاحظة البيانات تشمل أنشطة مثل المراقبة والتنبيه والتتبُّع والمقارنات والتحليلات والتسجيل وتتبُّع اتفاقية مستوى الخدمة ودورة حياة البيانات، والتي تعمل جميعها معًا لفهم جودة البيانات بشكل شامل، بما في ذلك موثوقية البيانات.
عند القيام بذلك بشكل جيد، يمكن أن تساعد إمكانية ملاحظة البيانات على تحسين موثوقية البيانات من خلال تمكين تحديد المشكلات في وقت مبكر، حتى يتمكن فريق البيانات بأكمله من الاستجابة بشكل أسرع وفهم مدى التأثير واستعادة الموثوقية.
من خلال تنفيذ ممارسات وأدوات إمكانية ملاحظة البيانات، يمكن للمؤسسات تعزيز موثوقية البيانات، وضمان دقتها وتناسقها وموثوقيتها طوال دورة حياة البيانات بأكملها. وهذا أمر بالغ الأهمية بشكل خاص في البيئات التي تعتمد على البيانات حيث يمكن للبيانات عالية الجودة أن تؤثر بشكل مباشر في ذكاء الأعمال والقرارات التي تعتمد على البيانات ونتائج الأعمال.
صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.
يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.
استفِد من قيمة بيانات المؤسسة باستخدام IBM Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.
1 In data we trust, PwC, 28 April 2022