ما هو التحقق من صحة البيانات؟

عامل مستودع ذكر، بلحية ويرتدي سترة عالية الوضوح، يراجع وثيقة بينما يمسك بجهاز لوحي في بيئة مستودع، مع وجود أرفف وصناديق في الخلفية.

المؤلفون

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

ما هو التحقق من صحة البيانات؟

التحقق من صحة البيانات هو عملية التحقق من أن البيانات نظيفة ودقيقة وجاهزة للاستخدام.
 

تتمثل صحة البيانات في وقوعها ضمن الحدود أو النطاقات المسموح بها، وتوافقها مع تنسيقات البيانات المحددة، وخلوّها من الأخطاء، والتزامها بمعايير التحقق الخاصة بالمؤسسة.

يعد التحقق من صحة البيانات خطوة راسخة في مهام سير عمل إدارة البيانات—فالبيانات غير الصالحة، في نهاية المطاف، يمكن أن تسبب فوضى في تحليل البيانات. ولكن، ازدادت إلحاحية وأهمية هذا الأمر بشكل كبير مع انخراط المؤسسات في مستويات غير مسبوقة من جمع البيانات لتمكين اتخاذ القرارات القائمة على البيانات ومبادرات الذكاء الاصطناعي (AI).

ما أهمية التحقق من صحة البيانات؟

اليوم، تتراكم لدى الشركات بشكل روتيني مجموعات بيانات ضخمة تحتوي على تيرابايت أو بيتابايت من البيانات. وتأتي هذه المعلومات من مصادر بيانات متنوعة، مثل أجهزة إنترنت الأشياء (IoT) أو وسائل التواصل الاجتماعي، وغالبًا ما يتم نقلها إلى مستودعات البيانات وأنظمة مستهدفة أخرى. لكن المعلومات الواردة من مجموعة واسعة من المصادر، بالإضافة إلى حجم عمليات ترحيل البيانات الضخمة، يمكن أن تمهد الطريق لمجموعة من المشكلات: التنسيقات غير المتسقة والتناقضات، البيانات المكررة، حقول البيانات غير المكتملة، أخطاء إدخال البيانات، وحتى تسميم البيانات.

يمكن أن تُعرض مشكلات جودة البيانات هذه سلامة البيانات للخطر وتُهدد اتخاذ القرارات المستنيرة. والبيانات غير الصالحة لا تسبب الصداع لمحللي البيانات فحسب، بل إنها مشكلة أيضًا للمهندسين وعلماء البيانات وغيرهم ممن يعملون مع نماذج الذكاء الاصطناعي.

تتطلب نماذج الذكاء الاصطناعي، بما في ذلك نماذج التعلّم الآلي ونماذج الذكاء الاصطناعي التوليدي، بيانات موثوقة ودقيقة لتدريب النموذج وأدائه. وبما أن التنفيذ الفعال للذكاء الاصطناعي أصبح ميزة تنافسية بالغة الأهمية، فإن الشركات لا يمكنها تحمل مخاطر أن تُعرّض البيانات غير الصالحة جهودها في مجال الذكاء الاصطناعي للخطر. تستخدم المؤسسات عمليات التحقق من صحة البيانات للمساعدة في ضمان أن جودة البيانات كافية لاستخدامها في تحليلات البيانات والذكاء الاصطناعي.

بالإضافة إلى ذلك، أصبح التحقق من صحة البيانات ذا أهمية متزايدة فيما يتعلق بالامتثال التنظيمي. على سبيل المثال، يتطلب قانون الاتحاد الأوروبي للذكاء الاصطناعي أن يخضع التحقق من صحة البيانات لأنظمة الذكاء الاصطناعي "عالية المخاطر" لممارسات إدارة بيانات صارمة.

أحدث الأخبار التقنية، مدعومة برؤى خبراء

ابقَ على اطلاع دومًا بأهم—اتجاهات المجال وأكثرها إثارة للفضول—بشأن الذكاء الاصطناعي والأتمتة والبيانات وغيرها الكثير مع نشرة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! أنت مشترك.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

كيف يعمل التحقق من صحة البيانات؟

يتضمن التحقق من صحة البيانات إنشاء قواعد العمل والتحقق من صحة البيانات وإنفاذها.

بينما تستخدم المنظمات المختلفة قواعد وتقنيات متنوعة للتحقق من صحة البيانات، فإن أكثر أنواع التحقق شيوعًا هي:

  • فحوصات الرموز
  • فحوصات الاتساق
  • فحوصات نوع البيانات
  • فحوصات التنسيق
  • فحوصات النطاق
  • فحوصات التفرُّد

فحوصات الرموز

يحدد فحص الرموز ما إذا كانت قيمة البيانات صالحة عن طريق مقارنتها بقائمة من القيم المقبولة. من الأمثلة على ذلك رموز الدول، وأرقام ISBN (الرقم الدولي الموحد للكتاب)، ورموز NAICS (نظام تصنيف الصناعات في أمريكا الشمالية) لتصنيف الشركات.

فحوصات الاتساق

تؤكد عمليات التحقق من الاتساق أن بيانات الإدخال منطقية ولا تتعارض مع القيم الأخرى. على سبيل المثال، في قاعدة بيانات للأزواج، يجب أن تكون تواريخ خطوبتهم سابقة لتواريخ زفافهم.

فحوصات نوع البيانات

يحدد نوع البيانات التنسيق الصحيح للبيانات في عمود معين. قد تتضمن أمثلة أنواع البيانات النص أو الأرقام أو التاريخ. يحدد هذا الفحص كل قيمة لا تتوافق مع نوع البيانات المحدد من حيث الطول أو الدقة أو المقياس—أو التي تنتهك نوع البيانات المحدد.

فحوصات التنسيق

يتم تنفيذ عمليات التحقق من التنسيق للأعمدة التي لها متطلبات تنسيق بيانات محددة، مثل أعمدة أرقام الهاتف وعناوين البريد الإلكتروني والتواريخ.

فحوصات النطاق

تحدد عمليات التحقق من النطاق ما إذا كانت البيانات الرقمية تقع ضمن نطاق محدد مسبقًا من القيم الدنيا والقصوى. على سبيل المثال، قد يتراوح عمود لضغوط الإطارات المقبولة للمركبات من 30 إلى 35 رطلًا لكل بوصة مربعة.

فحوصات التفرُّد

تطبق فحوصات التفرُّد على الأعمدة التي يجب أن تكون فيها كل إدخالات البيانات فريدة، ولا توجد فيها قيم مكررة.

تتضمن الفحوصات الأخرى المستخدمة للتحقق من صحة البيانات: فحوصات الطول (للتأكد من أن عدد الأحرف في الحقل صحيح)؛ وفحوصات الوجود (للتأكد من أن الحقول الإلزامية ليست فارغة)؛ والتحقق من المخطط (للتأكد من أن البيانات تتوافق مع بنية محددة مسبقًا).

أكاديمية الذكاء الاصطناعي

هل تعد إدارة البيانات هي سر الذكاء الاصطناعي التوليدي؟

استكشف سبب أهمية البيانات عالية الجودة للاستخدام الناجح للذكاء الاصطناعي التوليدي.

التحقق من صحة البيانات مقابل تنظيف البيانات مقابل إدارة جودة البيانات

غالبًا ما يُذكر التحقق من صحة البيانات بالاقتران مع تنظيف البيانات، وهي عملية تصحيح الأخطاء والتناقضات في مجموعات البيانات الأولية. يُعتبر التحقق من صحة البيانات أحيانًا جزءًا من عملية تنظيف البيانات، بينما يُشار إليه في حالات أخرى كعملية مستقلة.

يعد كل من التحقق من صحة البيانات وتنظيف البيانات عناصر من إدارة جودة البيانات (DQM)، وهي مجموعة من الممارسات للحفاظ على البيانات عالية الجودة في المؤسسة. تتضمن عمليات إدارة جودة البيانات (DQM) التكميلية والإضافية، فحص البيانات، ومراقبة جودة البيانات، وإدارة البيانات الوصفية.

أدوات التحقق من صحة البيانات

بينما يمكن إجراء التحقق من صحة البيانات يدويًا، إلا أنه قد يكون مهمة شاقة وتستغرق وقتًا طويلاً. يمكن لأدوات البيانات المختلفة أن تساعد المتخصصين في مجال البيانات على تسريع وأتمتة وتبسيط عملية التحقق من صحة البيانات.

برنامج جدول البيانات

تتضمن برامج جداول البيانات مثل Microsoft Excel وظيفة التحقق من صحة البيانات، مثل القدرة على إنشاء قوائم منسدلة، واستخدام صيغ مخصصة، وتقييد الإدخالات لتكون ضمن قيم تفي بقواعد محددة. على سبيل المثال، قد لا يتمكن المستخدم من إدخال قيمة لا تلتزم بحدود طول النص ومتطلبات التنسيق. فبرامج جداول البيانات هي الأكثر فعالية لإدارة والتحقق من صحة مجموعات البيانات الأصغر.

البرامج النصية

يمكن لمتخصصي البيانات استخدام أدوات مفتوحة المصدر ولغات برمجة مثل Python و SQL لتشغيل البرامج النصية وأتمتة عملية التحقق من صحة البيانات. يمكن لمستخدمي برنامج Excel استخدام لغة البرمجة VBA (Visual Basic for Applications) لإنشاء قواعد مخصصة للتحقق من صحة البيانات وأتمتة عمليات التحقق.

تكامل البيانات

تجمع منصات تكامل البيانات وتنسقها من مصادر متعددة وتحولها إلى صيغ موحدة ومتماسكة يمكن استخدامها لأغراض تحليلية وتشغيلية ومساعدة في اتخاذ القرارات. التحقق من صحة البيانات هو خطوة شائعة في عملية دمج البيانات. يُعرف نهج تكامل البيانات ETL (الاستخراج والتحويل والتحميل) بشكل خاص بالتحقق الصارم من صحة البيانات.

إمكانية ملاحظة البيانات

تراقب حلول إمكانية ملاحظة البيانات سلامة البيانات عبر النظام البنائي للبيانات في المؤسسة، وتوفر لوحات معلومات للرؤية. المراقبة والتحليل المستمران المدعومان بالذكاء الاصطناعي يمكنهما اكتشاف وحل حالات عدم انتظام البيانات وغيرها من مشاكل البيانات بشكل شبه فوري. تتضمن منصات تكامل البيانات الرائدة أدوات مدمجة لإمكانية ملاحظة البيانات.

حلول ذات صلة
برمجيات وحلول إدارة البيانات

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

استكشف حلول إدارة البيانات
IBM watsonx.data

يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.

اكتشف watsonx.data
خدمات الاستشارات في مجال البيانات والتحليلات

استفِد من قيمة بيانات المؤسسة باستخدام IBM Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.

اكتشف خدمات التحليلات
اتخِذ الخطوة التالية

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

استكشف حلول إدارة البيانات اكتشف watsonx.data