تتمثل صحة البيانات في وقوعها ضمن الحدود أو النطاقات المسموح بها، وتوافقها مع تنسيقات البيانات المحددة، وخلوّها من الأخطاء، والتزامها بمعايير التحقق الخاصة بالمؤسسة.
يعد التحقق من صحة البيانات خطوة راسخة في مهام سير عمل إدارة البيانات—فالبيانات غير الصالحة، في نهاية المطاف، يمكن أن تسبب فوضى في تحليل البيانات. ولكن، ازدادت إلحاحية وأهمية هذا الأمر بشكل كبير مع انخراط المؤسسات في مستويات غير مسبوقة من جمع البيانات لتمكين اتخاذ القرارات القائمة على البيانات ومبادرات الذكاء الاصطناعي (AI).
اليوم، تتراكم لدى الشركات بشكل روتيني مجموعات بيانات ضخمة تحتوي على تيرابايت أو بيتابايت من البيانات. وتأتي هذه المعلومات من مصادر بيانات متنوعة، مثل أجهزة إنترنت الأشياء (IoT) أو وسائل التواصل الاجتماعي، وغالبًا ما يتم نقلها إلى مستودعات البيانات وأنظمة مستهدفة أخرى. لكن المعلومات الواردة من مجموعة واسعة من المصادر، بالإضافة إلى حجم عمليات ترحيل البيانات الضخمة، يمكن أن تمهد الطريق لمجموعة من المشكلات: التنسيقات غير المتسقة والتناقضات، البيانات المكررة، حقول البيانات غير المكتملة، أخطاء إدخال البيانات، وحتى تسميم البيانات.
يمكن أن تُعرض مشكلات جودة البيانات هذه سلامة البيانات للخطر وتُهدد اتخاذ القرارات المستنيرة. والبيانات غير الصالحة لا تسبب الصداع لمحللي البيانات فحسب، بل إنها مشكلة أيضًا للمهندسين وعلماء البيانات وغيرهم ممن يعملون مع نماذج الذكاء الاصطناعي.
تتطلب نماذج الذكاء الاصطناعي، بما في ذلك نماذج التعلّم الآلي ونماذج الذكاء الاصطناعي التوليدي، بيانات موثوقة ودقيقة لتدريب النموذج وأدائه. وبما أن التنفيذ الفعال للذكاء الاصطناعي أصبح ميزة تنافسية بالغة الأهمية، فإن الشركات لا يمكنها تحمل مخاطر أن تُعرّض البيانات غير الصالحة جهودها في مجال الذكاء الاصطناعي للخطر. تستخدم المؤسسات عمليات التحقق من صحة البيانات للمساعدة في ضمان أن جودة البيانات كافية لاستخدامها في تحليلات البيانات والذكاء الاصطناعي.
بالإضافة إلى ذلك، أصبح التحقق من صحة البيانات ذا أهمية متزايدة فيما يتعلق بالامتثال التنظيمي. على سبيل المثال، يتطلب قانون الاتحاد الأوروبي للذكاء الاصطناعي أن يخضع التحقق من صحة البيانات لأنظمة الذكاء الاصطناعي "عالية المخاطر" لممارسات إدارة بيانات صارمة.
النشرة الإخبارية الخاصة بالمجال
ابقَ على اطلاع دومًا بأهم—اتجاهات المجال وأكثرها إثارة للفضول—بشأن الذكاء الاصطناعي والأتمتة والبيانات وغيرها الكثير مع نشرة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.
سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.
يتضمن التحقق من صحة البيانات إنشاء قواعد العمل والتحقق من صحة البيانات وإنفاذها.
بينما تستخدم المنظمات المختلفة قواعد وتقنيات متنوعة للتحقق من صحة البيانات، فإن أكثر أنواع التحقق شيوعًا هي:
يحدد فحص الرموز ما إذا كانت قيمة البيانات صالحة عن طريق مقارنتها بقائمة من القيم المقبولة. من الأمثلة على ذلك رموز الدول، وأرقام ISBN (الرقم الدولي الموحد للكتاب)، ورموز NAICS (نظام تصنيف الصناعات في أمريكا الشمالية) لتصنيف الشركات.
تؤكد عمليات التحقق من الاتساق أن بيانات الإدخال منطقية ولا تتعارض مع القيم الأخرى. على سبيل المثال، في قاعدة بيانات للأزواج، يجب أن تكون تواريخ خطوبتهم سابقة لتواريخ زفافهم.
يحدد نوع البيانات التنسيق الصحيح للبيانات في عمود معين. قد تتضمن أمثلة أنواع البيانات النص أو الأرقام أو التاريخ. يحدد هذا الفحص كل قيمة لا تتوافق مع نوع البيانات المحدد من حيث الطول أو الدقة أو المقياس—أو التي تنتهك نوع البيانات المحدد.
يتم تنفيذ عمليات التحقق من التنسيق للأعمدة التي لها متطلبات تنسيق بيانات محددة، مثل أعمدة أرقام الهاتف وعناوين البريد الإلكتروني والتواريخ.
تحدد عمليات التحقق من النطاق ما إذا كانت البيانات الرقمية تقع ضمن نطاق محدد مسبقًا من القيم الدنيا والقصوى. على سبيل المثال، قد يتراوح عمود لضغوط الإطارات المقبولة للمركبات من 30 إلى 35 رطلًا لكل بوصة مربعة.
تطبق فحوصات التفرُّد على الأعمدة التي يجب أن تكون فيها كل إدخالات البيانات فريدة، ولا توجد فيها قيم مكررة.
تتضمن الفحوصات الأخرى المستخدمة للتحقق من صحة البيانات: فحوصات الطول (للتأكد من أن عدد الأحرف في الحقل صحيح)؛ وفحوصات الوجود (للتأكد من أن الحقول الإلزامية ليست فارغة)؛ والتحقق من المخطط (للتأكد من أن البيانات تتوافق مع بنية محددة مسبقًا).
غالبًا ما يُذكر التحقق من صحة البيانات بالاقتران مع تنظيف البيانات، وهي عملية تصحيح الأخطاء والتناقضات في مجموعات البيانات الأولية. يُعتبر التحقق من صحة البيانات أحيانًا جزءًا من عملية تنظيف البيانات، بينما يُشار إليه في حالات أخرى كعملية مستقلة.
يعد كل من التحقق من صحة البيانات وتنظيف البيانات عناصر من إدارة جودة البيانات (DQM)، وهي مجموعة من الممارسات للحفاظ على البيانات عالية الجودة في المؤسسة. تتضمن عمليات إدارة جودة البيانات (DQM) التكميلية والإضافية، فحص البيانات، ومراقبة جودة البيانات، وإدارة البيانات الوصفية.
بينما يمكن إجراء التحقق من صحة البيانات يدويًا، إلا أنه قد يكون مهمة شاقة وتستغرق وقتًا طويلاً. يمكن لأدوات البيانات المختلفة أن تساعد المتخصصين في مجال البيانات على تسريع وأتمتة وتبسيط عملية التحقق من صحة البيانات.
تتضمن برامج جداول البيانات مثل Microsoft Excel وظيفة التحقق من صحة البيانات، مثل القدرة على إنشاء قوائم منسدلة، واستخدام صيغ مخصصة، وتقييد الإدخالات لتكون ضمن قيم تفي بقواعد محددة. على سبيل المثال، قد لا يتمكن المستخدم من إدخال قيمة لا تلتزم بحدود طول النص ومتطلبات التنسيق. فبرامج جداول البيانات هي الأكثر فعالية لإدارة والتحقق من صحة مجموعات البيانات الأصغر.
يمكن لمتخصصي البيانات استخدام أدوات مفتوحة المصدر ولغات برمجة مثل Python و SQL لتشغيل البرامج النصية وأتمتة عملية التحقق من صحة البيانات. يمكن لمستخدمي برنامج Excel استخدام لغة البرمجة VBA (Visual Basic for Applications) لإنشاء قواعد مخصصة للتحقق من صحة البيانات وأتمتة عمليات التحقق.
تجمع منصات تكامل البيانات وتنسقها من مصادر متعددة وتحولها إلى صيغ موحدة ومتماسكة يمكن استخدامها لأغراض تحليلية وتشغيلية ومساعدة في اتخاذ القرارات. التحقق من صحة البيانات هو خطوة شائعة في عملية دمج البيانات. يُعرف نهج تكامل البيانات ETL (الاستخراج والتحويل والتحميل) بشكل خاص بالتحقق الصارم من صحة البيانات.
تراقب حلول إمكانية ملاحظة البيانات سلامة البيانات عبر النظام البنائي للبيانات في المؤسسة، وتوفر لوحات معلومات للرؤية. المراقبة والتحليل المستمران المدعومان بالذكاء الاصطناعي يمكنهما اكتشاف وحل حالات عدم انتظام البيانات وغيرها من مشاكل البيانات بشكل شبه فوري. تتضمن منصات تكامل البيانات الرائدة أدوات مدمجة لإمكانية ملاحظة البيانات.
صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.
يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.
استفِد من قيمة بيانات المؤسسة باستخدام IBM Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.