ما المقصود بالبيانات السيئة؟

تعريف البيانات السيئة

البيانات السيئة تشير إلى المعلومات التي تضر صناعة القرار لأنها غير دقيقة، أو غير مكتملة، أو غير متسقة، أو قديمة، أو مكررة، أو غير صالحة أو متحيزة.

تختلف أسباب البيانات السيئة. في بعض الأحيان تنبع المشكلة من سوء بنية البيانات، وفي أحيان أخرى تكون نتيجة خطأ بشري. بغض النظر عن المصدر، عندما تستخدم المؤسسات بيانات خاطئة عن غير قصد، قد تتراوح العواقب من إزعاجات بسيطة، مثل إرسال مستندات ضريبية إلى عنوان خاطئ، إلى مخاطر خطيرة مثل عدم الامتثال التنظيمي، وتلف السمعة، والخسائر المالية.

الخطر الفريد الذي تتسم به البيانات السيئة يكمن في تخفيها. على عكس انقطاع النظام، يمكن أن تظل تأثيرات البيانات السيئة غير مكتشفة حتى يحدث ضرر كبير، بحيث قد تعمل المؤسسة على بيانات خاطئة لسنوات دون أن تعلم. على سبيل المثال، فريق المبيعات سيلاحظ فورًا إذا لم يتم تحميل لوحة المعلومات الخاصة بهم، لكن الأمر سيستغرق وقتًا أطول بكثير ليدرك أن البيانات المعروضة غير صحيحة.

مع ارتفاع حجم البيانات الضخمة ارتفاعًا كبيرًا واعتماد قادة الأعمال اعتمادًا متزايدًا على البيانات لدعم الذكاء الاصطناعي واتخاذ القرار، أصبح زيادة جودة البيانات أكثر أهمية من أي وقت مضى. ومن خلال قوة حوكمة البيانات، وممارسات إدارة جودة البيانات، وأدوات إمكانية ملاحظة البيانات، يمكن للمؤسسات أن تساعد في ضمان أن أصول بياناتها تغذي النمو، بدلاً من أن تصبح عبئًا غير مرئي.

أنواع البيانات السيئة

يمكن تصنيف البيانات السيئة بشكل واسع باستخدام الأبعاد الرئيسية لجودة البيانات:

  • بيانات غير دقيقة
  • بيانات غير مكتملة
  • بيانات غير متسقة
  • بيانات قديمة
  • بيانات مكررة
  • بيانات غير صالحة
  • بيانات متحيزة

بيانات غير دقيقة

تقيس دقة البيانات مدى انعكاس البيانات للأحداث والقيم الحقيقية في العالم الواقعي. عندما تكون البيانات غير دقيقة، فإنها تحتوي على أخطاء ولا يمكن الاعتماد عليها في اتخاذ القرارات. على سبيل المثال، يمكن أن تؤدي بيانات العملاء غير الدقيقة (مثل نقاط البيانات المتعلقة بالأسعار) إلى تشويه رؤية الشركة لجمهورها المستهدف وإلى تصرفات مضللة تقلل من معدلات رضا العملاء.

بيانات غير مكتملة

البيانات غير المكتملة هي السجلات والقيم الضرورية المفقودة - وهي ثغرات تؤثر في معالجة البيانات وتحليل البيانات. قد تؤدي الفجوة الكبيرة إلى حدوث تحيز، حيث قد لا تكون نتائج التحليل ممثلة حقيقية لمجموعة البيانات. على سبيل المثال، إذا كانت معظم الإدخالات في قاعدة بيانات العملاء تفتقد إلى معلومات الاتصال، فإن فرق المبيعات ستفقد فرص إشراك عملائها.

بيانات غير متسقة

البيانات غير المتسقة تفتقر إلى التوحيد القياسي وتكون إلى حد كبير غير متوافقة عبر مجموعات البيانات والأنظمة المختلفة. يمكن أن تؤدي الفروقات في صيغ التواريخ، وقواعد التسمية، ووحدات القياس إلى ارتباك بين المستخدمين، وخلق صومعة داخل منصات محددة، وحدوث أخطاء في التقارير أو التحليل.

بيانات قديمة

البيانات القديمة هي معلومات لم تعد حديثة، ما قد يجعل صانعي القرار يستخدمون معلومات غير ذات صلة لا تعكس ظروف العالم الحقيقي. حداثة البيانات عبارة عن مقياس يشير إلى عدد مرات تحديث معلومات قاعدة البيانات. يمكن أن تؤدي الفترات الزمنية الطويلة بين التحديثات إلى تقادم البيانات.

بيانات مكررة

تشير البيانات المكررة (أو البيانات الزائدة عن الحاجة) إلى الإدخالات المتكررة في مجموعة البيانات - تظهر البيانات الفريدة مرة واحدة فقط. يمكن أن يؤدي ذلك إلى تحريف التحليل من خلال الإفراط في تمثيل بعض قيم البيانات أو الاتجاهات. (من المهم ملاحظة أن هناك حالات استخدام للتكرار المتعمد للبيانات في تصميم قاعدة البيانات للمساعدة في ضمان التوافرية العالية وتكامل البيانات واتساقها.

بيانات غير صالحة

البيانات غير الصالحة هي المعلومات التي لا تتوافق مع قواعد النظام أو قواعد العمل (مثل نطاقات القيم المسموح بها والتنسيقات المطلوبة وأنواع البيانات المحددة). ومن الأمثلة على ذلك البيانات التي تحتوي على حرف خاص غير مدعوم أو أرقام هواتف منسقة من دون الواصلات المطلوبة.

بيانات متحيزة

على الرغم من أن التحيز ليس في حد ذاته بُعدًا من أبعاد جودة البيانات، إلا أنه عامل مهم يجب على أصحاب المصلحة/الطرف المعني أن يأخذه بعين الاعتبار لأنه يؤثر في العديد من الأبعاد. تعني البيانات المتحيزة وجود انحراف في المؤشرات، أو قصور في تمثيل الوقائع الحقيقية والشرائح المستهدفة والظروف القائمة. وقد تؤدي إلى نتائج غير عادلة وغير دقيقة وغير موثوقة، وعند استخدامها في التعلم الآلي (ML) والذكاء الاصطناعي، فإنها قد تسبب عواقب خطيرة على الأفراد والمؤسسات والمجتمع.

أكاديمية الذكاء الاصطناعي

هل تعد إدارة البيانات هي سر الذكاء الاصطناعي التوليدي؟

استكشف سبب أهمية البيانات عالية الجودة للاستخدام الناجح للذكاء الاصطناعي التوليدي.

ما تأثير البيانات السيئة؟

البيانات السيئة هي نقيض البيانات الجيدة. في حين أن البيانات عالية الجودة تعزز النمو والابتكار، فإن البيانات ذات الجودة الرديئة تبطئ التقدم.

تعتمد المؤسسات على البيانات لاتخاذ قرارات مستنيرة، ورؤى قابل للتنفيذ، والتنبؤ للعمليات الداخلية بالإضافة إلى تجربة العملاء. يمكن أن تؤدي القرارات المستندة إلى بيانات سيئة إلى ضياع الفرص وأوجه القصور التشغيلية والإضرار بالسمعة. في صناعات مثل التمويل أو الرعاية الصحية، حيث تساعد البيانات في اتخاذ قرارات عالية المخاطر، يمكن أن يكون للبيانات السيئة آثار خطيرة أو حتى كارثية.

ضع في اعتبارك دراسة سريرية تحتوي على بيانات مريض غير متسقة. سيواجه الباحثون صعوبة في مقارنة النتائج، مما قد يؤخر تطوير العلاجات المحتملة. في مجال التمويل، يمكن أن تؤدي البيانات غير الدقيقة أو المفقودة إلى تكاليف امتثال باهظة. قد تؤدي التقارير المالية غير الدقيقة إلى انتهاكات للوائح مثل قانون Sarbanes-Oxley (SOX)- والذي يمكن أن يؤدي إلى غرامات تصل إلى مليون دولار أمريكي والسجن لمدة تصل إلى 10 سنوات.

تتصاعد مخاطر البيانات السيئة في سياق الذكاء الاصطناعي. عندما يتم تدريب الذكاء الاصطناعي أو التعلم الآلي على بيانات غير دقيقة أو غير متسقة أو متحيزة، فإن نتائجها تعكس تلك الأخطاء. للمساعدة في تعظيم الاستثمارات في الذكاء الاصطناعي وتعلم الآلة، يجب على المؤسسات التأكد من أن بياناتها جاهزة للذكاء الاصطناعي.

تُعد Unity Technologies مثالاً ساطعًا على عواقب البيانات السيئة في التقنية والذكاء الاصطناعي والتعلم الآلي (ML). في عام 2022، استوعبت خوارزمية وضع الإعلانات الخاصة بشركة ألعاب الفيديو بيانات خاطئة من أحد العملاء الكبار. عانى أداء الخوارزمية لدرجة أنهم اضطروا إلى إعادة بنائها. وقد ساهم هذا الحادث في انخفاض سهم Unity بمقدار 37%، وتقدر الخسائر التي لحقت بالشركة بنحو 110 مليون دولار أمريكي.

من ناحية أخرى، يمكن أن تكون البيانات الجيدة والدقيقة نعمة لمبادرات الذكاء الاصطناعي. وجدت البحث من معهد IBM لقيمة الأعمال أن المجموعة التي تمتلك بيانات موثوقة حققت تقريبًا ضعف عائد الاستثمار من القدرات في الذكاء الاصطناعي. الخلاصة: البيانات الجيدة هي أولوية غير قابلة للتفاوض لأي استراتيجية ذكاء اصطناعي أو استراتيجية قائمة على البيانات.

ما الذي يسبب البيانات غير الصحيحة؟

لا يوجد سبب جذري واحد للبيانات السيئة. يمكن أن تنشأ من التكنولوجيا أو العمليات أو الأشخاص - وعادةً ما تكون مزيجاً من عدة عوامل. تتضمن بعض الأسباب الشائعة لضعف جودة البيانات ما يلي:

  • أعطال النظام
  • تدهور البيانات
  • جمع بيانات غير موثوق به
  • ضعف حوكمة البيانات
  • خطأ بشري
  • تكامل البيانات أو أعطال الترحيل
أعطال النظام

يمكن أن تؤدي بنى البيانات المصممة بشكل سيء إلى صومعة البيانات، والأداء البطيء، وأخطاء في البرمجيات تقلل من اتساق البيانات وموثوقيتها. عندما تفشل الأنظمة، يمكن أن تتلف الملفات أو تبقى غير مكتملة، مما يؤدي إلى فقدان للقيم وعدم دقة في العمليات التالية.

تدهور البيانات

تتعرض العديد من أنواع بيانات الأعمال (مثل مقاييس سلوك المستهلك) للتلف إذا لم يتم تحديثها بانتظام. عندما تكون قواعد البيانات قديمة، فإن أي رؤى أو قرارات تستند إلى البيانات تكون قديمة، ومن المحتمل أن تكون غير دقيقة.

جمع بيانات غير موثوق به

يمكن أن تنشأ البيانات السيئة عند جمعها، وليس فقط من مصادر البيانات أو مقدميها ذوي الجودة الرديئة. يمكن أن تؤدي التحيزات أو الأساليب غير المتسقة أو الأدوات المعيبة أو القياسات غير الدقيقة أثناء إدخال البيانات ومعالجتها إلى الإضرار بجودة البيانات.

ضعف حوكمة البيانات

تحدد حوكمة البيانات، باعتبارها تخصصًا، السياسات والمعايير والإجراءات الخاصة بدورة حياة البيانات بأكملها وتنفذها. عندما يتم تطبيق هذه الممارسات بشكل غير متسق أو بدون مساءلة، فإن جودة البيانات تتآكل بسرعة.

خطأ بشري

الخطأ البشري هو سبب متكرر للبيانات السيئة. الأخطاء الإملائية أثناء إدخال البيانات يدويا، والبرمجة غير المتسقة، أو التحيزات أو سوء التفسير يمكن أن تؤدي جميعها إلى أخطاء في البيانات. يتفاقم الخطأ البشري بسبب ضغوط الوقت والتدريب غير الكافي والأنظمة سيئة التصميم.

تفاصيل التكامل أو الترحيل

يمكن أن يؤدي انتقال البيانات أو التكامل بدون العمليات والتخطيط والتقنية المناسبين إلى فقدان البيانات وتناقضات وعدم دقة. غالبًا ما تنشأ هذه المشكلات من تنسيقات وهياكل البيانات غير المتطابقة أو التبعيات غير الملحوظة.

كيفية منع البيانات السيئة

في عالم مثالي، سيتم اكتشاف البيانات السيئة من المصدر ولن تصل أبدا إلى الأنظمة اللاحقة أو سير عمل تحليلات البيانات. ومع ذلك، في الواقع، يمكن أن تتدهور جودة البيانات في أي مرحلة من دورة حياتها ولأسباب عديدة ومختلفة.

منع البيانات السيئة في جميع المراحل يتطلب استراتيجية شاملة تعالج المخاطر في كل مرحلة. يمكن أن تتضمن هذه الاستراتيجية الممارسات التالية:

  • الحوكمة والاستراتيجية
  • المراقبة والرؤية
  • التنظيف والمعالجة
  • مهارات البيانات ومعرفة استخدامها

الحوكمة والاستراتيجية

إنشاء حوكمة البيانات قوية خطوة أولى حساسة لمنع البيانات السيئة. وهي تحدد السياسات والمعايير والإجراءات اللازمة للحفاظ على بيانات دقيقة وعالية الجودة طوال دورة حياتها وتنفذها. يمكن لإطار العمل القوي أن يساعد المؤسسات على تحديد ومعالجة الأخطاء قبل أن تؤثر في صناعة القرار وكفاءة العمليات.

يجب أن تكمل حوكمة البيانات الفعالة وتعزز استراتيجية البيانات الأوسع للمؤسسة. عادة ما يعمل جنبا إلى جنب مع تخصصات أخرى—مثل إدارة البيانات، أمن البيانات، وهندسة البيانات—للحفاظ على اتساق وموثوقية البيانات.

المراقبة والرؤية

لا يمكنك إصلاح البيانات السيئة إذا لم تكن تعلم بوجودها. يمكن للمؤسسات استخدام العديد من العمليات للحصول على رؤية ومراقبة سلامة بياناتها باستمرار:

  • دورة حياة البيانات: توفر هذه الأدوات رؤية واضحة لكيفية تحرك البيانات ( وبياناتها الوصفية) وتغيرها طوال دورة حياتها، بما في ذلك مصدرها ووجهتها النهائية. دورة حياة البيانات تدعم تحليل السبب الأساسي والامتثال التنظيمي.

  • عمليات تدقيق البيانات: تساعد التقييمات المنتظمة لبيانات المؤسسة في رسم خريطة مرئية لبيئة البيانات. تساعد عمليات التدقيق المؤسسات على اكتشاف بياناتها وتصنيفها ومراقبتها للكشف عن المخاطر والأخطاء والتناقضات.

  • تنميط البيانات: تقوم عملية تنميط البيانات بتحليل البيانات لاكتساب رؤى حول هيكلها وجودتها حتى تتمكن الفرق من التخطيط لإجراء عمليات المعالجة. يتم تنفيذها عادةً بواسطة مهندسي البيانات الذين يستخدمون مجموعة من قواعد الأعمال والخوارزميات التحليلية.

  • إمكانية ملاحظة البيانات: تتجاوز المراقبة التقليدية، تستخدم أدوات مراقبة البيانات الأتمتة والذكاء للمساعدة في تحديد وحل المشكلات المتعلقة بالبيانات في زمن شبه حقيقي، قبل أن تتاح لها الفرصة للانتشار إلى العمليات.

التطهير والمعالجة

مع تحديد أخطاء البيانات وأسبابها الجذرية، يجب تصحيح البيانات السيئة. تعمل عمليات تنظيف البيانات على معالجة المشكلات الشائعة في جودة البيانات مثل السجلات المكررة، القيم المفقودة، التناقضات، أخطاء النحو، البيانات غير ذات الصلة، والأخطاء الهيكلية. تتضمن التقنيات الشائعة التوحيد القياسي ومعالجة القيمة الخارجية والقيم المفقودة واستخلاص البيانات المكررة والتحقق من صحة البيانات.

وتستخدم فرق البيانات الذكاء الاصطناعي بشكل متزايد لأتمتة العديد من هذه الخطوات وتحسينها، خاصةً مهام مثل التوحيد القياسي وإلغاء التكرار.

مهارات البيانات والإلمام بالقراءة والكتابة

المؤسسات الملمة بالبيانات تمتلك المهارات اللازمة للقراءة والفهم والاستخدام والتواصل مع البيانات من أجل صناعة القرار. كما أن القدرة على تقييم البيانات بشكل نقدي تحسِّن جودة البيانات بشكل عام: يكون الموظفون الذين يتمتعون حتى بمهارات بدائية في مجال البيانات مجهزين بشكل أفضل للتعرف على التحيز أو التناقضات أو عدم الدقة أو القيم المفقودة.

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

عرض ثلاثي الأبعاد لمجموعة من الرموز المصطفة مثل كاميرا ومقبض مستوى الصوت وحافظة
حلول ذات صلة
منصة IBM StreamSets

إنشاء أنظمة تدفق البيانات الذكية وإدارتها من خلال واجهة رسومية سهلة الاستخدام، ما يسهِّل تكامل البيانات بسلاسة عبر البيئات الهجينة ومتعددة السحابة.

استكشف StreamSets
IBM watsonx.data

يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.

اكتشف watsonx.data
خدمات الاستشارات في مجال البيانات والتحليلات

استفِد من قيمة بيانات المؤسسة مع IBM® Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.

اكتشف خدمات التحليلات
اتخِذ الخطوة التالية

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

  1. استكشف حلول إدارة البيانات
  2. اكتشف watsonx.data