تهديد متزايد: التكلفة الحقيقية لسوء جودة البيانات

خلفية مجردة باللون الأرجواني والوردي الماجنتا والأزرق مع تأثير خلل رقمي متشابك بنمط الحركة المشوهة.

تُعتبر البيانات جوهر المؤسسات الحديثة. فالبيانات تشكل استراتيجية الأعمال، وتساعد في اتخاذ القرارات، وتدعم كل شيء من نماذج التسعير إلى الأتمتة. مع اعتماد المؤسسات بشكل أكبر على البيانات الضخمة والتحليلات الفورية لدعم مبادرات الذكاء الاصطناعي التي تقوم بها، أصبح من المستحيل تجاهل تأثير جودة البيانات الرديئة.

توصل تقرير في عام 2025 صادر عن معهد IBM لقيمة الأعمال (IBV) إلى أن 43% من رؤساء العمليات يحددون مشكلات جودة البيانات كأولوية ذات أهمية قصوى في مجال البيانات.1 ولأسباب وجيهة: تقدر أكثر من ربع المؤسسات أنها تخسر أكثر من 5 ملايين دولار أمريكي سنويًا بسبب جودة البيانات الرديئة، حيث أبلغت 7% عن خسائر تبلغ 25 مليون دولار أمريكي أو أكثر.

ومع ذلك، غالبًا ما تمر جودة البيانات الرديئة دون أن يلاحظها أحد لأن تأثيرها نادرًا ما يظهر عند نقطة الفشل. وبدلاً من ذلك، فإنها تظهر في المراحل النهائية على هيئة إيرادات مفقودة وأوجه قصور ومخاطر متعلقة بالامتثال وفرص ضائعة. هذا التأخير هو ما يجعل جودة البيانات الرديئة خطيرة على نحوٍ خاص. فهي تؤثر تدريجيًا على مجموعات البيانات والأنظمة، مما يشكل القرارات الإستراتيجية قبل وقت طويل من تحديد المشكلة وأسبابها الأساسية.

ويصبح هذا التأثير الخبيث أكثر أهمية في المشهد الحالي الذي يحركه الذكاء الاصطناعي خاصةً مع ظهور الذكاء الاصطناعي التوليدي. تظهر أبحاث إضافية من معهد IBM IBV أن جودة البيانات والحوكمة من أبرز التحديات التي تعيق تبني الذكاء الاصطناعي. تُصنف المخاوف بشأن دقة البيانات أو تحيزها كعائق رئيسي أمام توسيع نطاق مبادرات الذكاء الاصطناعي، بحسب ما أفاد به نصف قادة الأعمال تقريبًا (45%).

والسبب بسيط: ترث أنظمة الذكاء الاصطناعي مشكلات جودة البيانات وتضخمها. عندما تكون تلك البيانات غير متسقة أو غير مكتملة أو متحيزة أو قديمة، فإن النماذج والوكلاء المبنية عليها تكون أقل دقة وعرضة لنشر المشكلات على نطاق واسع. وعلى النقيض من ذلك، فإن المؤسسات التي لديها أطر جودة البيانات وحوكمة ناضجة هي الأكثر ميلاً لنقل حالات استخدام الذكاء الاصطناعي من مرحلة تجريبية إلى الإنتاج، مما يحافظ على القيمة مع مرور الوقت.

ما هي جودة البيانات الرديئة؟

تحدث جودة البيانات الرديئة عندما تفشل مجموعات البيانات في استيفاء متطلبات عملية أعمال محددة. حتى البيانات التي تبدو دقيقة وكاملة يمكن أن تعمل "كبيانات سيئة" إذا لم تكن مناسبة للغرض، مما يعني أنها لا تدعم حالة الاستخدام أو سير العمل أو نتائج الذكاء الاصطناعي التي من المفترض أن تتيحها.

يمكن أن ينبع هذا الفشل من مجموعة من المشكلات، بما في ذلك البيانات غير الدقيقة أو حقول البيانات غير المكتملة أو تنسيقات البيانات غير المتسقة أو نقاط البيانات المفقودة. حتى الأخطاء البشرية الصغيرة عند إدخال معلومات الاتصال - سواء كانت خطأ في كتابة رقم الهاتف أو بيانات عنوان غير صالحة - يمكن أن تنتشر في المنتجات النهائية. يمكن أن تؤدي هذه التناقضات إلى تكرار السجلات أو فقدان البيانات خلال المراحل الأولى من جمع البيانات وتكامل البيانات، مما يضعف تحليل البيانات ويقلل من أداء الذكاء الاصطناعي، وفي النهاية يؤثر على نتائج الأعمال.

في كثير من الأحيان، يتم وصف مشكلات جودة البيانات باستخدام أبعاد مثل دقة البيانات واكتمالها ودقة توقيتها واتساقها. هذه الأبعاد مهمة، لكنها لا تروي القصة الكاملة. فالاعتماد عليها وحدها يشبه الاعتماد على مقياس خاطئ بعض الشيء - فكل قراءة فردية تبدو معقولة، ولكن الأخطاء الصغيرة تتراكم وتؤدي إلى قرارات سيئة.

تتضمن المؤشرات الشائعة للبيانات الرديئة أو منخفضة الجودة عدم الاتساق بين مصادر البيانات، أو بيانات العملاء المفقودة، أو البيانات القديمة أو مجموعة البيانات التي لا يمكن تتبعها إلى مالكي البيانات الحساسة. مع زيادة حجم البيانات، تتراكم هذه المشكلات: تتآكل البيانات عالية الجودة، وتظهر أوجه ضعف في مبادرات إدارة البيانات في المؤسسة، ويتدهور أداء الذكاء الاصطناعي.

أكاديمية الذكاء الاصطناعي

هل تعد إدارة البيانات هي سر الذكاء الاصطناعي التوليدي؟

استكشف سبب أهمية البيانات عالية الجودة للاستخدام الناجح للذكاء الاصطناعي التوليدي.

لماذا تُعدّ جودة البيانات الرديئة خطيرة؟

تواجه المؤسسات التي تسعى لتحسين تحليلات البيانات والأتمتة والذكاء الاصطناعي تحديات تتجاوز أخطاء البيانات التقليدية. لا تزال مخاوف الأمس، مثل لوحات المعلومات المشوهة والأنظمة المعزولة، مهمة. لكن اليوم، يُشكل صعود أنظمة الذكاء الاصطناعي الوكيل ومهام سير العمل المستقلة مستوى جديدًا من المخاطر. تعتمد هذه الأنظمة على بيانات محكومة جيداً وموثوقة ليس فقط من أجل التدريب، ولكن لكل تفاعل: تأسيس الاستجابات وتحفيز الإجراءات وإبلاغ القرارات في جميع أنحاء المؤسسة.

بينما لا تقوم معظم المؤسسات بتدريب نماذج لغوية كبيرة (LLMs) خاصة بها، يظهر استطلاع أجرته PwC أن 79% من المشاركين يتبنون استخدام وكلاء الذكاء الاصطناعي بشكل ما. يمكن أن يتراوح هؤلاء الوكلاء من تطبيقات بسيطة للقيادة المشتركة إلى تطبيقات التوليد المعزز بالاسترجاع (RAG) المتقدمة. في هذه البيئات، يمكن أن تؤدي مشكلات جودة البيانات إلى سلوك غير متوقع للذكاء الاصطناعي مثل المخرجات المهلوسة أو تتسبب في انحراف النماذج بمرور الوقت.

إلى جانب تسارع تبني الذكاء الاصطناعي، يتسارع أيضًا الإنفاق على الذكاء الاصطناعي - من المتوقع أن يتجاوز 2 تريليون دولار أمريكي في عام 2026، مع نمو سنوي قدره 37% - بحسب Gartner. 2 عندما يتوسع الاستثمار في الذكاء الاصطناعي، تتراكم تكلفة جودة البيانات الرديئة، مما يعني أن هامش الخطأ يضيق.

بالإضافة إلى المخاطر التي يتعرض لها الذكاء الاصطناعي، فإن حالات فشل جودة البيانات مستمرة في خلق تحديات مثل:

صناعة القرار المشوهة

تُستخدم لوحات المعلومات وأدوات ذكاء الأعمال لتوجيه القرارات الاستراتيجية عالية المخاطر. عندما تكون البيانات غير الدقيقة أو غير المكتملة هي الأساس لأدوات جودة البيانات تلك، قد يسيء القادة تقدير الأداء، أو يسيئون في تسعير العروض، أو يسعون لمبادرات تستند إلى افتراضات خاطئة.

التضخيم من خلال الأتمتة

تعتمد الأتمتة ونماذج التعلّم الآلي على مجموعات بيانات متسقة وموثوقة. كما أنها تعكس عيوبها وتضخمها. عندما تدخل البيانات ذات الجودة الرديئة إلى سير عمل التعلم الآلي، يمكن أن تنتشر أخطاءها وانحيازاتها وتناقضاتها عبر الأنظمة النهائية، مما يقلل من قيمة الأعمال والكفاءة التشغيلية.

تآكل الثقة بين الأطراف المعنية

يؤدي التعرض المتكرر لبيانات غير دقيقة أو غير متسقة إلى تآكل الثقة بين الأطراف المعنية. يقضي مهندسو البيانات وفرق البيانات وقتاً أطول في التوفيق بين مجموعة البيانات المحاصرة في صوامع منعزلة بدلاً من دفع المبادرات قُدمًا. يبدأ مستخدمو الأعمال في التشكيك في الرؤى وتتأثر تجربة العملاء حتماً.

مخاطر الامتثال والتعرض للوائح التنظيمية

في المجالات الحساسة مثل الرعاية الصحية، أو تلك التي تحكمها لوائح تنظيمية مثل اللائحة العامة لحماية البيانات (GDPR)، فإن البيانات الشخصية غير الدقيقة أو غير الخاضعة للحوكمة بشكل جيد تُعرِّضك لمخاطر الامتثال. يمكن أن يؤدي ضعف حوكمة البيانات وعدم كفاية ضوابط التحقق من صحة البيانات إلى تعريض المؤسسات لعمليات التدقيق، والإضرار بسمعتها وفرض غرامات باهظة عليها.

قياس تكلفة جودة البيانات الرديئة

على الرغم من حجمها الهائل، لا يزال من الصعب تحديد تكلفة جودة البيانات الرديئة لأن آثارها موزعة عبر الأنظمة والفِرق والوقت. غالبًا ما تظهر المشكلات على شكل تأثيرات ثانوية: تأخر سير العمل أو انخفاض الكفاءة التشغيلية أو نتائج الأعمال السيئة المرتبطة بالرؤى المعيبة وانحلال البيانات.

نادرًا ما يتم تتبع أوجه القصور هذه كمقياس واحد. بل هي وكلاء للتكلفة، حيث يعكس كل منها الوقت المستغرق أو القيمة الضائعة أو الفرص الضائعة. إن انتشار التأثير على نطاق واسع يزيد من احتمالية إساءة تقدير الخسائر المالية الناتجة بأقل مما هي عليه في الحقيقة.

بدلاً من حساب رقم دقيق بالدولار، تقوم العديد من المؤسسات بإجراء عمليات تدقيق للبيانات وتتبع العديد من المقاييس. تكشف هذه التحقيقات عن مدى تكرار حدوث مشكلات جودة البيانات ومدة استمرارها. وتتضمن المقاييس الشائعة ما يلي:

  • تكرار حوادث البيانات ودرجة خطورتها. يقيس معدل التكرار عدد مرات حدوث مشكلات البيانات، بينما تكشف درجة خطورتها عن مدى تأثيرها على العمليات.
  • متوسط الوقت اللازم للكشف (MTTD). يعكس متوسط الوقت اللازم للكشف (MTTD) مدى سرعة تحديد مشكلات البيانات، سواء داخلياً من قبل فرق البيانات أو خارجياً من قبل الأطراف المعنيين.
  • متوسط الوقت اللازم للحل (MTTR). يسجّل متوسط الوقت اللازم للحل (MTTR) متوسط الوقت اللازم لحل مشكلات البيانات، بما في ذلك إعادة العمل في المراحل اللاحقة والتحقق من الصحة.
  • التأخير في مبادرات الذكاء الاصطناعي والتحليلات. تشير التأخيرات إلى الوقت الضائع عندما يتعين على فرق البيانات إيقاف المبادرات مؤقتًا لتنظيف مجموعات البيانات المتأثرة بجودة البيانات الرديئة أو تسويتها أو إعادة بنائها.

التكلفة الحقيقية لجودة البيانات الرديئة

توضح كل من الحوادث الأخيرة التي تم الاستشهاد بها على نطاق واسع كيف أن جودة البيانات الرديئة تترجم إلى ضرر ملموس للشركات.

Unity Technologies: البيانات الرديئة تقوض عملية صنع القرار القائمة على الخوارزميات

في أوائل عام 2022، كشفت شركة Unity Technologies أن استيعاب البيانات غير الدقيق تسبب في تلف مجموعات البيانات المستخدمة لتدريب نماذج التعلم الآلي المتعلقة بالإعلانات. أدخلت مصادر البيانات الخاطئة أخطاءً في مسارات البيانات التي تدعم خوارزميات الاستهداف التنبؤي وعروض الأسعار. أبلغت شركة Unity عن خسارة حوالي 110 مليون دولار أمريكي من الإيرادات المرتبطة بالنماذج ذات الأداء الضعيف والمبادرات المتأخرة وتكلفة إعادة تدريب مجموعات البيانات المتأثرة.

Equifax: تؤثر درجات الائتمان غير الدقيقة على نتائج الإقراض

في عام 2022، أصدرت Equifax درجات ائتمانية غير دقيقة لملايين المستهلكين بسبب قيم بيانات غير صحيحة تم إنشاؤها بواسطة نظام قديم. في بعض الحالات ، كانت الأخطاء كبيرة بما يكفي للتأثير على قرارات الإقراض، مما عرض كل من المستهلكين وجهات الإقراض للمخاطر المالية.

وبالإضافة إلى الضربة التي تلقتها سمعة الشركة، شملت التداعيات التدقيق التنظيمي والتقاضي الجماعي وتسوية بقيمة 725000 دولار أمريكي - وهي واحدة من عدة عقوبات واجهتها الشركة بسبب إخفاقاتها في إعداد التقارير الائتمانية ومعالجة المنازعات.

Samsung Securities: خطأ بشري يؤدي إلى اضطراب السوق

في عام 2018، قامت شركة Samsung Securities بمعالجة إدخال بيانات غير صحيحة أثناء محاولتها إصدار توزيعات أرباح للموظفين، مما أدى عن طريق الخطأ إلى إصدار مليارات من الأسهم المكررة. أدى عدم كفاية ضوابط التحقق من صحة البيانات وعناصر التحكم البشرية إلى وصول قيم البيانات الخاطئة إلى أنظمة التداول النهائية.

وعلى الرغم من تحديد المشكلة في غضون دقائق، إلا أن العواقب كانت وخيمة: اضطراب في السوق، وعقوبات تنظيمية، واستقالات من القيادة، وخسائر تقدر بمئات الملايين من الدولارات في القيمة السوقية.

كيفية منع جودة البيانات الرديئة

لم تعد الأساليب التقليدية، مثل مراجعة جودة البيانات حصرياً داخل مستودع البيانات، قابلة لتوسيع النطاق. تتفاعل أنظمة الذكاء الاصطناعي اليوم مع البيانات بشكل مستمر، وليس بشكل عرضي، حيث يعمل العديد منها عبر البث أو المدخلات المستندة إلى الأحداث.

يعني هذا التطور أنه يجب على المؤسسات تفعيل "الاختبارات المبكّرة" فيما يتعلق بسلامة البيانات: أي دفع الاكتشاف والوقاية والمعالجة إلى مسافة أقرب إلى لحظة إنشاء البيانات، بدلاً من انتظار ظهور المشكلات في مرحلة نهائية.

يمكن أن يساعد وجود برنامج قوي لإدارة جودة البيانات المؤسسات على تجنب عواقب جودة البيانات الرديئة. كما يمكن أن يخلق ميزة تنافسية في عصر يعتمد فيه الذكاء الاصطناعي والأنظمة الوكيلة على بيانات موثوقة في الوقت الفعلي.

ولتحقيق ذلك، تحتاج المؤسسات إلى أكثر من مجموعة من الإصلاحات المنعزلة. وبدلاً من ذلك ، فإنها تحتاج إلى نهج قابل للتوسع وقابل للتكرار لإدارة جودة البيانات. من خلال النظر إلى جودة البيانات كنموذج تشغيلي وليس كقائمة فحص، يمكن للمؤسسات إعادة تشكيل كيفية إدارة الملكية والتحكم والمساءلة عبر دورة حياة البيانات بأكملها.

على الرغم من أنها ليست شاملة، إلا أن الممارسات الحديثة لمنع مشاكل جودة البيانات تشمل:

  • إنشاء حوكمة قوية وقادرة على التكيف: لا تزال الحوكمة توفر الأساس، ولكن يجب أن تتجاوز السياسات الجامدة. تعمل الحوكمة الحديثة على التوفيق بين الملكية ودورة حياة البيانات والبيانات الوصفية وعناصر التحكم في الجودة من خلال مجموعات بيانات ديناميكية متغيرة باستمرار. وذلك يعني قدرة تطبيقات الذكاء الاصطناعي والوكلاء دائماً على تحديد البيانات التي يمكنهم الوثوق بها.
  • اكتشاف المشكلات ومراقبتها في الوقت الفعلي: بدلاً من الاعتماد على عمليات فحص المستودعات أو تحديد خصائص الدفعات، تستخدم المؤسسات بشكل متزايد قابلية الملاحظة المتدفقة، والكشف المؤتمت عن الحالات الشاذة، ومراقبة انحراف المخطط لكشف المشكلات بمجرد ظهورها. تسمح هذه الاستراتيجية الاستباقية للفرق بالتدخل قبل وصول البيانات المعيبة إلى الذكاء الاصطناعي أو أنظمة التحليلات، مما يقلل من "نطاق تأثير انفجار" الأخطاء.
  • أتمتة التصحيح والمعالجة: لا يمكن لأنشطة التنقية والتنظيف اليدوية السائدة بالأمس أن تواكب أحجام البيانات الحالية. إن المعالجة المدعومة بالذكاء الاصطناعي - مثل إلغاء التكرار التلقائي، وتوحيد التنسيق، وإنشاء القواعد، وحتى مسارات الشفاء الذاتي- تساعد في حل المشكلات في وقت مبكر وبتكاليف بشرية أقل.
  • التحقق من صحة البيانات عند نقطة الدخول: يجب أن تتم عملية التحقق من صحة البيانات قبل أن يتم استهلاك البيانات بواسطة التحليلات أو الذكاء الاصطناعي، وليس بعد ذلك. يضمن تضمين عمليات التحقق من الجودة في مسارات الاستيعاب وواجهات برمجة التطبيقات (APIs) وتدفقات الأحداث عدم دخول بيانات غير صحيحة أو غير كاملة إلى أنظمة الإنتاج. يعد هذا التحقق "المبكّر" مهمًا بشكل خاص عندما يعتمد الوكلاء المستقلون أو أنظمة اتخاذ القرار في الوقت الفعلي على البيانات.

نحن نعيش في زمن يُطلب فيه من أنظمة الذكاء الاصطناعي أن تتصرف بدلاً من أن توصي. هذا التحول يضع ضغطاً على المؤسسات للحصول على جودة البيانات بشكل صحيح منذ البداية وإلا فإنها تخاطر بالتعرض للمشكلات التي تتراكم عبر عمليات الأعمال. بالنظر إلى المستقبل، ستحتاج الشركات إلى تجاوز الإصلاحات التشغيلية والنظر إلى جودة البيانات كشرط أساسي لنجاح الذكاء الاصطناعي، وليس مجرد حماية من المخاطر.

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

حلول ذات صلة
IBM watsonx.governance

حوّل الذكاء الاصطناعي الموثوق إلى واقع تشغيلي من خلال مراقبة النماذج وإدارة المخاطر وفرض الحوكمة عبر كامل دورة حياة الذكاء الاصطناعي لديك.

استكشف ®watsonx.governance
حلول حوكمة البيانات

تحكَّم في بياناتك باستخدام أدوات الحوكمة التي تعمل على تحسين الجودة وضمان الامتثال وتمكين التحليلات الموثوقة والذكاء الاصطناعي.

استكشف حلول حوكمة البيانات
استشارات حوكمة الذكاء الاصطناعي

ضع ممارسات الذكاء الاصطناعي المسؤول بتوجيه من الخبراء لإدارة المخاطر وتلبية اللوائح التنظيمية وتشغيل الذكاء الاصطناعي الموثوق على نطاق واسع.

استكشف استشارات حوكمة الذكاء الاصطناعي
اتخذ الخطوة التالية

وجّه الذكاء الاصطناعي الخاص بك وأدِره وراقبه من خلال محفظة حلول موحدة—ما يسرِّع الوصول إلى نتائج مسؤولة وشفافة وقابلة للتفسير.

  1. استكشف watsonx.governance
  2. اكتشف حلول حوكمة الذكاء الاصطناعي