أحدث الأخبار التقنية، مدعومة برؤى خبراء
ابقَ على اطلاع دائم على أبرز الاتجاهات في مجالات الذكاء الاصطناعي، والأتمتة، والبيانات، وغيرها الكثير من خلال رسالة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.
البيانات السيئة تشير إلى المعلومات التي تضر صناعة القرار لأنها غير دقيقة، أو غير مكتملة، أو غير متسقة، أو قديمة، أو مكررة، أو غير صالحة أو متحيزة.
تختلف أسباب البيانات السيئة. في بعض الأحيان تنبع المشكلة من سوء بنية البيانات، وفي أحيان أخرى تكون نتيجة خطأ بشري. بغض النظر عن المصدر، عندما تستخدم المؤسسات بيانات خاطئة عن غير قصد، قد تتراوح العواقب من إزعاجات بسيطة، مثل إرسال مستندات ضريبية إلى عنوان خاطئ، إلى مخاطر خطيرة مثل عدم الامتثال التنظيمي، وتلف السمعة، والخسائر المالية.
الخطر الفريد الذي تتسم به البيانات السيئة يكمن في تخفيها. على عكس انقطاع النظام، يمكن أن تظل تأثيرات البيانات السيئة غير مكتشفة حتى يحدث ضرر كبير، بحيث قد تعمل المؤسسة على بيانات خاطئة لسنوات دون أن تعلم. على سبيل المثال، فريق المبيعات سيلاحظ فورًا إذا لم يتم تحميل لوحة المعلومات الخاصة بهم، لكن الأمر سيستغرق وقتًا أطول بكثير ليدرك أن البيانات المعروضة غير صحيحة.
مع ارتفاع حجم البيانات الضخمة ارتفاعًا كبيرًا واعتماد قادة الأعمال اعتمادًا متزايدًا على البيانات لدعم الذكاء الاصطناعي واتخاذ القرار، أصبح زيادة جودة البيانات أكثر أهمية من أي وقت مضى. ومن خلال قوة حوكمة البيانات، وممارسات إدارة جودة البيانات، وأدوات إمكانية ملاحظة البيانات، يمكن للمؤسسات أن تساعد في ضمان أن أصول بياناتها تغذي النمو، بدلاً من أن تصبح عبئًا غير مرئي.
ابقَ على اطلاع دائم على أبرز الاتجاهات في مجالات الذكاء الاصطناعي، والأتمتة، والبيانات، وغيرها الكثير من خلال رسالة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.
يمكن تصنيف البيانات السيئة بشكل واسع باستخدام الأبعاد الرئيسية لجودة البيانات:
تقيس دقة البيانات مدى انعكاس البيانات للأحداث والقيم الحقيقية في العالم الواقعي. عندما تكون البيانات غير دقيقة، فإنها تحتوي على أخطاء ولا يمكن الاعتماد عليها في اتخاذ القرارات. على سبيل المثال، يمكن أن تؤدي بيانات العملاء غير الدقيقة (مثل نقاط البيانات المتعلقة بالأسعار) إلى تشويه رؤية الشركة لجمهورها المستهدف وإلى تصرفات مضللة تقلل من معدلات رضا العملاء.
البيانات غير المكتملة هي السجلات والقيم الضرورية المفقودة - وهي ثغرات تؤثر في معالجة البيانات وتحليل البيانات. قد تؤدي الفجوة الكبيرة إلى حدوث تحيز، حيث قد لا تكون نتائج التحليل ممثلة حقيقية لمجموعة البيانات. على سبيل المثال، إذا كانت معظم الإدخالات في قاعدة بيانات العملاء تفتقد إلى معلومات الاتصال، فإن فرق المبيعات ستفقد فرص إشراك عملائها.
البيانات غير المتسقة تفتقر إلى التوحيد القياسي وتكون إلى حد كبير غير متوافقة عبر مجموعات البيانات والأنظمة المختلفة. يمكن أن تؤدي الفروقات في صيغ التواريخ، وقواعد التسمية، ووحدات القياس إلى ارتباك بين المستخدمين، وخلق صومعة داخل منصات محددة، وحدوث أخطاء في التقارير أو التحليل.
البيانات القديمة هي معلومات لم تعد حديثة، ما قد يجعل صانعي القرار يستخدمون معلومات غير ذات صلة لا تعكس ظروف العالم الحقيقي. حداثة البيانات عبارة عن مقياس يشير إلى عدد مرات تحديث معلومات قاعدة البيانات. يمكن أن تؤدي الفترات الزمنية الطويلة بين التحديثات إلى تقادم البيانات.
تشير البيانات المكررة (أو البيانات الزائدة عن الحاجة) إلى الإدخالات المتكررة في مجموعة البيانات - تظهر البيانات الفريدة مرة واحدة فقط. يمكن أن يؤدي ذلك إلى تحريف التحليل من خلال الإفراط في تمثيل بعض قيم البيانات أو الاتجاهات. (من المهم ملاحظة أن هناك حالات استخدام للتكرار المتعمد للبيانات في تصميم قاعدة البيانات للمساعدة في ضمان التوافرية العالية وتكامل البيانات واتساقها.
البيانات غير الصالحة هي المعلومات التي لا تتوافق مع قواعد النظام أو قواعد العمل (مثل نطاقات القيم المسموح بها والتنسيقات المطلوبة وأنواع البيانات المحددة). ومن الأمثلة على ذلك البيانات التي تحتوي على حرف خاص غير مدعوم أو أرقام هواتف منسقة من دون الواصلات المطلوبة.
على الرغم من أن التحيز ليس في حد ذاته بُعدًا من أبعاد جودة البيانات، إلا أنه عامل مهم يجب على أصحاب المصلحة/الطرف المعني أن يأخذه بعين الاعتبار لأنه يؤثر في العديد من الأبعاد. تعني البيانات المتحيزة وجود انحراف في المؤشرات، أو قصور في تمثيل الوقائع الحقيقية والشرائح المستهدفة والظروف القائمة. وقد تؤدي إلى نتائج غير عادلة وغير دقيقة وغير موثوقة، وعند استخدامها في التعلم الآلي (ML) والذكاء الاصطناعي، فإنها قد تسبب عواقب خطيرة على الأفراد والمؤسسات والمجتمع.
البيانات السيئة هي نقيض البيانات الجيدة. في حين أن البيانات عالية الجودة تعزز النمو والابتكار، فإن البيانات ذات الجودة الرديئة تبطئ التقدم.
تعتمد المؤسسات على البيانات لاتخاذ قرارات مستنيرة، ورؤى قابل للتنفيذ، والتنبؤ للعمليات الداخلية بالإضافة إلى تجربة العملاء. يمكن أن تؤدي القرارات المستندة إلى بيانات سيئة إلى ضياع الفرص وأوجه القصور التشغيلية والإضرار بالسمعة. في صناعات مثل التمويل أو الرعاية الصحية، حيث تساعد البيانات في اتخاذ قرارات عالية المخاطر، يمكن أن يكون للبيانات السيئة آثار خطيرة أو حتى كارثية.
ضع في اعتبارك دراسة سريرية تحتوي على بيانات مريض غير متسقة. سيواجه الباحثون صعوبة في مقارنة النتائج، مما قد يؤخر تطوير العلاجات المحتملة. في مجال التمويل، يمكن أن تؤدي البيانات غير الدقيقة أو المفقودة إلى تكاليف امتثال باهظة. قد تؤدي التقارير المالية غير الدقيقة إلى انتهاكات للوائح مثل قانون Sarbanes-Oxley (SOX)- والذي يمكن أن يؤدي إلى غرامات تصل إلى مليون دولار أمريكي والسجن لمدة تصل إلى 10 سنوات.
تتصاعد مخاطر البيانات السيئة في سياق الذكاء الاصطناعي. عندما يتم تدريب الذكاء الاصطناعي أو التعلم الآلي على بيانات غير دقيقة أو غير متسقة أو متحيزة، فإن نتائجها تعكس تلك الأخطاء. للمساعدة في تعظيم الاستثمارات في الذكاء الاصطناعي وتعلم الآلة، يجب على المؤسسات التأكد من أن بياناتها جاهزة للذكاء الاصطناعي.
تُعد Unity Technologies مثالاً ساطعًا على عواقب البيانات السيئة في التقنية والذكاء الاصطناعي والتعلم الآلي (ML). في عام 2022، استوعبت خوارزمية وضع الإعلانات الخاصة بشركة ألعاب الفيديو بيانات خاطئة من أحد العملاء الكبار. عانى أداء الخوارزمية لدرجة أنهم اضطروا إلى إعادة بنائها. وقد ساهم هذا الحادث في انخفاض سهم Unity بمقدار 37%، وتقدر الخسائر التي لحقت بالشركة بنحو 110 مليون دولار أمريكي.
من ناحية أخرى، يمكن أن تكون البيانات الجيدة والدقيقة نعمة لمبادرات الذكاء الاصطناعي. وجدت البحث من معهد IBM لقيمة الأعمال أن المجموعة التي تمتلك بيانات موثوقة حققت تقريبًا ضعف عائد الاستثمار من القدرات في الذكاء الاصطناعي. الخلاصة: البيانات الجيدة هي أولوية غير قابلة للتفاوض لأي استراتيجية ذكاء اصطناعي أو استراتيجية قائمة على البيانات.
لا يوجد سبب جذري واحد للبيانات السيئة. يمكن أن تنشأ من التكنولوجيا أو العمليات أو الأشخاص - وعادةً ما تكون مزيجاً من عدة عوامل. تتضمن بعض الأسباب الشائعة لضعف جودة البيانات ما يلي:
يمكن أن تؤدي بنى البيانات المصممة بشكل سيء إلى صومعة البيانات، والأداء البطيء، وأخطاء في البرمجيات تقلل من اتساق البيانات وموثوقيتها. عندما تفشل الأنظمة، يمكن أن تتلف الملفات أو تبقى غير مكتملة، مما يؤدي إلى فقدان للقيم وعدم دقة في العمليات التالية.
تتعرض العديد من أنواع بيانات الأعمال (مثل مقاييس سلوك المستهلك) للتلف إذا لم يتم تحديثها بانتظام. عندما تكون قواعد البيانات قديمة، فإن أي رؤى أو قرارات تستند إلى البيانات تكون قديمة، ومن المحتمل أن تكون غير دقيقة.
يمكن أن تنشأ البيانات السيئة عند جمعها، وليس فقط من مصادر البيانات أو مقدميها ذوي الجودة الرديئة. يمكن أن تؤدي التحيزات أو الأساليب غير المتسقة أو الأدوات المعيبة أو القياسات غير الدقيقة أثناء إدخال البيانات ومعالجتها إلى الإضرار بجودة البيانات.
تحدد حوكمة البيانات، باعتبارها تخصصًا، السياسات والمعايير والإجراءات الخاصة بدورة حياة البيانات بأكملها وتنفذها. عندما يتم تطبيق هذه الممارسات بشكل غير متسق أو بدون مساءلة، فإن جودة البيانات تتآكل بسرعة.
الخطأ البشري هو سبب متكرر للبيانات السيئة. الأخطاء الإملائية أثناء إدخال البيانات يدويا، والبرمجة غير المتسقة، أو التحيزات أو سوء التفسير يمكن أن تؤدي جميعها إلى أخطاء في البيانات. يتفاقم الخطأ البشري بسبب ضغوط الوقت والتدريب غير الكافي والأنظمة سيئة التصميم.
يمكن أن يؤدي انتقال البيانات أو التكامل بدون العمليات والتخطيط والتقنية المناسبين إلى فقدان البيانات وتناقضات وعدم دقة. غالبًا ما تنشأ هذه المشكلات من تنسيقات وهياكل البيانات غير المتطابقة أو التبعيات غير الملحوظة.
في عالم مثالي، سيتم اكتشاف البيانات السيئة من المصدر ولن تصل أبدا إلى الأنظمة اللاحقة أو سير عمل تحليلات البيانات. ومع ذلك، في الواقع، يمكن أن تتدهور جودة البيانات في أي مرحلة من دورة حياتها ولأسباب عديدة ومختلفة.
منع البيانات السيئة في جميع المراحل يتطلب استراتيجية شاملة تعالج المخاطر في كل مرحلة. يمكن أن تتضمن هذه الاستراتيجية الممارسات التالية:
إنشاء حوكمة البيانات قوية خطوة أولى حساسة لمنع البيانات السيئة. وهي تحدد السياسات والمعايير والإجراءات اللازمة للحفاظ على بيانات دقيقة وعالية الجودة طوال دورة حياتها وتنفذها. يمكن لإطار العمل القوي أن يساعد المؤسسات على تحديد ومعالجة الأخطاء قبل أن تؤثر في صناعة القرار وكفاءة العمليات.
يجب أن تكمل حوكمة البيانات الفعالة وتعزز استراتيجية البيانات الأوسع للمؤسسة. عادة ما يعمل جنبا إلى جنب مع تخصصات أخرى—مثل إدارة البيانات، أمن البيانات، وهندسة البيانات—للحفاظ على اتساق وموثوقية البيانات.
لا يمكنك إصلاح البيانات السيئة إذا لم تكن تعلم بوجودها. يمكن للمؤسسات استخدام العديد من العمليات للحصول على رؤية ومراقبة سلامة بياناتها باستمرار:
مع تحديد أخطاء البيانات وأسبابها الجذرية، يجب تصحيح البيانات السيئة. تعمل عمليات تنظيف البيانات على معالجة المشكلات الشائعة في جودة البيانات مثل السجلات المكررة، القيم المفقودة، التناقضات، أخطاء النحو، البيانات غير ذات الصلة، والأخطاء الهيكلية. تتضمن التقنيات الشائعة التوحيد القياسي ومعالجة القيمة الخارجية والقيم المفقودة واستخلاص البيانات المكررة والتحقق من صحة البيانات.
وتستخدم فرق البيانات الذكاء الاصطناعي بشكل متزايد لأتمتة العديد من هذه الخطوات وتحسينها، خاصةً مهام مثل التوحيد القياسي وإلغاء التكرار.
المؤسسات الملمة بالبيانات تمتلك المهارات اللازمة للقراءة والفهم والاستخدام والتواصل مع البيانات من أجل صناعة القرار. كما أن القدرة على تقييم البيانات بشكل نقدي تحسِّن جودة البيانات بشكل عام: يكون الموظفون الذين يتمتعون حتى بمهارات بدائية في مجال البيانات مجهزين بشكل أفضل للتعرف على التحيز أو التناقضات أو عدم الدقة أو القيم المفقودة.
إنشاء أنظمة تدفق البيانات الذكية وإدارتها من خلال واجهة رسومية سهلة الاستخدام، ما يسهِّل تكامل البيانات بسلاسة عبر البيئات الهجينة ومتعددة السحابة.
يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.
استفِد من قيمة بيانات المؤسسة مع IBM® Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.