ما هو تحيز البيانات؟

04 أكتوبر 2024

 

المؤلفين

Julie Rogers

Staff Writer

Alexandra Jonker

Editorial Content Lead

ما هو تحيز البيانات؟

يحدث تحيز البيانات عندما تؤثر التحيزات الموجودة في مجموعات بيانات التدريب والضبط الدقيق لنماذج الذكاء الاصطناعي (AI) سلبًا على سلوك النموذج.

نماذج الذكاء الاصطناعي هي برامج تم تدريبها على مجموعات البيانات للتعرف على أنماط معينة أو اتخاذ قرارات معينة. يتم تطبيق خوارزميات مختلفة على مدخلات البيانات ذات الصلة لتحقيق المهام أو المخرجات التي تم برمجتها لها.

قد يؤدي تدريب نظام الذكاء الاصطناعي على بيانات تنطوي على تحيز، مثل التحيز التاريخي أو التمثيلي، إلى إخراجات متحيزة أو منحرفة يمكن أن تمثل بشكل غير عادل مجموعات أو أفرادًا معينين أو تكون متحيزة ضدهم. تؤدي هذه التأثيرات إلى تآكل الثقة في الذكاء الاصطناعي والمؤسسات التي تستخدمه. كما يمكن أن تؤدي إلى فرض عقوبات قانونية وتنظيمية على الشركات.

يعد تحيز البيانات أحد الاعتبارات المهمة للقطاعات عالية المخاطر—مثل الرعاية الصحية والموارد البشرية والتمويل—التي تستخدم الذكاء الاصطناعي بشكل متزايد للمساعدة في اتخاذ القرارات المستنيرة. يمكن للمؤسسات التخفيف من التحيز في البيانات من خلال فهم الأنواع المختلفة لتحيز البيانات وكيفية حدوثها ومن خلال تحديد هذه التحيزات والحد منها وإدارتها طوال دورة حياة الذكاء الاصطناعي.

ما هي مخاطر تحيز البيانات؟

يمكن أن يؤدي تحيز البيانات إلى أنظمة ذكاء اصطناعي غير عادلة وغير دقيقة وغير موثوقة مما يؤدي إلى عواقب وخيمة على الأفراد والشركات والمجتمع. تتضمن بعض مخاطر تحيز البيانات ما يلي:

التمييز وعدم المساواة

يمكن أن يؤدي التحيز في البيانات داخل أنظمة الذكاء الاصطناعي إلى إدامة التحيزات المجتمعية القائمة، مما يؤدي إلى معاملة غير عادلة على أساس خصائص مثل الجنس أو العمر أو العرق أو الإثنية. قد تكون الفئات المهمشة ممثلة تمثيلاً ناقصاً في البيانات أو مستبعدة منها، مما يؤدي إلى اتخاذ قرارات لا تلبي احتياجات السكان الفعليين.

على سبيل المثال، قد تؤدي خوارزمية التوظيف التي يتم تدريبها في المقام الأول على بيانات من قوى عاملة متجانسة من الذكور إلى تفضيل المرشحين الذكور مع إجحاف المتقدمات المؤهلات، مما يؤدي إلى إدامة عدم المساواة بين الجنسين في مكان العمل.

التنبؤات والقرارات غير الدقيقة

يمكن أن تؤدي نماذج الذكاء الاصطناعي المُدربة على بيانات منحرفة إلى نتائج غير صحيحة، مما قد يؤدي إلى اتخاذ المؤسسات لقرارات سيئة أو اقتراح حلول غير فعالة. على سبيل المثال، قد تسيء الشركات التي تستخدم تحليلات تنبؤية متحيزة تفسير اتجاهات السوق، مما يؤدي إلى سوء إطلاق المنتجات أو سوء تخصيص الموارد.

العواقب القانونية والأخلاقية

يمكن أن يعرض تحيز البيانات المؤسسات لخطر التدقيق التنظيمي وعدم الامتثال القانوني والغرامات الكبيرة. على سبيل المثال، حسب قانون الذكاء الاصطناعي للاتحاد الأوروبي، قد يؤدي عدم الامتثال لممارسات الذكاء الاصطناعي المحظورة إلى غرامات تصل إلى 35000000 يورو أو 7% من حجم المبيعات السنوية في جميع أنحاء العالم، أيهما أعلى.

قد تشهد المؤسسات التي تنتهك القوانين المحلية والإقليمية أيضا تآكلًا في السمعة وثقة العملاء. لنأخذ على سبيل المثال شركة بيع بالتجزئة أُدينت بالتمييز لاستخدامها نموذج تسعير مدعوم بالذكاء الاصطناعي يفرض أسعارًا أعلى على مجموعات سكانية معينة. قد يؤدي هذا الموقف إلى أزمة علاقات عامة تضر بصورة العلامة التجارية للشركة وولاء العملاء.

فقدان الثقة

يمكن أن يؤدي تحيز البيانات إلى تراجع الثقة في أنظمة الذكاء الاصطناعي. وقد تدفع الحالات الحادة أو المتكررة من القرارات المتحيزة أو غير الدقيقة التي يتخذها الذكاء الاصطناعي الأفراد والمجتمعات إلى التشكيك في نزاهة المؤسسة التي تستخدم الذكاء الاصطناعي. كما قد يتزايد تشكك الناس في موثوقية الذكاء الاصطناعي ونزاهته بشكل عام، ما يؤدي إلى إحجام أوسع عن تبني هذه التقنية.

حلقات التعليقات

أنظمة الذكاء الاصطناعي هي أنظمة تستخدم النتائج المتحيزة كبيانات إدخال لاتخاذ القرار، وتنشئ حلقة تعليقات قد تعزز كذلك التحيز بمرور الوقت. تؤدي هذه الدورة، التي تتعلم فيها الخوارزمية الأنماط المتحيزة نفسها باستمرار وتعمل على إدامتها، إلى نتائج منحرفة بشكل متزايد.

على سبيل المثال، يمكن أن ينعكس التمييز التاريخي، مثل الاستبعاد—أي حرمان الأشخاص من الخدمات المالية على أساس عرقهم—في بيانات التدريب لنماذج الذكاء الاصطناعي المكلف باتخاذ قرارات القروض المصرفية. نظرًا لأن نظام الذكاء الاصطناعي يعالج الطلبات باستخدام هذه البيانات، فقد يعاقب بشكل غير عادل الأفراد الذين يتشاركون في الخصائص الاجتماعية والاقتصادية مع ضحايا عمليات الاستبعاد في السنوات الماضية. قد تؤدي بيانات الرفض الأخيرة للقروض إلى توجيه اتخاذ القرارات المستقبلية للذكاء الاصطناعي، مما يؤدي إلى دورة يستمر فيها أعضاء المجموعات غير الممثلة في الحصول على فرص ائتمانية أقل.

تحيز الذكاء الاصطناعي مقابل التحيز الخوارزمي مقابل تحيز البيانات

يمكن أن يؤدي كل من تحيز البيانات وتحيز الذكاء الاصطناعي وتحيز الخوارزميات إلى مخرجات مشوهة ونتائج ضارة محتملة، ولكن هناك اختلافات دقيقة بين هذه المصطلحات.

تحيز الذكاء الاصطناعي

تحيز الذكاء الاصطناعي، ويسمى أيضًا تحيز التعلم الآلي، هو مصطلح شامل لأنواع التحيز المختلفة المرتبطة بأنظمة الذكاء الاصطناعي. وهو يشير إلى حدوث نتائج متحيزة بسبب التحيزات البشرية التي تحرف بيانات التدريب الأصلية أو خوارزمية الذكاء الاصطناعي.

التحيز الخوارزمي

التحيز الخوارزمي هو مجموعة فرعية من تحيز الذكاء الاصطناعي يحدث عندما تؤدي الأخطاء المنهجية في خوارزميات التعلم الآلي إلى نتائج غير عادلة أو تمييزية. لا ينتج التحيز الخوارزمي عن الخوارزمية نفسها، بل بسبب كيفية جمع المطورين لبيانات التدريب وترميزها.

تحيز البيانات

يندرج تحيز البيانات أيضا تحت مظلة تحيز الذكاء الاصطناعي ويمكن أن يكون أحد أسباب التحيز الخوارزمي. يشير تحيز البيانات على وجه التحديد إلى الطبيعة المنحرفة أو غير التمثيلية للبيانات المستخدمة لتدريب نماذج الذكاء الاصطناعي.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث أخبار ورؤى الذكاء الاصطناعي 


تتوفر رؤى وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

ما هي الأنواع المختلفة لتحيز البيانات؟

يمكن أن يساعد فهم الأنواع المختلفة من التحيز ومعالجتها في إنشاء أنظمة الذكاء الاصطناعي الدقيقة والجديرة بالثقة. تتضمن بعض الأنواع الشائعة لتحيز البيانات ما يلي:

  • التحيز المعرفي
  • تحيز الأتمتة
  • التحيز التأكيدي
  • التحيز الإقصائي
  • التحيز التاريخي (الزمني)
  • التحيز الضمني
  • تحيز القياس
  • تحيز التقارير
  • تحيز الاختيار
  • تحيز العينة

التحيز المعرفي

عندما يقوم الناس بمعالجة المعلومات وإصدار الأحكام، فإنهم يتأثرون حتمًا بتجربهم وتفضيلاتهم. ونتيجة لذلك، قد يقوم الناس ببناء هذه التحيزات في نظم الذكاء الاصطناعي من خلال اختيار البيانات أو كيفية ترجيح البيانات. التحيز المعرفي يمكن أن يؤدي إلى أخطاء منهجية، مثل تفضيل مجموعات البيانات التي تم جمعها من الأمريكيين بدلاً من أخذ عينات من مجموعة من السكان حول العالم.

تحيز الأتمتة

يحدث تحيز الأتمتة عندما يعتمد المستخدمون بشكل مفرط على التقنيات الآلية، مما يؤدي إلى قبول غير نقدي لمخرجاتهم، مما قد يؤدي إلى إدامة وتضخيم تحيزات البيانات الموجودة. على سبيل المثال، في مجال الرعاية الصحية، قد يعتمد الطبيب بشكل كبير على أداة تشخيص الذكاء الاصطناعي لاقتراح خطط علاج للمرضى. من خلال عدم التحقق من نتائج الأداة مقارنةً بخبرته السريرية، من المحتمل أن يخطئ الطبيب في تشخيص المريض إذا كان قرار الأداة نابعًا من بيانات متحيزة.

التحيز التأكيدي

يحدث التحيز التأكيدي عندما يتم تضمين البيانات بشكل انتقائي لتأكيد المعتقدات أو الفرضيات الموجودة مسبقًا. فعلى سبيل المثال، يحدث التحيز التأكيدي في العمل الشرطي التنبؤي عندما تركز جهات إنفاذ القانون على جمع البيانات في الأحياء التي تشهد معدلات جريمة مرتفعة تاريخيًا. النتائج في الإفراط في مراقبة هذه الأحياء، بسبب الإدراج الانتقائي للبيانات التي تدعم الافتراضات القائمة حول المنطقة.

التحيز الإقصائي

التحيز الإقصائي يحدث عندما يتم استبعاد بيانات مهمة من مجموعات البيانات. في التنبؤات الاقتصادية، يؤدي الاستبعاد المنهجي للبيانات من المناطق ذات الدخل المنخفض إلى مجموعات بيانات لا تمثل السكان بدقة، مما يؤدي إلى توقعات اقتصادية تميل لصالح المناطق الأكثر ثراءً.

التحيز التاريخي (الزمني)

يحدث التحيز التاريخي، المعروف أيضًا باسم التحيز الزمني، عندما تعكس البيانات عدم المساواة التاريخية أو التحيزات التي كانت موجودة أثناء جمع البيانات، على عكس السياق الحالي. تتضمن أمثلة تحيز البيانات في هذه الفئة أنظمة التوظيف بالذكاء الاصطناعي المُدربة على بيانات التوظيف التاريخية. في مجموعات البيانات هذه، قد يكون الأشخاص الملونون ممثلين تمثيلاً ناقصاً في الوظائف رفيعة المستوى، وقد يؤدي النموذج إلى إدامة عدم المساواة.

التحيز الضمني

يحدث التحيز الضمني عندما يتم إدخال افتراضات الأشخاص بناءً على تجاربهم الشخصية ، بدلاً من البيانات الأكثر عمومية ، في بناء أو اختبار التعلم الآلي (ML). على سبيل المثال، قد بقوم نظام الذكاء الاصطناعي المدرب على تقييم المتقدمين للوظائف بإعطاء الأولوية للسير الذاتية التي تحتوي على لغة ذكورية، مما يعكس التحيز اللاواعي للمطور، حتى لو لم يكن الجنس عاملاً صريحًا في النموذج.

تحيز القياس

يمكن أن يحدث تحيز القياس عندما تختلف دقة المعطيات أو جودتها بين المجموعات أو عندما يتم قياس متغيرات الدراسة الرئيسية أو تصنيفها بشكل غير دقيق. على سبيل المثال، لا يأخذ نموذج القبول الجامعي الذي يستخدم المعدل التراكمي العالي كعامل رئيسي للقبول في الاعتبار أن الحصول على درجات أعلى قد يكون أسهل في بعض المدارس منه في مدارس أخرى. قد يكون طالبًا لديه معدل تراكمي أقل ولكن لديه عبء دراسي أكثر صعوبة في إحدى المدارس مرشحًا أكثر كفاءة من طالب آخر لديه معدل تراكمي أعلى ولكن لديه عبء دراسي أقل صعوبة في مكان آخر. نظرا لتركيزه على المعدل التراكمي، قد لا يأخذ النموذج هذا الاحتمال في الاعتبار في عمليات صنع القرار.

تحيز التقارير

يحدث تحيز التقارير عندما لا يكون تواتر الأحداث أو النتائج في مجموعة البيانات ممثلاً للتواتر الفعلي. هذا التحيز يحدث غالبًا عندما يشارك البشر في اختيار البيانات، حيث يكون الأشخاص أكثر عرضة لتسجيل الأدلة التي تبدو مهمة أو لا تُنسى.

على سبيل المثال، يتم تدريب نموذج تحليل المشاعر للتنبؤ بما إذا كانت المنتجات على موقع التجارة الإلكترونية الكبير مصنفة بشكل إيجابي أو سلبي. تعكس معظم مراجعات المنتجات المماثلة في مجموعة بيانات التدريب آراءً متطرفة لأن الأشخاص أقل احتمالية لترك المراجعات إذا لم يستجيبوا لها بقوة، مما يجعل تنبؤات النموذج أقل دقة.

تحيز الاختيار

يحدث تحيز الاختيار عندما تكون مجموعة البيانات المستخدمة للتدريب غير تمثيلية بما فيه الكفاية، أو ليست كبيرة بما يكفي أو غير مكتملة للغاية لتدريب النظام بشكل كافٍ. على سبيل المثال، لا يمثل تدريب سيارة ذاتية القيادة على بيانات القيادة أثناء النهار النطاق الكامل لسيناريوهات القيادة التي قد تواجهها السيارة في العالم الحقيقي.

تحيز العينة

تحيز العينة هو نوع من التحيز في الاختيار يحدث عندما يتم جمع بيانات العينة بطريقة يكون فيها احتمال تضمين بعض المعلومات أكبر من غيرها، دون توزيع عشوائي مناسب. على سبيل المثال، إذا تم تدريب نظام الذكاء الاصطناعي الطبي المصمم للتنبؤ بخطر الإصابة بأمراض القلب على بيانات من مرضى من الذكور في منتصف العمر فقط، فقد يقدم تنبؤات غير دقيقة. سيؤثر هذا النظام بشكل خاص على النساء والأشخاص من الفئات العمرية الأخرى.

التخفيف من تحيز البيانات

يبدأ التخفيف من تحيز ذكاء الاصطناعي بحوكمة الذكاء الاصطناعي. تشير حوكمة الذكاء الاصطناعي إلى المبادئ التوجيهية التي تعمل على المساعدة في ضمان أن أدوات وأنظمة الذكاء الاصطناعي آمنة وأخلاقية وتظل كذلك. يمكن لممارسات الذكاء الاصطناعي المسؤول، التي تؤكد على الشفافية والمساءلة والاعتبارات الأخلاقية، أن ترشد المؤسسات في التعامل مع تعقيدات التخفيف من التحيز.

للتخفيف من تحيز البيانات، يجب على المؤسسات تنفيذ استراتيجيات قوية تهدف إلى تحديد التحيز والحد منه وإدارته طوال عملية جمع البيانات وتحليلها، مثل:

  • جمع البيانات التمثيلية
  • عمليات التدقيق والتقييمات
  • الشفافية
  • أدوات كشف التحيز
  • فرق العمل الشاملة
  • البيانات الاصطناعية

جمع البيانات التمثيلية

التمثيل الواسع في مصادر البيانات يساعد على تقليل التحيز. يجب أن تشمل عملية جمع البيانات مجموعة واسعة من الخصائص الديموغرافية والسياقات والظروف التي يتم تمثيلها جميعًا بشكل مناسب. على سبيل المثال، إذا كانت البيانات التي تم جمعها لأدوات التعرف على الوجه تتضمن في الغالب صورًا لأفراد من ذوي البشرة البيضاء، فقد لا يتعرف النموذج بدقة على وجوه ذوي البشرة السوداء أو يميزها.

عمليات التدقيق والتقييمات

تمكّن عمليات تدقيق التحيز المؤسسات من تقييم بياناتها وخوارزمياتها بانتظام بحثًا عن التحيزات المحتملة ومراجعة النتائج وفحص مصادر البيانات لمؤشرات المعاملة غير العادلة بين المجموعات الديموغرافية المختلفة. تساعد المراقبة المستمرة للأداء عبر المجموعات الديموغرافية المختلفة على كشف ومعالجة التناقضات في النتائج، مما يساعد على ضمان تحديد أي تحيز موجود وإزالته في الوقت المناسب.

الشفافية

يعزز توثيق طرق جمع البيانات وكيفية اتخاذ الخوارزميات للقرارات الشفافية، لا سيما فيما يتعلق بكيفية تحديد التحيزات المحتملة ومعالجتها. يمكن لسياسات البيانات المفتوحة تسهيل المراجعة الخارجية والنقد، وتعزيز المساءلة في جمع وتحليل البيانات، وهو أمر ضروري لبناء الثقة في أنظمة الذكاء الاصطناعي.

أدوات كشف التحيز

يمكن أن يساعد استخدام أدوات وأطر الإنصاف الخوارزمية في اكتشاف التحيز والتخفيف من حدته في نماذج التعلم الآلي. يوفر AI Fairness 360، وهو مجموعة أدوات مفتوحة المصدر طورتها شركة IBM، مقاييس مختلفة للكشف عن التحيز في مجموعات البيانات ونماذج التعلم الآلي، إلى جانب خوارزميات للتخفيف من التحيز وتعزيز الإنصاف. يمكن أن يؤدي تنفيذ الأساليب الإحصائية لتقييم إنصاف التنبؤات عبر المجموعات الديموغرافية المختلفة إلى تحسين الموضوعية.

فرق العمل الشاملة

يؤدي تعزيز التنوع في فرق علوم البيانات والتحليلات إلى تقديم وجهات نظر مختلفة ويمكن أن يقلل من خطر التحيز. من المرجح أن تتعرف الفرق المتنوعة على التحيزات المحتملة في مجموعات البيانات والخوارزميات ومعالجتها لأنها تعتمد على مجموعة أوسع من التجارب ووجهات النظر. على سبيل المثال، يمكن لفريق يتضمن أعضاء من خلفيات عرقية وجندرية واجتماعية واقتصادية مختلفة أن يحدد بشكل أفضل المجالات التي قد يساء فيها تمثيل البيانات أو يتم تجاهل مجموعات معينة من الأشخاص.

البيانات الاصطناعية

البيانات الاصطناعية هي بيانات تم إنشاؤها بشكل مصطنع من خلال محاكاة الكمبيوتر أو الخوارزميات لتحل محل نقاط البيانات التي تم جمعها من الأحداث في العالم الحقيقي. غالبًا ما يجد علماء البيانات أن البيانات الاصطناعية بديل مفيد عندما لا تكون البيانات متاحة بسهولة ولأنها توفر المزيد من خصوصية البيانات. تساهم البيانات الاصطناعية في التخفيف من التحيز من خلال السماح بإنشاء مجموعات بيانات متوازنة بشكل متعمد والتي تشمل المجموعات والسيناريوهات والمجموعات المهمشة للمساعدة في ضمان نتائج نموذج أكثر إنصافًا.

حلول ذات صلة
IBM watsonx.governance

يمكنك إدارة نماذج الذكاء الاصطناعي من أي مكان ونشرها على السحابة أو بشكل محلي باستخدام IBM watsonx.governance.

اكتشف watsonx.governance
خدمات استشارات إدارة الذكاء الاصطناعي

تمكَّن من الاستعداد لقانون الذكاء الاصطناعي في الاتحاد الأوروبي ووضع نهج حوكمة مسؤول للذكاء الاصطناعي بمساعدة IBM Consulting.

استكشف خدمات حوكمة الذكاء الاصطناعي
IBM OpenPages

تبسيط كيفية إدارة المخاطر والامتثال التنظيمي من خلال منصة GRC موحدة.

استكشف OpenPages
اتخِذ الخطوة التالية

يمكنك توجيه الذكاء الاصطناعي الذي تستخدمه وإدارته ومراقبته باستخدام محفظة واحدة لتسريع تنفيذ الذكاء الاصطناعي المسؤول والشفاف والقابل للتفسير.

استكشف watsonx.governance احجز عرضًا توضيحيًا مباشرًا