04 أكتوبر 2024
يحدث تحيز البيانات عندما تؤثر التحيزات الموجودة في مجموعات بيانات التدريب والضبط الدقيق لنماذج الذكاء الاصطناعي (AI) سلبًا على سلوك النموذج.
نماذج الذكاء الاصطناعي هي برامج تم تدريبها على مجموعات البيانات للتعرف على أنماط معينة أو اتخاذ قرارات معينة. يتم تطبيق خوارزميات مختلفة على مدخلات البيانات ذات الصلة لتحقيق المهام أو المخرجات التي تم برمجتها لها.
قد يؤدي تدريب نظام الذكاء الاصطناعي على بيانات تنطوي على تحيز، مثل التحيز التاريخي أو التمثيلي، إلى إخراجات متحيزة أو منحرفة يمكن أن تمثل بشكل غير عادل مجموعات أو أفرادًا معينين أو تكون متحيزة ضدهم. تؤدي هذه التأثيرات إلى تآكل الثقة في الذكاء الاصطناعي والمؤسسات التي تستخدمه. كما يمكن أن تؤدي إلى فرض عقوبات قانونية وتنظيمية على الشركات.
يعد تحيز البيانات أحد الاعتبارات المهمة للقطاعات عالية المخاطر—مثل الرعاية الصحية والموارد البشرية والتمويل—التي تستخدم الذكاء الاصطناعي بشكل متزايد للمساعدة في اتخاذ القرارات المستنيرة. يمكن للمؤسسات التخفيف من التحيز في البيانات من خلال فهم الأنواع المختلفة لتحيز البيانات وكيفية حدوثها ومن خلال تحديد هذه التحيزات والحد منها وإدارتها طوال دورة حياة الذكاء الاصطناعي.
يمكن أن يؤدي تحيز البيانات إلى أنظمة ذكاء اصطناعي غير عادلة وغير دقيقة وغير موثوقة مما يؤدي إلى عواقب وخيمة على الأفراد والشركات والمجتمع. تتضمن بعض مخاطر تحيز البيانات ما يلي:
يمكن أن يؤدي التحيز في البيانات داخل أنظمة الذكاء الاصطناعي إلى إدامة التحيزات المجتمعية القائمة، مما يؤدي إلى معاملة غير عادلة على أساس خصائص مثل الجنس أو العمر أو العرق أو الإثنية. قد تكون الفئات المهمشة ممثلة تمثيلاً ناقصاً في البيانات أو مستبعدة منها، مما يؤدي إلى اتخاذ قرارات لا تلبي احتياجات السكان الفعليين.
على سبيل المثال، قد تؤدي خوارزمية التوظيف التي يتم تدريبها في المقام الأول على بيانات من قوى عاملة متجانسة من الذكور إلى تفضيل المرشحين الذكور مع إجحاف المتقدمات المؤهلات، مما يؤدي إلى إدامة عدم المساواة بين الجنسين في مكان العمل.
يمكن أن تؤدي نماذج الذكاء الاصطناعي المُدربة على بيانات منحرفة إلى نتائج غير صحيحة، مما قد يؤدي إلى اتخاذ المؤسسات لقرارات سيئة أو اقتراح حلول غير فعالة. على سبيل المثال، قد تسيء الشركات التي تستخدم تحليلات تنبؤية متحيزة تفسير اتجاهات السوق، مما يؤدي إلى سوء إطلاق المنتجات أو سوء تخصيص الموارد.
يمكن أن يعرض تحيز البيانات المؤسسات لخطر التدقيق التنظيمي وعدم الامتثال القانوني والغرامات الكبيرة. على سبيل المثال، حسب قانون الذكاء الاصطناعي للاتحاد الأوروبي، قد يؤدي عدم الامتثال لممارسات الذكاء الاصطناعي المحظورة إلى غرامات تصل إلى 35000000 يورو أو 7% من حجم المبيعات السنوية في جميع أنحاء العالم، أيهما أعلى.
قد تشهد المؤسسات التي تنتهك القوانين المحلية والإقليمية أيضا تآكلًا في السمعة وثقة العملاء. لنأخذ على سبيل المثال شركة بيع بالتجزئة أُدينت بالتمييز لاستخدامها نموذج تسعير مدعوم بالذكاء الاصطناعي يفرض أسعارًا أعلى على مجموعات سكانية معينة. قد يؤدي هذا الموقف إلى أزمة علاقات عامة تضر بصورة العلامة التجارية للشركة وولاء العملاء.
يمكن أن يؤدي تحيز البيانات إلى تراجع الثقة في أنظمة الذكاء الاصطناعي. وقد تدفع الحالات الحادة أو المتكررة من القرارات المتحيزة أو غير الدقيقة التي يتخذها الذكاء الاصطناعي الأفراد والمجتمعات إلى التشكيك في نزاهة المؤسسة التي تستخدم الذكاء الاصطناعي. كما قد يتزايد تشكك الناس في موثوقية الذكاء الاصطناعي ونزاهته بشكل عام، ما يؤدي إلى إحجام أوسع عن تبني هذه التقنية.
أنظمة الذكاء الاصطناعي هي أنظمة تستخدم النتائج المتحيزة كبيانات إدخال لاتخاذ القرار، وتنشئ حلقة تعليقات قد تعزز كذلك التحيز بمرور الوقت. تؤدي هذه الدورة، التي تتعلم فيها الخوارزمية الأنماط المتحيزة نفسها باستمرار وتعمل على إدامتها، إلى نتائج منحرفة بشكل متزايد.
على سبيل المثال، يمكن أن ينعكس التمييز التاريخي، مثل الاستبعاد—أي حرمان الأشخاص من الخدمات المالية على أساس عرقهم—في بيانات التدريب لنماذج الذكاء الاصطناعي المكلف باتخاذ قرارات القروض المصرفية. نظرًا لأن نظام الذكاء الاصطناعي يعالج الطلبات باستخدام هذه البيانات، فقد يعاقب بشكل غير عادل الأفراد الذين يتشاركون في الخصائص الاجتماعية والاقتصادية مع ضحايا عمليات الاستبعاد في السنوات الماضية. قد تؤدي بيانات الرفض الأخيرة للقروض إلى توجيه اتخاذ القرارات المستقبلية للذكاء الاصطناعي، مما يؤدي إلى دورة يستمر فيها أعضاء المجموعات غير الممثلة في الحصول على فرص ائتمانية أقل.
يمكن أن يؤدي كل من تحيز البيانات وتحيز الذكاء الاصطناعي وتحيز الخوارزميات إلى مخرجات مشوهة ونتائج ضارة محتملة، ولكن هناك اختلافات دقيقة بين هذه المصطلحات.
تحيز الذكاء الاصطناعي، ويسمى أيضًا تحيز التعلم الآلي، هو مصطلح شامل لأنواع التحيز المختلفة المرتبطة بأنظمة الذكاء الاصطناعي. وهو يشير إلى حدوث نتائج متحيزة بسبب التحيزات البشرية التي تحرف بيانات التدريب الأصلية أو خوارزمية الذكاء الاصطناعي.
التحيز الخوارزمي هو مجموعة فرعية من تحيز الذكاء الاصطناعي يحدث عندما تؤدي الأخطاء المنهجية في خوارزميات التعلم الآلي إلى نتائج غير عادلة أو تمييزية. لا ينتج التحيز الخوارزمي عن الخوارزمية نفسها، بل بسبب كيفية جمع المطورين لبيانات التدريب وترميزها.
يندرج تحيز البيانات أيضا تحت مظلة تحيز الذكاء الاصطناعي ويمكن أن يكون أحد أسباب التحيز الخوارزمي. يشير تحيز البيانات على وجه التحديد إلى الطبيعة المنحرفة أو غير التمثيلية للبيانات المستخدمة لتدريب نماذج الذكاء الاصطناعي.
يمكن أن يساعد فهم الأنواع المختلفة من التحيز ومعالجتها في إنشاء أنظمة الذكاء الاصطناعي الدقيقة والجديرة بالثقة. تتضمن بعض الأنواع الشائعة لتحيز البيانات ما يلي:
عندما يقوم الناس بمعالجة المعلومات وإصدار الأحكام، فإنهم يتأثرون حتمًا بتجربهم وتفضيلاتهم. ونتيجة لذلك، قد يقوم الناس ببناء هذه التحيزات في نظم الذكاء الاصطناعي من خلال اختيار البيانات أو كيفية ترجيح البيانات. التحيز المعرفي يمكن أن يؤدي إلى أخطاء منهجية، مثل تفضيل مجموعات البيانات التي تم جمعها من الأمريكيين بدلاً من أخذ عينات من مجموعة من السكان حول العالم.
يحدث تحيز الأتمتة عندما يعتمد المستخدمون بشكل مفرط على التقنيات الآلية، مما يؤدي إلى قبول غير نقدي لمخرجاتهم، مما قد يؤدي إلى إدامة وتضخيم تحيزات البيانات الموجودة. على سبيل المثال، في مجال الرعاية الصحية، قد يعتمد الطبيب بشكل كبير على أداة تشخيص الذكاء الاصطناعي لاقتراح خطط علاج للمرضى. من خلال عدم التحقق من نتائج الأداة مقارنةً بخبرته السريرية، من المحتمل أن يخطئ الطبيب في تشخيص المريض إذا كان قرار الأداة نابعًا من بيانات متحيزة.
يحدث التحيز التأكيدي عندما يتم تضمين البيانات بشكل انتقائي لتأكيد المعتقدات أو الفرضيات الموجودة مسبقًا. فعلى سبيل المثال، يحدث التحيز التأكيدي في العمل الشرطي التنبؤي عندما تركز جهات إنفاذ القانون على جمع البيانات في الأحياء التي تشهد معدلات جريمة مرتفعة تاريخيًا. النتائج في الإفراط في مراقبة هذه الأحياء، بسبب الإدراج الانتقائي للبيانات التي تدعم الافتراضات القائمة حول المنطقة.
التحيز الإقصائي يحدث عندما يتم استبعاد بيانات مهمة من مجموعات البيانات. في التنبؤات الاقتصادية، يؤدي الاستبعاد المنهجي للبيانات من المناطق ذات الدخل المنخفض إلى مجموعات بيانات لا تمثل السكان بدقة، مما يؤدي إلى توقعات اقتصادية تميل لصالح المناطق الأكثر ثراءً.
يحدث التحيز التاريخي، المعروف أيضًا باسم التحيز الزمني، عندما تعكس البيانات عدم المساواة التاريخية أو التحيزات التي كانت موجودة أثناء جمع البيانات، على عكس السياق الحالي. تتضمن أمثلة تحيز البيانات في هذه الفئة أنظمة التوظيف بالذكاء الاصطناعي المُدربة على بيانات التوظيف التاريخية. في مجموعات البيانات هذه، قد يكون الأشخاص الملونون ممثلين تمثيلاً ناقصاً في الوظائف رفيعة المستوى، وقد يؤدي النموذج إلى إدامة عدم المساواة.
يحدث التحيز الضمني عندما يتم إدخال افتراضات الأشخاص بناءً على تجاربهم الشخصية ، بدلاً من البيانات الأكثر عمومية ، في بناء أو اختبار التعلم الآلي (ML). على سبيل المثال، قد بقوم نظام الذكاء الاصطناعي المدرب على تقييم المتقدمين للوظائف بإعطاء الأولوية للسير الذاتية التي تحتوي على لغة ذكورية، مما يعكس التحيز اللاواعي للمطور، حتى لو لم يكن الجنس عاملاً صريحًا في النموذج.
يمكن أن يحدث تحيز القياس عندما تختلف دقة المعطيات أو جودتها بين المجموعات أو عندما يتم قياس متغيرات الدراسة الرئيسية أو تصنيفها بشكل غير دقيق. على سبيل المثال، لا يأخذ نموذج القبول الجامعي الذي يستخدم المعدل التراكمي العالي كعامل رئيسي للقبول في الاعتبار أن الحصول على درجات أعلى قد يكون أسهل في بعض المدارس منه في مدارس أخرى. قد يكون طالبًا لديه معدل تراكمي أقل ولكن لديه عبء دراسي أكثر صعوبة في إحدى المدارس مرشحًا أكثر كفاءة من طالب آخر لديه معدل تراكمي أعلى ولكن لديه عبء دراسي أقل صعوبة في مكان آخر. نظرا لتركيزه على المعدل التراكمي، قد لا يأخذ النموذج هذا الاحتمال في الاعتبار في عمليات صنع القرار.
يحدث تحيز التقارير عندما لا يكون تواتر الأحداث أو النتائج في مجموعة البيانات ممثلاً للتواتر الفعلي. هذا التحيز يحدث غالبًا عندما يشارك البشر في اختيار البيانات، حيث يكون الأشخاص أكثر عرضة لتسجيل الأدلة التي تبدو مهمة أو لا تُنسى.
على سبيل المثال، يتم تدريب نموذج تحليل المشاعر للتنبؤ بما إذا كانت المنتجات على موقع التجارة الإلكترونية الكبير مصنفة بشكل إيجابي أو سلبي. تعكس معظم مراجعات المنتجات المماثلة في مجموعة بيانات التدريب آراءً متطرفة لأن الأشخاص أقل احتمالية لترك المراجعات إذا لم يستجيبوا لها بقوة، مما يجعل تنبؤات النموذج أقل دقة.
يحدث تحيز الاختيار عندما تكون مجموعة البيانات المستخدمة للتدريب غير تمثيلية بما فيه الكفاية، أو ليست كبيرة بما يكفي أو غير مكتملة للغاية لتدريب النظام بشكل كافٍ. على سبيل المثال، لا يمثل تدريب سيارة ذاتية القيادة على بيانات القيادة أثناء النهار النطاق الكامل لسيناريوهات القيادة التي قد تواجهها السيارة في العالم الحقيقي.
تحيز العينة هو نوع من التحيز في الاختيار يحدث عندما يتم جمع بيانات العينة بطريقة يكون فيها احتمال تضمين بعض المعلومات أكبر من غيرها، دون توزيع عشوائي مناسب. على سبيل المثال، إذا تم تدريب نظام الذكاء الاصطناعي الطبي المصمم للتنبؤ بخطر الإصابة بأمراض القلب على بيانات من مرضى من الذكور في منتصف العمر فقط، فقد يقدم تنبؤات غير دقيقة. سيؤثر هذا النظام بشكل خاص على النساء والأشخاص من الفئات العمرية الأخرى.
يبدأ التخفيف من تحيز ذكاء الاصطناعي بحوكمة الذكاء الاصطناعي. تشير حوكمة الذكاء الاصطناعي إلى المبادئ التوجيهية التي تعمل على المساعدة في ضمان أن أدوات وأنظمة الذكاء الاصطناعي آمنة وأخلاقية وتظل كذلك. يمكن لممارسات الذكاء الاصطناعي المسؤول، التي تؤكد على الشفافية والمساءلة والاعتبارات الأخلاقية، أن ترشد المؤسسات في التعامل مع تعقيدات التخفيف من التحيز.
للتخفيف من تحيز البيانات، يجب على المؤسسات تنفيذ استراتيجيات قوية تهدف إلى تحديد التحيز والحد منه وإدارته طوال عملية جمع البيانات وتحليلها، مثل:
التمثيل الواسع في مصادر البيانات يساعد على تقليل التحيز. يجب أن تشمل عملية جمع البيانات مجموعة واسعة من الخصائص الديموغرافية والسياقات والظروف التي يتم تمثيلها جميعًا بشكل مناسب. على سبيل المثال، إذا كانت البيانات التي تم جمعها لأدوات التعرف على الوجه تتضمن في الغالب صورًا لأفراد من ذوي البشرة البيضاء، فقد لا يتعرف النموذج بدقة على وجوه ذوي البشرة السوداء أو يميزها.
تمكّن عمليات تدقيق التحيز المؤسسات من تقييم بياناتها وخوارزمياتها بانتظام بحثًا عن التحيزات المحتملة ومراجعة النتائج وفحص مصادر البيانات لمؤشرات المعاملة غير العادلة بين المجموعات الديموغرافية المختلفة. تساعد المراقبة المستمرة للأداء عبر المجموعات الديموغرافية المختلفة على كشف ومعالجة التناقضات في النتائج، مما يساعد على ضمان تحديد أي تحيز موجود وإزالته في الوقت المناسب.
يعزز توثيق طرق جمع البيانات وكيفية اتخاذ الخوارزميات للقرارات الشفافية، لا سيما فيما يتعلق بكيفية تحديد التحيزات المحتملة ومعالجتها. يمكن لسياسات البيانات المفتوحة تسهيل المراجعة الخارجية والنقد، وتعزيز المساءلة في جمع وتحليل البيانات، وهو أمر ضروري لبناء الثقة في أنظمة الذكاء الاصطناعي.
يمكن أن يساعد استخدام أدوات وأطر الإنصاف الخوارزمية في اكتشاف التحيز والتخفيف من حدته في نماذج التعلم الآلي. يوفر AI Fairness 360، وهو مجموعة أدوات مفتوحة المصدر طورتها شركة IBM، مقاييس مختلفة للكشف عن التحيز في مجموعات البيانات ونماذج التعلم الآلي، إلى جانب خوارزميات للتخفيف من التحيز وتعزيز الإنصاف. يمكن أن يؤدي تنفيذ الأساليب الإحصائية لتقييم إنصاف التنبؤات عبر المجموعات الديموغرافية المختلفة إلى تحسين الموضوعية.
يؤدي تعزيز التنوع في فرق علوم البيانات والتحليلات إلى تقديم وجهات نظر مختلفة ويمكن أن يقلل من خطر التحيز. من المرجح أن تتعرف الفرق المتنوعة على التحيزات المحتملة في مجموعات البيانات والخوارزميات ومعالجتها لأنها تعتمد على مجموعة أوسع من التجارب ووجهات النظر. على سبيل المثال، يمكن لفريق يتضمن أعضاء من خلفيات عرقية وجندرية واجتماعية واقتصادية مختلفة أن يحدد بشكل أفضل المجالات التي قد يساء فيها تمثيل البيانات أو يتم تجاهل مجموعات معينة من الأشخاص.
البيانات الاصطناعية هي بيانات تم إنشاؤها بشكل مصطنع من خلال محاكاة الكمبيوتر أو الخوارزميات لتحل محل نقاط البيانات التي تم جمعها من الأحداث في العالم الحقيقي. غالبًا ما يجد علماء البيانات أن البيانات الاصطناعية بديل مفيد عندما لا تكون البيانات متاحة بسهولة ولأنها توفر المزيد من خصوصية البيانات. تساهم البيانات الاصطناعية في التخفيف من التحيز من خلال السماح بإنشاء مجموعات بيانات متوازنة بشكل متعمد والتي تشمل المجموعات والسيناريوهات والمجموعات المهمشة للمساعدة في ضمان نتائج نموذج أكثر إنصافًا.
تعرّف على كيفية تأثير قانون الذكاء الاصطناعي للاتحاد الأوروبي على الأعمال التجارية، وكيفية الاستعداد، وكيف يمكنك التخفيف من المخاطر، وكيفية تحقيق التوازن بين اللوائح التنظيمية والابتكار.
تعرّف على التحديات الجديدة للذكاء الاصطناعي التوليدي، والحاجة إلى حوكمة نماذج الذكاء الاصطناعي ونماذج التعلم الآلي وخطوات بناء إطار عمل موثوق وشفاف وقابل للتفسير للذكاء الاصطناعي.
اقرأ عن تعزيز الممارسات الأخلاقية والمتوافقة مع مجموعة من منتجات الذكاء الاصطناعي لنماذج الذكاء الاصطناعي التوليدي.
اكتسب فهمًا أعمق لكيفية ضمان الإنصاف، وإدارة الانجراف، والحفاظ على الجودة، وتعزيز قابلية التفسير باستخدام watsonx.governance™.
لقد استطلعنا آراء 2000 مجموعة حول مبادرات الذكاء الاصطناعي لديها لمعرفة ما ينجح وما لا ينجح وكيف يمكنك المضي قدمًا.
تعرّف على كيفية اختيار نموذج أساس الذكاء الاصطناعي الأكثر ملاءمة لحالة الاستخدام الخاصة بك.
يمكنك إدارة نماذج الذكاء الاصطناعي من أي مكان ونشرها على السحابة أو بشكل محلي باستخدام IBM watsonx.governance.
تمكَّن من الاستعداد لقانون الذكاء الاصطناعي في الاتحاد الأوروبي ووضع نهج حوكمة مسؤول للذكاء الاصطناعي بمساعدة IBM Consulting.
تبسيط كيفية إدارة المخاطر والامتثال التنظيمي من خلال منصة GRC موحدة.