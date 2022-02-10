أثناء عملي على TakeTwo، أصبح واضحًا تمامًا أنه رغم أن الحل يهدف إلى اكتشاف التحيّز من خلال جمع وتقييم كميات هائلة من البيانات، من المهم إدراك أن البيانات نفسها قد تحمل تحيّزات ضمنية بطبيعتها. من خلال الاستفادة من الذكاء الاصطناعي والتقنيات مفتوحة المصدر مثل Python وFastAPI وJavaScript وCouchDB، يمكن لحل TakeTwo الاستمرار في تقييم البيانات التي يتم استيعابها، واكتشاف التحيّز بشكل أفضل عندما يكون موجودًا فيها. على سبيل المثال، قد تكون كلمة أو عبارة مقبولة للاستخدام في الولايات المتحدة غير مقبولة في اليابان، لذا من الضروري أن نكون واعين لذلك قدر الإمكان وأن تعمل حلولنا وفقًا لذلك. كشخص شغوف بعلم البيانات، أعلم من تجربتي المباشرة أن جودة نموذجنا تعتمد مباشرةً على جودة البيانات التي نغذيه بها. وبناءً على ذلك، أحد الأمور التي تعلمتها من العمل على هذا المشروع هو أننا بحاجة إلى مجموعات بيانات أفضل تساعدنا على تدريب نماذج التعلم الآلي التي تدعم هذه الأنظمة. كانت مجموعات بيانات Kaggle نقطة انطلاق ممتازة بالنسبة لنا، لكن إذا أردنا توسيع المشروع لمواجهة العنصرية أينما وجدت، سنحتاج إلى بيانات أكثر تنوعًا.

وفي سياق متصل، فإن المهارات المطلوبة في مشاريع مثل هذه تتجاوز علم البيانات فقط. وبشكل خاص في هذا المشروع، كان من المهم الاستعانة بخبراء اللغويات الذين يمكنهم المساعدة على تحديد بعض الفروق الثقافية الموجودة في اللغة، والتي يحتاج نظام مثل TakeTwo إما إلى ترميزها وإما تجاهلها. ولا يمكننا الوصول إلى حل عملي إلا من خلال العمل في مختلف التخصصات.