تنقية الذكاء الاصطناعي: تصفية الكراهية والإساءة والبذاءة (HAP) ضد المحتوى الضار

تقوم امرأة بسكب الماء النظيف في كوب

المؤلفين

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

تسهل شبكة الويب العالمية الاتصال وتسرع نمو الأعمال وتضع قرونًا من المعرفة في متناول أيدينا.

ولكن على الرغم من كل الفوائد، يمكن أن يكون أيضًا بؤرة للغة البغيضة والمحتوى الضار. ويتم تصريف هذه البؤرة في المحيط الأكبر من بيانات الإنترنت التي تُستخدم لتدريب العديد من نماذج الأساس الحالية، مثل النماذج اللغوية الكبيرة (LLMs) وقدرات معالجة اللغة الطبيعية (NLP) الخاصة بها.

ويهدد هذا التسرب من اللغة المسيئة سلامة نماذج الذكاء الاصطناعي وقابليتها استخدامها. لماذا؟ لأنه إذا تم تدريب النماذج اللغوية الكبيرة على مجموعات البيانات التي تتضمن سلوكًا بشريًا بغيضًا، فسيترتب على ذلك أنها قد تؤدي إلى نتائج ضارة. إضافة إلى ذلك، يمكن أن يجد هذا المحتوى الضار طريقه أيضًا إلى نماذج الذكاء الاصطناعي في أثناء الضبط الدقيق، أو التحسين من خلال التوليد المعزز بالاسترجاع (RAG)، أو عندما يتفاعل LLM مع المستخدم.

إن تصفية المحتوى المسيء وإزالته أمر أساسي لضمان أن تكون نماذج الذكاء الاصطناعي آمنة وشاملة وغير متحيزة، ما يوفر تجربة إيجابية للمستخدمين. أحد هذه الحلول هو التصفية المنهجية المدعومة بنموذج الكشف عن الكراهية والإساءة والبذاءة (HAP)، التي يُشار إليها باسم تصفية HAP.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

ما تصفية HAP؟

تصفية HAP هو نظام يستخدم نموذج تصنيف ليكشف خطاب الكراهية والإساءة والبذاءة وإزالتها من إدخال النماذج اللغوية الكبيرة والإخراج.

ما نموذج التصنيف؟

لفهم تصفية HAP بشكل كامل، من المفيد فهم نماذج التصنيف. نماذج التصنيف هي نماذج التعلم الآلي التي تقسم نقاط البيانات إلى مجموعات محددة سابقًا تسمى الفئات. يتعلمون خصائص الفصل من بيانات الإدخال ثم يعينون فئات محتملة للبيانات الجديدة وفقًا لتلك الخصائص المكتسبة. يستخدم عامل تصفية البريد الإلكتروني العشوائي، على سبيل المثال، خوارزمية التصنيف. يمكن أيضًا الإشارة إلى نموذج تصنيف تصفية HAP بشكل أكثر تحديدًا كمصنف جملة، أو ببساطة باسم عامل تصفية HAP أو أداة كشف HAP.

ما الذي يعتبر محتوى HAP؟

يمكن تعريف خطاب الكراهية واللغة المسيئة والبذاءة على النحو الآتي:

  • خطاب الكراهية: التعبير عن الكراهية تجاه فرد أو مجموعة على أساس سمات مثل العرق أو الدين أو الأصل العرقي أو التوجه الجنسي أو الإعاقة أو الجنس. يُظهر خطاب الكراهية نية إيذاء أفراد مجموعة ما أو إذلالهم أو إهانتهم، أو الترويج للعنف أو الاضطراب الاجتماعي.

  • لغة مسيئة: لغة وقحة أو مؤذية تهدف إلى التنمر أو الحط من شأن شخص ما أو شيء ما.

  • الألفاظ البذيئة: الكلمات البذيئة مثل الألفاظ البذيئة أو الشتائم أو الألفاظ الجنسية الصريحة.

كيف تعمل تصفية HAP؟

في الممارسة العملية، يقوم مصنف جمل تصفية HAP بتقييم كل كلمة من الإدخال أو مخرجات النص في النموذج لتحديد ما إذا كانت تحتوي على محتوى HAP. بعد ذلك، يعين درجة تمثل احتمالية وجود محتوى HAP، ربما من 0 إلى 1. في هذه الحالة، تشير الدرجة الأقرب إلى 1 إلى احتمال أعلى لمحتوى HAP. اعتمادًا على العتبة التي يحددها المستخدم لمحتوى HAP (مثل "درجة أكبر من 0.5 = HAP")، يقوم النموذج بعد ذلك بتعيين ملصق لكل جملة تشير إلى ما إذا كانت تحتوي على HAP أم لا.

أخيرًا، يمكن وضع علامة على محتوى HAP وإزالته إذا كان في بيانات التدريب السابق. أو، إذا كان محتوى HAP عبارة عن إخراج، فيمكن استبداله برسالة الحواجز تشير إلى أن الإخراج يحتوي على نص ضار تمت إزالته.

أكاديمية الذكاء الاصطناعي

الثقة والشفافية والحوكمة في عصر الذكاء الاصطناعي

يُعَد التباين حول مدى "الثقة" في الذكاء الاصطناعي أحد أهم الموضوعات في هذا المجال.ومن المفهوم أيضًا أنه موضوع شائك.سنتحدث عن مشاكل مثل الهلوسة والتحيز، والمخاطر، وسنشارك خطوات اعتماد الذكاء الاصطناعي بطريقة أخلاقية، ومسؤولة، ومنصفة.

حالات الاستخدام لعوامل تصفية HAP

وفقًا لأبحاث IBM، هناك حاليًا ثلاث حالات استخدام رئيسية لعوامل تصفية HAP:

  • تصفية بيانات تدريب النماذج اللغوية الكبيرة
  • محاذاة النماذج باستخدام التعلم المعزز
  • التحكم في مخرجات الذكاء الاصطناعي التوليدي
تصفية بيانات تدريب النماذج اللغوية الكبيرة

عادة ما يتم تدريب النماذج اللغوية الكبيرة على مجموعة من مصادر البيانات، التي يمكن أن يحتوي بعضها على محتوى يحض على الكراهية أو غير لائق. يمكن أن تساعد تصفية HAP في منع النماذج اللغوية الكبيرة من التعلم من هذا المحتوى. غالبًا ما يحدث في أثناء المعالجة السابقة للبيانات عندما يكون هناك حجم كبير من البيانات غير منسقة.

محاذاة النماذج باستخدام التعلم المعزز

يتم استخدام نماذج HAP أيضًا في أثناء المحاذاة. على سبيل المثال، يكافئ التوافق من خلال التعلم المعزز المخرجات على أساس مدى توافقها مع الأهداف المقصودة. إذا تم تسجيل المكافأة باستخدام عامل تصفية HAP، فقد تكون المكافأة عبارة عن درجة "غير HAP"، التي يتم تدريب النموذج بعد ذلك على تعظيمها.

التحكم في مخرجات الذكاء الاصطناعي التوليدي

يمكن أن تساعد نماذج HAP على التحكم في مخرجات نماذج الذكاء الاصطناعي التوليدي، دون الحاجة إلى إعادة تدريب النموذج الأصلي. يتطلب عنصر التحكم هذا تعديل عملية الإنشاء لتسجيل تنبؤات النموذج باستخدام كل من طريقة التسجيل الأصلية وكذلك تسجيل HAP لضمان محتوى مقبول وخالٍ من الكراهية.

من المهم ملاحظة أنه بالإضافة إلى تصفية HAP، غالبًا ما توجد خطوات أخرى لتنظيف البيانات، ولجودة البيانات، ومحاذاة البيانات يتم اتخاذها لتقليل حالات دخول البيانات المتحيزة إلى النموذج أو الخروج منه.

عوامل تصفية HAP من الجيل التالي من IBM: مصدر مفتوح والامتدادات الهجومية

كما هو الحال مع العديد من التقنيات المرتبطة بالذكاء الاصطناعي، يتحرك الابتكار بسرعة في عالم تصفية HAP. وقد حدد باحثو IBM طريقتين لتحسين مرشحات HAP: من خلال نماذج أصغر حجمًا ومصدر مفتوح وأداة تحديد المدى الهجومي.

عوامل تصفية HAP أصغر حجمًا ومصدر مفتوح

في عالم مثالي، ستحدث تصفية HAP في كل مرحلة من مراحل دورة حياة LLM. لكن هذا الاستخدام يتطلب سرعة تفتقر إليها معظم عوامل تصفية HAP اليوم بسبب حجمها الكبير.

وقد ألهم هذا عامل نصفية HAP الأحدث والأسرع من IBM: Granite-Guardian-HAP-38m. هذا النموذج المشفر ذو 38 مليون معلمة أصغر من سابقه ذي 125 مليون معلمة (Granite-Guardian-HAP-125m). على هذا النحو، يمكن تشغيله أسرع بثماني مرات على وحدة معالجة مركزية (CPU) وأسرع مرتين على وحدة معالجة الرسومات (GPU) (الموجودة في الهواتف الذكية وأجهزة الكمبيوتر) لتصفية البيانات بسرعة في كل مرحلة من مراحل دورة حياة LLM.

تتوفر متغيرات لكلا نموذجي تصفية HAP على watsonx.ai™ . ولكن لاستمرار تشجيع النظام البنائي للذكاء الاصطناعي الجدير بالثقة، قامت شركة IBM بجعل عاملي تصفية HAP كمصادر مفتوحة على Hugging Face

تحديد المدى الهجومي

ولإضفاء مزيد من التفصيل والتنوع اللغوي على عوامل تصفية HAP، طور باحثو IBM أداة تصور HAP تسمى MUTED: عرض توضيحي مستهدف متعدد اللغات.

بتجاوز التعليق التوضيحي على مستوى الجملة، يقسم MUTED الجمل إلى "أهداف" والامتدادات هجومية (أو الحجة الهجومية). على سبيل المثال، في جملة "هؤلاء الناس سائقون سيئون"، الهدف هو "هؤلاء الناس" والمدى الهجومي هو "سائقون سيئون". تقوم الفكرة على أن MUTED يقوم بتحديد الامتدادات الهجومية وتصنيف شدتها باستخدام خرائط حرارية ثم إخفائها عن المستخدمين إذا كانت ضارة.1

الحواشي

1 "Muted: تحديد الكلام المسيء المستهدف متعدد اللغات وتصوره"، Association for Computational Linguistics، ديسمبر 2023.

حلول ذات صلة
IBM Granite

لقد أصبح جيلنا الثالث من النماذج اللغوية للذكاء الاصطناعي متوفرًا. توفِّر هذه النماذج الجاهزة للمؤسسات، المناسبة للغرض ومفتوحة المصدر، أداءً استثنائيًا وفقًا لمعايير السلامة وعبر مجموعة واسعة من المهام المؤسسية بدءًا من الأمن الإلكتروني ووصولًا إلى التوليد المعزّز بالاسترجاع (RAG).

تعرّف على Granite
نماذج الأساس

استكشف مكتبة نماذج الأساس من IBM في محفظة watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.

اكتشف watsonx.ai
حلول وخدمات حوكمة الذكاء الاصطناعي

حقِّق أقصى استفادة من الإمكانات الكاملة للذكاء الاصطناعي لديك، واكتشف كيف تساهم حوكمة الذكاء الاصطناعي في تعزيز ثقة موظفيك في الذكاء الاصطناعي، وتسريع عملية التبني والابتكار، وتحسين ثقة العملاء.

اكتشف حلول حوكمة الذكاء الاصطناعي
اتخِذ الخطوة التالية

يُعَد IBM Granite مجموعة من نماذج الذكاء الاصطناعي المفتوحة والموثوق بها وذات الأداء العالي، وهي مصممة للأعمال ومُحسَّنة لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. توفِّر هذه النماذج الجاهزة للمؤسسات، المناسبة للغرض ومفتوحة المصدر، أداءً استثنائيًا وفقًا لمعايير السلامة وعبر مجموعة واسعة من المهام المؤسسية بدءًا من الأمن الإلكتروني ووصولًا إلى التوليد المعزّز بالاسترجاع (RAG).

تعرّف على Granite