ما هو التعلم الآلي العدائي؟

مؤلف

David Zax

Staff Writer

IBM Think

التعلم الآلي العدائي، تعريف

التعلم الآلي العدائي هو فن خداع أنظمة الذكاء الاصطناعي. يشير المصطلح إلى كل من جهات التهديد التي تمارس هذا الفن بسوء نية، وكذلك الباحثين ذوي النوايا الحسنة الذين يسعون للكشف عن الثغرات لتعزيز متانة النموذج في نهاية المطاف. 

يفرض هذا المجال تحديات جديدة في مجال الأمن السيبراني نظراً لتعقيد نماذج التعلم الآلي ونطاق أسطح الهجوم الواسع الخاص بها—بما في ذلك، في كثير من الأحيان، العالم المادي. 

مثال من العالم الحقيقي

للبدء في توضيح مدى اختلاف هجمات التعلم الآلي العدائي عن تهديدات الأمن السيبراني التقليدية، لننظر في مثال من عالم السيارات ذاتية القيادة. تُقاد السيارات ذاتية القيادة بواسطة أنظمة ذكاء اصطناعي معقدة، تستقبل مدخلات من أجهزة الاستشعار ثم تُكوّن تصنيفات تُحدد سلوك السيارة. على سبيل المثال، عندما تقترب السيارة ذاتية القيادة من علامة توقّف، تقوم خوارزميات التعلّم الآلي الخاصة بها بالتعرّف عليها، مما يؤدي إلى توقف السيارة بأمان. 

تكمن المشكلة في أن أنظمة التعلم الآلي التي تعلمت تصنيف إشارات التوقف تستخدم معايير مختلفة عن معايير العقل البشري. وهذا بدوره يخلق حالة من الضعف المريب، كما أثبت باحثون في عدة جامعات عام 2017.1 فمن خلال إجراء تعديلات طفيفة ولكن استراتيجية على لافتات التوقف — مثل إضافة بضعة ملصقات صغيرة وغير ضارة يتجاهلها معظم البشر ببساطة — تمكن الباحثون من خداع نماذج الذكاء الاصطناعي، من النوع الذي تستخدمه السيارات ذاتية القيادة، ودفعها لتصنيف لافتات التوقف بشكل خاطئ وخطير على أنها لافتات "السرعة القصوى: 45 ميلًا في الساعة". لن يلاحظ ضابط دورية بشري عابر هذا التخريب، ولكن بالنسبة لنظام ذكاء اصطناعي، كانت بضعة ملصقات بسيطة كفيلة بتحويل لوحة "قف" إلى إشارة "انطلق".  

وغني عن القول إنه لو اكتشف المخترقون الخبثاء هذه الثغرة الأمنية أولاً، لكان من السهل أن تتبع ذلك أضرار واقعية مثل وفيات حوادث المرور. 

هل سيستطيع فريقك اكتشاف الثغرة الأمنية الفورية القادمة في الوقت المناسب؟

انضم إلى قادة الأمن الإلكتروني الذين يعتمدون على الرسالة الإخبارية Think للحصول على أخبار مُنتقاة عن الذكاء الاصطناعي والأمن السيبراني والبيانات والأتمتة. تعلم بسرعة من برامج تعليمية وشروحات يقدّمها خبراء - تُرسَل مباشرة إلى بريدك الإلكتروني. راجع بيان الخصوصية لشركة IBM.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجِع بيان الخصوصية لشركة IBM للمزيد من المعلومات.

https://www.ibm.com/sa-ar/privacy

أنواع الهجمات العدائية

قام الباحثون بإنشاء تصنيفات لأنواع مختلفة من الهجمات على أنظمة الذكاء الاصطناعي.

هجمات المراوغة

تشير هجمات التهرّب—مثل خدعة علامة التوقف المذكورة—إلى الحالات التي يقوم فيها المخترقون بتعديل البيانات التي يعالجها نظام الذكاء الاصطناعي، مما يؤدي إلى إنشاء ما يسمى بـ "الأمثلة المعادية" التي تخدع مصنفات الذكاء الاصطناعي. تُسمى هذه الهجمات بهذا الاسم لأن البيانات أو المحفزات المُعدلة قادرة على مراوغة الإدراك الطبيعي لنموذج الذكاء الاصطناعي. بالإضافة إلى المثال الحي لسيارات القيادة الذاتية، تمكن الباحثون من ابتكار أشكال من الضجيج البصري لا تكاد تُدرك—تُسمى "الاضطرابات العدائية"—والتي يمكن وضعها كطبقة فوق البيانات لخداع الذكاء الاصطناعي. في مثال شهير من عام 2015، تمكن باحثو Google من إضافة قدر ضئيل من الضجيج البصري إلى صورة باندا، مما جعل نموذج الرؤية الحاسوبية يجزم بأن الصورة تمثل حيوان الغيبون. في الواقع، كان الذكاء الاصطناعي أكثر ثقة بتصنيفه الخاطئ للقرد من نوع "جيبون" مما كان عليه عند تصنيفه الصحيح لحيوان "الباندا".2 (يُشرح "الفن المظلم" للهندسة الفعّالة لأنماط الضوضاء التي تخدع النموذج في قسم "الطرق المعروفة لهجمات المراوغة" أدناه.)  

أحد الأنواع الفرعية الرئيسية لهجمات المراوغة هي هجمات البرمجيات الخبيثة، حيث يراوغ المهاجمون أنظمة الكشف المخصصة لرصد فيروسات الكمبيوتر. يُحقق المهاجمون ذلك عبر طرق متنوعة، ولكن بشكل عام من خلال استخدام حيل تجعل برامجهم الضارة تبدو كأنها تعليمات برمجية غير ضارة؛ وأحياناً، يستخدم المهاجمون ذكاءهم الاصطناعي الخاص لتحسين هذه العملية ذاتها. في أحد الأمثلة، طوّر باحثون روبوت يمكنه تمويه البرمجيات الخبيثة تلقائياً عبر تجارب متعددة، مما أدى إلى خداع 20 نظاماً للكشف عن البرمجيات الضارة بنسبة 98% من المرات.3 

هجمات تسميم البيانات

تحدث هجمات تسميم البيانات في مرحلة مختلفة ومبكرة من دورة حياة نماذج الذكاء الاصطناعي، وتحديدًا خلال مرحلة التدريب. تعتمد الشبكات العصبية العميقة على كميات كبيرة من بيانات التدريب من أجل تعلم أنماط مفيدة. من خلال هجوم تسميم البيانات، يمكن لجهة فاعلة إفساد مجموعة بيانات التدريب الأصلية، وذلك عبر إدخال بيانات تتسبب في جعل النموذج المدرب الناتج يتصرف بشكل غير سليم. 

اعتمد أحد الأمثلة على حقيقة أن العديد من نماذج الذكاء الاصطناعي تستخدم البيانات التي يتم الحصول عليها بعد النشر من أجل تدريب النسخة التالية من النموذج بشكل تكراري. استغلالاً لهذا المبدأ، قام المتصيدون (trolls) على منصة تويتر بمهاجمة روبوت المحادثة التابع لشركة Microsoft لعام 2016، والمعروف باسم Tay، بوابل من المواد المسيئة، مما أدى في النهاية إلى توجيه الروبوت لنشر محتوى يحض على الكراهية بنفسه. 

وهناك مثال آخر من جامعة شيكاغو يهدف إلى تمكين الفنانين من معاقبة الشركات غير المسؤولة التي قد تستخدم صورهم المحمية بحقوق الطبع والنشر لتدريب نماذجها دون موافقتهم. وفقاً لمبتكري مشروع Nightshade، فقد صُمم المشروع ليكون أداة هجومية تهدف إلى تشويه تمثيلات السمات داخل نماذج الصور التوليدية للذكاء الاصطناعي.4 إذا قام فنان بوضع أداة Nightshade فوق صوره، واستخدم نموذج ذكاء اصطناعي تلك الصور لاحقاً، فقد يتعلم النموذج تدريجياً تسميات خاطئة لأشياء معينة—فعلى سبيل المثال، قد يبدأ في تصور الأبقار على أنها حقائب يد جلدية.

هجمات الخصوصية

تستغل هجمات الخصوصية ثغرات أنظمة الذكاء الاصطناعي من أجل استنتاج أو استخراج معلومات حساسة كانت جزءاً من مجموعة بيانات التدريب الخاصة بها بشكل غير مباشر. من الناحية النظرية، ليس من المفترض أن"تتذكر" نماذج التعلم الآلي البيانات التي تتدرب عليها—فهي تستخلص أنماطاً مفيدة من مجموعات البيانات ولا تحتفظ بالبيانات التي تتدرب عليها كما يفعل القرص الصلب. لكن حقيقة "ذاكرة" الذكاء الاصطناعي هي في الواقع أكثر تعقيداً. من الناحية العملية، لاحظ الباحثون أن النماذج تبدو وكأنها "تتذكر" بيانات التدريب الخاصة بها من بعض النواحي. على وجه الخصوص، غالباً ما تُظهر أنظمة التعلم الآلي مستويات ثقة أعلى في توقعاتها عندما تتعلق هذه التوقعات بنقاط بيانات تمت رؤيتها أثناء التدريب. (بينما لا تعرض روبوتات المحادثة الموجهة للمستهلكين مثل ChatGPT درجات الثقة، إلا أنه غالباً ما يمكن الوصول إلى هذه القيم عبر واجهات برمجة التطبيقات للمطورين أو أدوات الباحثين.)

في أسلوب هجوم على الخصوصية يُعرف باسم استدلال العضوية، قد يتمكن المهاجم من استنتاج معلومات حساسة عن شخص ما: على سبيل المثال، ما إذا كان قد تلقى العلاج في منشأة للطب النفسي. طالما يمتلك المهاجم بعض البيانات عن فرد معين (ربما سجل طبي جزئي)، فبإمكان ذلك المهاجم استعلام نموذج يُعرف بأنه تدرّب على مجموعات بيانات حساسة (على سبيل المثال: سجلات المرافق النفسية). من خلال مراقبة درجات الثقة التي أعادها النموذج، يمكن للمهاجم أن يستنتج أن هدفه كان بالفعل عضوًا في المجموعة المستخدمة لتدريب النموذج. 

تذهب هجمات عكس النموذج إلى أبعد من ذلك، حيث تُمكّن المهاجم بشكل أساسي من هندسة عكسية للبيانات الفعلية التي استُخدمت في تدريب النموذج. بإمكان المهاجم القيام بذلك عبر استخدام تقنيات القوة الغاشمة، وذلك من خلال الاستخدام التكراري لدرجات الثقة التي يقدّمها النموذج كدليل توجيهي لكيفية تحويل البيانات العشوائية والمشوّشة إلى بيانات تشبه فعلياً بيانات التدريب الحقيقية الخاصة بالنموذج. على سبيل المثال، في عام 2015، تمكن باحثون أكاديميون من استغلال درجات الثقة في نموذج للتعرف على الوجه لإعادة بناء صور تقريبية للوجوه الحقيقية المستخدمة في تدريب النموذج. وقد فعلوا ذلك من خلال البدء بصورة مكونة من ضجيج رقمي خالص، ثم تعديل الصورة بشكل متكرر واستخدام درجات الثقة الصادرة عن النموذج لتوجيه التعديل التالي.5

هجمات استخراج النموذج

في هجوم استخراج النموذج (يُطلق عليه أحيانًا اسم "سرقة النموذج") ، يكون هدف المهاجم هو "استنساخ" نموذج معين بشكل فعال. قد تتنوع الدوافع وراء مثل هذا الهجوم؛ فقد يرغب المهاجم ببساطة في تجنب الدفع مقابل كل استعلام عند استخدام النموذج الأصلي، أو قد يرغب في استخدام النسخة المستنسخة لتحسين هجمات مستهدفة بشكل سري، والتي قد تحقق نجاحاً كبيراً عند تطبيقها على النموذج الأصلي.

تُعد أساليب معظم هجمات استخراج النماذج بسيطة إلى حد ما؛ حيث يقوم المهاجم بإرسال مطالبات بشكل منهجي إلى النموذج باستخدام مدخلات مختارة بعناية، ثم يقوم بفهرسة المخرجات الناتجة. إذا تم اختيار المدخلات بشكل استراتيجي، فمن الممكن في بعض الحالات استخدام مجموعة بيانات تتكون فقط من آلاف أو عشرات الآلاف من أزواج المدخلات والمخرجات لمحاكاة النموذج، أو على الأقل جانب معين منه. على سبيل المثال، أظهرت ورقة بحثية صدرت عام 2023 حول "استنزاف النماذج" كيف يمكن استخدام مثل هذا الهجوم لاستخراج معرفة مرتبطة بمهام محددة من النماذج اللغوية الكبيرة (LLM) بتكلفة زهيدة. مقابل 50 دولاراً أمريكياً فقط من تكاليف واجهة برمجة التطبيقات (API)، تمكن الفريق من بناء نموذج مستنسخ يمكنه محاكاة إحدى قدرات النموذج اللغوي —وهي استيعاب القراءة— بدقة بلغت 87%.6

هجمات الصندوق الأبيض مقابل هجمات الصندوق الأسود

هناك تصنيف إضافي للهجمات لا يفرق بينها بناءً على نوع الضرر، بل بناءً على نوع النموذج المستهدف. تُعد معظم الأمثلة المذكورة أعلاه ما يُسمى بـ هجمات الصندوق الأسود، مما يعني أن النماذج المستهدفة تتيح الوصول إلى مخرجاتها فقط. لكن في ما يُعرف بـ هجمات الصندوق الأبيض، يهاجم المخترقون النماذج مفتوحة المصدر التي تكون أكثر شفافية بشأن آليات عملها الداخلية (وغالباً ما يكون ذلك مدفوعاً بنوايا نبيلة من قِبل صُنّاعها). من خلال الرؤية الواضحة لسلوك الأوزان المكتسبة الفعلية التي يتكون منها النموذج، يمكن للمخترقين غالباً الاستفادة من وصول الصندوق الأبيض هذا لتصميم هجمات أكثر كفاءة ودقة.

الأساليب المعروفة لهجمات المراوغة

من بين أنواع الهجمات المذكورة أعلاه، يمكن القول إن هجمات المراوغة هي الأكثر تحدياً، حيث تمثل آفاقاً جديدة كلياً في مجال الأمن السيبراني. تثير هجمات المراوغة قلق باحثي الأمن السيبراني (وتجذب اهتمامهم) بشكل خاص لأنها تستغل الاختلاف الجوهري بين الطرق التي يدرك بها البشر والآلات العالم من حولهم. ولهذا السبب، ركز جانب كبير من الأبحاث على اكتشاف الطرق التي قد يتبعها المخترقون لشن هجمات التهرب—وذلك ليتسنى سد هذه الثغرات وتأمينها قبل أن يستغلها المخترقون. (لحسن الحظ، تم اكتشاف العديد من الدفاعات أيضًا. لمزيد من المعلومات، راجع "كيفية الدفاع ضد التعلم الآلي العدائي.")  

طريقة إشارة التدرج السريع

في عام 2015، كشف باحثو Google عن طريقة بسيطة لإنشاء أمثلة عدائية—وهي مدخلات تخدع أي نظام تعلم عميق—أطلقوا عليها اسم "طريقة إشارة التدرج السريع"، أو "FGSM".2 خذ مثالاً على نظام الكشف عن الصور. هذه الأنظمة تقسم العالم إلى مجموعات — هذه للقطط، وهذه للكلاب، وهكذا. تعد طريقة إشارة التدرج السريع آلية لإيجاد وسيلة سريعة لتعديل الصورة "لدفعها" من فئة إلى أخرى، مما يؤدي إلى إحباط سلامة عملية اتخاذ القرار في النظام. والأهم من ذلك، أن هذه التعديلات غالباً ما تتطلب مجرد قدرٍ بسيط من الضجيج البصري الذي لا يدركه البشر، ومع ذلك فهو يخدع الآلة. تُسمى FGSM هجوماً "قائماً على التدرج" لأنها تستغل خوارزمية تحسين تستخدمها أنظمة التعلم الآلي تُعرف باسم "الانحدار التدريجي."

نظراً للهجمات الأقوى التي تم اكتشافها بعد ذلك بوقت قصير، فإن النموذج الذي تم تحصينه ضد هجمات FGSM فقط يُعتبر عرضة للاختراق بشكل كبير. 

الانحدار التدريجي المتوقع

الانحدار التدريجي المتوقع (PGD) هو هجوم آخر قائم على التدرج، وهو أكثر دقة وقوة من FGSM. بينما تقوم طريقة FGSM أساساً بقفزة واحدة في اتجاه مضاد لإنشاء اضطراباتها (وهي 'الضوضاء' التي تكسر آليات الكشف في النموذج)، تستخدم طريقة PGD خوارزمية لاتخاذ سلسلة من الخطوات الصغيرة المتتابعة. تسمح هذه العملية التكرارية والأكثر دقة بالعثور على اضطرابات أقوى وأكثر مقاومة. علاوةً على ذلك، هناك قيدٌ ذكي في خوارزميتها يمنع اضطرابات PGD من الابتعاد كثيراً عن الخط المرجعي، مما يضمن تعذُّر كشفها من قِبل البشر. المقايضة التي يواجهها المهاجمون تكمن في التكلفة؛ فبينما يمكن لطريقة FGSM إنتاج تشويش سريع ولكن ضعيف بحساب تدرج واحد فقط، يجب على طريقة PGD إجراء العشرات أو المئات منها.

غالباً ما تُستخدم PGD كمعيار أساسي لقياس القوة ضد الهجمات العدائية، حيث تُعتبر أقوى هجوم يعتمد على التدرج.7 تطبيق ذكاء اصطناعي تم تدريبه على مقاومة هجمات PGD قد يُعتبر قويًا بشكل ملموس.  

هجمات Carlini و Wagner

اتضح أن استغلال "التدرج" لنماذج التعلم الآلي ليس الطريقة الوحيدة لمهاجمة مثل هذه الأنظمة. كشفت ورقة بحثية صدرت عام 20178 عن عالمي الحاسوب بجامعة كاليفورنيا في بيركلي، Nicholas Carlini و David Wagner، عن طريقة أخرى للعثور على بيانات إدخال معادية، وهي طريقة تتجنب تماماً المعلومات المتعلقة بمنحدر النموذج. بدلاً من ذلك، تضع هجمات Carlini و Wagner المشكلة في إطار عملية تحسين بحتة، حيث تسعى للعثور على أقل قدر ممكن من التغيير المطلوب على المدخلات مع الاستمرار في فرض تصنيف خاطئ. على سبيل المثال، في حالة اضطراب الصورة، قد يكشف مثل هذه الخوارزمية عن أقل عدد من البكسلات التي يجب تعديلها لخداع النموذج. على الرغم من أن إنتاجها مكلف حسابيًا، إلا أن النتيجة عادةً ما تكون اضطرابًا خفيًا للغاية بحيث لا يمكن للإنسان ملاحظته.

كيفية الدفاع ضد التعلم الآلي العدائي

وبفضل جهود الباحثين الذين اكتشفوا نقاط الضعف هذه، تم تطوير تدابير مضادة للمساعدة في زيادة قوة نماذج التعلم الآلي.

بالنسبة للهجمات التي تعتمد على المراوغة من النوع المذكور للتو، فقد طوّر الخبراء أساليب تسمى التدريب العدائي. تتلخص العملية أساساً في تضمين بيانات جرى تعديلها بنفس الأسلوب الذي قد يتبعه المخترقون، وذلك إلى جانب البيانات "النظيفة"، بحيث يتعلم النموذج كيفية تصنيف هذه الأمثلة العدائية بشكل صحيح. إن هذا التخفيف، رغم فاعليته، قد يكون مكلفاً من منطلقين: أولاً، أنه يتطلب عمليات حوسبة أكبر؛ وثانياً، قد تصبح النماذج أقل دقة بشكل طفيف بصفة عامة بعد تعرضها لبيانات مشوشة. كتب باحثو معهد MIT في ورقتهم البحثية الصادرة عام 2018 بعنوان "قد تتعارض المتانة مع الدقة": "إن تدريب نماذج متينة قد لا يستهلك المزيد من الموارد فحسب، بل قد يؤدي أيضاً إلى انخفاض في الدقة المعيارية."9

بشكل عام، تنطبق مبادئ الأمن السيبراني الجيد على مجال التعلم الآلي. تشمل الدفاعات التشغيلية أدوات كشف الخلل وكشف التسلل التي تتحقق من وجود أنماط غير معتادة في البيانات أو حركة المرور، والتي قد تشير إلى محاولة مخترق للتدخل في نظام التعلم الآلي، أياً كانت المرحلة التي يمر بها في دورة حياته. بالإضافة إلى ذلك، يُعد الفريق الأحمر أو تعريض النماذج عمدًا لهجمات مدروسة من قِبل خبراء الأمن السيبراني لمحاكاة هجمات الخصوم وسيلة فعّالة لاختبار قدرة الأنظمة على تحمل الضغوط.

في مجال يتسم بالتطور المتسارع مثل الذكاء الاصطناعي، تتغير خارطة المخاطر باستمرار. تعد مؤسسات مثل المعهد الوطني الأمريكي للمعايير والتقنية (NIST) مصادر لأحدث التطورات. يتناول تقرير المعهد الوطني الأمريكي للمعايير والتقنية (NIST) لعام 202410 بشأن إدارة مخاطر الذكاء الاصطناعي موضوع التعلم الآلي العدائي، كما يشمل في الوقت ذاته مناهج أوسع للتعامل مع مخاطر الذكاء الاصطناعي—بما في ذلك قضايا مثل الانحياز، والهلوسة، والخصوصية. إن اعتماد إطار عمل لحوكمة الذكاء الاصطناعي يمكن أن يساعد أيضاً بشكل أكبر في تأمين النماذج ضد الخصوم. 

حلول ذات صلة
حلول الأمن المؤسسي

طوّر برنامجك الأمني بشكل غير مسبوق بفضل الحلول المقدمة من أكبر موفري خدمات الأمن المؤسسي.

استكشف حلول الأمن الإلكتروني
خدمات الأمن الإلكتروني

يمكنك تحويل أعمالك وإدارة المخاطر من خلال الخدمات الاستشارية في الأمن الإلكتروني والخدمات السحابية وخدمات الأمان المُدارة.

    استكشف خدمات الأمن الإلكتروني
    الأمن الإلكتروني بالذكاء الاصطناعي (AI)

    حسِّن سرعة الفرق الأمنية ودقتها وإنتاجيتها باستخدام حلول الأمن السيبراني المدعومة بالذكاء الاصطناعي.

    استكشف الأمن السيبراني بالذكاء الاصطناعي
    اتخِذ الخطوة التالية

    سواء كنت بحاجة إلى حلول أمن البيانات أو إدارة نقاط النهاية أو إدارة الهوية والوصول (IAM)، فإن خبرائنا مستعدون للعمل معك لتحقيق وضع أمني قوي. طوّر أعمالك وتمكّن من إدارة المخاطر في مؤسستك مع شركة عالمية رائدة في مجال استشارات الأمن السيبراني، والخدمات السحابية، والخدمات الأمنية المُدارة.

    استكشف حلول الأمن الإلكتروني اكتشف خدمات الأمن السيبراني