مع وجود الذكاء الاصطناعي التوليدي (gen AI) على الخطوط الأمامية لأمن المعلومات، تؤدي منهجية الفريق الأحمر دورًا أساسيًا في تحديد الثغرات التي قد يغفل عنها الآخرون.
مع وصول متوسط تكلفة حوادث اختراق أمن البيانات إلى أعلى مستوياتها على الإطلاق وهو 4.88 ملايين دولار أمريكي، تحتاج الشركات إلى تحديد ثغراتها الأمنية. نظرًا إلى الوتيرة المذهلة التي يتبنون بها الذكاء الاصطناعي التوليدي، هناك احتمال كبير أن بعض هذه الثغرات تكمن في نماذج الذكاء الاصطناعي نفسها — أو البيانات المستخدمة للتدريب.
وهنا يأتي دور منهجية الفريق الأحمر المخصصة للذكاء الاصطناعي. إنها طريقة لاختبار مرونة أنظمة الذكاء الاصطناعي في مواجهة سيناريوهات التهديدات الديناميكية. يتضمن ذلك محاكاة سيناريوهات الهجوم الحقيقية لاختبار الذكاء الاصطناعي قبل وبعد نشرها في بيئة الإنتاج. أصبحت منهجية الفريق الأحمر أمرًا بالغ الأهمية لضمان أن تتمكن المؤسسات من الاستفادة من الذكاء الاصطناعي التوليدي من دون إضافة مخاطر.
تتبع خدمة الأمن الهجومي X-Force Red من IBM عملية تكرارية مع اختبارات مستمرة لمعالجة الثغرات في أربعة مجالات رئيسية:
في هذا المقال، سنركز على ثلاثة أنواع من الهجمات العدائية التي تستهدف نماذج الذكاء الاصطناعي وبيانات التدريب.
تحتوي معظم نماذج الذكاء الاصطناعي السائدة على ضمانات مدمجة لتقليل خطر إنتاج محتوى ضار. على سبيل المثال، في ظل الظروف العادية، لا يمكنك أن تطلب من ChatGPT أو Copilot كتابة تعليمات برمجية ضارة. ومع ذلك، يمكن لطرق مثل هجمات حقن المطالبات وكسر الحماية أن تجعل من الممكن تجاوز هذه الضمانات.
يتمثل أحد أهداف منهجية الفريق الأحمر للذكاء الاصطناعي في جعل الذكاء الاصطناعي "يسيء التصرف" عمدًا — تمامًا كما يفعل المهاجمون. إن عملية كسر الحماية هي إحدى تلك الطرق، والتي تتضمن استخدام مطالبات مبتكرة لدفع النموذج إلى تجاوز عوامل تصفية السلامة الخاصة به. ومع ذلك، في حين أن عملية كسر الحماية يمكن أن تساعد المستخدم نظريًا على تنفيذ جريمة فعلية، فإن معظم الجهات الخبيثة تستخدم نواقل هجوم أخرى — لمجرد أنها أكثر فعالية بكثير.
وتُعد هجمات حقن المطالبات أشد خطورة بكثير. بدلاً من استهداف النماذج نفسها، يستهدفون سلسلة التوريد بأكملها من خلال إخفاء التعليمات الخبيثة في المطالبات التي تبدو غير ضارة. على سبيل المثال، قد يستخدم المهاجم حقن المطالبات لجعل نموذج الذكاء الاصطناعي يكشف عن معلومات حساسة مثل مفتاح واجهة برمجة التطبيقات، ما قد يمنحه وصولاً خلفيًا لأي أنظمة أخرى متصلة به.
يمكن للفرق الحمراء أيضًا محاكاة هجمات التهرب، وهو نوع من الهجمات العدائية حيث يقوم المهاجم بتعديل المدخلات بمهارة لخداع النموذج لتصنيف التعليمات أو تفسيرها بطريقة خاطئة. عادةً ما تكون هذه التعديلات غير محسوسة للبشر. ومع ذلك، لا يزال بإمكانهم التلاعب بنموذج الذكاء الاصطناعي لاتخاذ إجراء غير مرغوب فيه. على سبيل المثال، قد يشمل ذلك تغيير بكسل واحد في الصورة المدخلة لخداع مصنف نموذج رؤية الكمبيوتر، مثل المصنف المخصص للاستخدام في مركبة ذاتية القيادة.
النشرة الإخبارية الخاصة بالمجال
ابقَ على اطلاع دائم على أبرز الاتجاهات في مجالات الذكاء الاصطناعي، والأتمتة، والبيانات، وغيرها الكثير من خلال رسالة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.
سيصلك محتوى الاشتراك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك من هنا. لمزيد من المعلومات، راجع بيان خصوصية IBM.
يستهدف المهاجمون أيضًا نماذج الذكاء الاصطناعي في أثناء التدريب والتطوير، لذا من الضروري أن تقوم الفرق الحمراء بمحاكاة الهجمات نفسها لتحديد المخاطر التي قد تعرض المشروع بأكمله للخطر. تحدث هجمات تسمم البيانات عندما يقوم أحد الخصوم بإدخال بيانات خبيثة في مجموعة التدريب، ومن ثَمَّ إفساد عملية التعلّم وتضمين ثغرات أمنية في النموذج نفسه. وتكون النتيجة أن يصبح النموذج بأكمله نقطة دخول محتملة لمزيد من الهجمات. في حالة اختراق بيانات التدريب، فمن الضروري عادةً إعادة تدريب النموذج من الصفر. وهذه عملية تستهلك الكثير من الموارد وتستغرق وقتًا طويلاً.
تُعد مشاركة الفريق الأحمر أمرًا حيويًا منذ بداية عملية تطوير نماذج الذكاء الاصطناعي للحد من خطر تسمم البيانات. تقوم الفرق الحمراء بمحاكاة هجمات تسمم البيانات في العالم الحقيقي في بيئة تحديد وصول آمنة موصولة بالهواء من أنظمة الإنتاج الحالية. يوفر ذلك رؤى حول مدى تعرض النموذج لتسمم البيانات وكيف يمكن لعنصر التهديد أن يخترق عملية التدريب أو يعرضها للخطر.
يمكن لفرق الذكاء الاصطناعي الحمراء تحديد نقاط الضعف في مسارات جمع البيانات على نحو استباقي أيضًا. غالبًا ما تستمد النماذج اللغوية الكبيرة (LLMs) البيانات من عدد كبير من المصادر المختلفة. فعلى سبيل المثال، تم تدريب ChatGPT على مجموعة كبيرة من البيانات النصية من ملايين المواقع الإلكترونية والكتب وغيرها من المصادر. عند إنشاء نظام نموذج لغوي كبير خاص، من المهم أن تعرف المؤسسات بالضبط من أين تحصل على بيانات التدريب وكيف تفحصها للتأكد من جودتها. في حين أن هذه مهمة تقع على عاتق مدققي الأمن ومراجعي العمليات، يمكن للفرق الحمراء استخدام اختبار الاختراق لتقييم قدرة النموذج على مقاومة العيوب في مسارات جمع البيانات.
عادةً ما تتدرب نماذج الذكاء الاصطناعي الخاصة، على الأقل جزئيًا، على بيانات المؤسسة نفسها. على سبيل المثال، قد يستخدم النموذج اللغوي الكبير المنشور في خدمة العملاء بيانات العملاء الخاصة بالشركة للتدريب حتى يتمكن من تقديم المخرجات الأكثر صلة. في السيناريوهات المثالية، يجب تدريب النماذج فقط بناءً على بيانات مجهولة الهوية يُسمح للجميع برؤيتها. وحتى مع ذلك، قد تظل انتهاكات الخصوصية تشكل خطرًا بسبب هجمات عكس النماذج وهجمات استخلاص العضوية.
حتى بعد النشر، يمكن لنماذج الذكاء الاصطناعي التوليدي الاحتفاظ بآثار البيانات التي دُرِّبت عليها. على سبيل المثال، نجح فريق مختبر البحث في الذكاء الاصطناعي DeepMind التابع لشركة Google في خداع ChatGPT لتسريب بيانات التدريب باستخدام موجِّه بسيط. إذًا، يمكن أن تسمح هجمات عكس النماذج للجهات الخبيثة بإعادة بناء بيانات التدريب، وهو ما قد يكشف عن معلومات سرية في أثناء العملية.
تعمل هجمات استخلاص العضوية بطريقة مماثلة. في هذه الحالة، يحاول الخصم التنبؤ بما إذا كانت نقطة بيانات معينة قد استُخدمت لتدريب النموذج من خلال الاستدلال بمساعدة نموذج آخر. هذه طريقة أكثر تعقيدًا حيث يقوم المهاجم أولاً بتدريب نموذج منفصل – يُعرف باسم نموذج استخلاص العضوية — بناءً على مخرجات النموذج الذي يهاجمه.
على سبيل المثال، لنفترض أن النموذج قد دُرِب على سجلات شراء العملاء لتقديم توصيات منتجات مخصصة. يمكن للمهاجم بعد ذلك بإنشاء نموذج استخلاص العضوية ومقارنة مخرجاته مع مخرجات النموذج المستهدف للاستدلال على معلومات حساسة قد يستخدمها في هجوم مستهدف.
في كلتا الحالتين، يمكن لمنهجية الفرق الحمراء تقييم قدرة نماذج الذكاء الاصطناعي على تسريب معلومات حساسة من دون قصد بطريقة مباشرة أو غير مباشرة من خلال الاستدلال. يمكن أن يساعد ذلك على تحديد الثغرات في مهام سير العمل لبيانات التدريب نفسها، مثل البيانات التي لم يتم إخفاؤها بصورة كافية وفقًا لسياسات الخصوصية الخاصة بالمؤسسة.
يتطلب بناء الثقة في الذكاء الاصطناعي إستراتيجية استباقية، وتؤدي منهجية الفريق الأحمر للذكاء الاصطناعي دورًا أساسيًا في هذا. من خلال استخدام أساليب مثل التدريب العدائي ومحاكاة هجمات عكس النماذج، يمكن للفرق الحمراء تحديد الثغرات الأمنية التي من المحتمل أن يفوتها محللو الأمن الآخرون.
يمكن لهذه النتائج بعد ذلك مساعدة مطوري الذكاء الاصطناعي على تحديد الأولويات وتنفيذ تدابير الحماية الاستباقية لمنع عنصر التهديد من استغلال الثغرات نفسها. بالنسبة إلى الشركات، تتمثل النتائج في تقليل مخاطر الأمن وزيادة الثقة في نماذج الذكاء الاصطناعي، التي سرعان ما أصبحت جزءًا لا يتجزأ في العديد من الأنظمة الحيوية الحساسة للأعمال.