كيف يمكن اختراق الذكاء الاصطناعي بهجمات حقن المطالبات: تقرير المعهد الوطني الأمريكي للمعايير والتقنية (NIST)

المؤلفون

Ronda Swaney

Freelance Technology Writer

يراقب المعهد الوطني الأمريكي للمعايير والتقنية (NIST) دورة حياة الذكاء الاصطناعي عن كثب، ولسبب وجيه. مع انتشار الذكاء الاصطناعي، يزداد اكتشاف واستغلال نقاط الضعف في الأمن الإلكتروني للذكاء الاصطناعي. ويُعَد حقن المطالبات إحدى هذه الثغرات التي تهاجم الذكاء الاصطناعي التوليدي على وجه التحديد.

في تقرير Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations، يحدِّد NIST عدة أساليب وهجمات إلكترونية في التعلم الآلي العدائي مثل حقن المطالبات، وينصح المستخدمين بكيفية التخفيف منها وإدارتها. تستخرج أساليب التعلم الآلي العدائي معلومات حول كيفية تصرُّف أنظمة التعلم الآلي (ML) لاكتشاف طرق يمكن التلاعب بها. يتم استخدام هذه المعلومات لمهاجمة الذكاء الاصطناعي والنماذج اللغوية الكبيرة (LLMs) للتحايل على الأمن وتجاوُز ضوابط الحماية وفتح سُبُل للاستغلال.

فكّر أبعد من المطالبات واحصل على السياق الكامل 

ابقَ مطَّلعًا على أحدث أخبار الصناعة وأدوات الذكاء الاصطناعي والاتجاهات الناشئة في هندسة المطالبات مع رسائل Think الإخبارية. بالإضافة إلى ذلك، احصل على شرح جديد، ودروس تعليمية، ورؤى الخبراء— تصلك مباشرة إلى بريدك الوارد. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! أنت مشترك.

ما المقصود بحقن المطالبات؟

يحدِّد NIST نوعين من هجمات حقن المطالبات: مباشر وغير مباشر. باستخدام هجوم حقن المطالبات المباشر، يُدخل المستخدم نصًا يدفع النموذج اللغوي الكبير إلى تنفيذ أفعال غير مقصودة أو غير مصرح بها. يحدث حقن المطالبات غير المباشر عندما يقوم المهاجم بتسميم أو تقليل جودة البيانات التي يعتمد عليها النموذج اللغوي الكبير.

واحدة من أشهر طرق حقن المطالبات المباشرة هي DAN (Do Anything Now)، وهي هجوم حقن مطالبات يتم استخدامها ضد ChatGPT. يستخدم DAN تقمُّص الأدوار للتحايل على عوامل تصفية الإشراف. في أول تكرار لها، وجَّهت المطالبات ChatGPT إلى أنها أصبحت الآن DAN. كان بإمكان DAN فعل أي شيء، وكان سيتظاهر، على سبيل المثال، بمساعدة شخص خبيث على صناعة وتفجير متفجرات. يُتيح هذا الأسلوب تجاوُز عناصر التصفية التي كانت تمنع تقديم معلومات إجرامية أو ضارة عبر اتِّباع سيناريو تقمُّص الأدوار. تتتبَّع OpenAI، شركة تطوير ChatGPT، هذا الأسلوب وتحدِّث النموذج لمنع استخدامه، لكن المستخدمين ما زالوا يتجاوزون عناصر التصفية إلى أن تطورت الطريقة لتصل (على الأقل) إلى DAN 12.0.

يعتمد حقن المطالبات غير المباشر، كما يشير NIST، على قدرة المهاجم على تقديم مصادر سيستوعبها نموذج الذكاء الاصطناعي التوليدي، مثل ملف PDF أو مستند أو صفحة ويب أو حتى ملفات صوتية تُستخدم لتوليد أصوات مزيفة. من المعتقد على نطاق واسع أن حقن المطالبات غير المباشر هو أكبر عيب أمني في الذكاء الاصطناعي التوليدي، وذلك في ظل عدم وجود طرق بسيطة للعثور على هذه الهجمات وإصلاحها. وأمثلة هذا النوع من المطالبات كثيرة ومتنوعة. تتراوح هذه الأساليب بين العبثية (جعل روبوت المحادثة يرد مستخدمًا حديث قراصنة)، والضارة (استعمال محادثة تم هندستها اجتماعيًا لإقناع المستخدم بالكشف عن بيانات بطاقته الائتمانية وغيرها من المعلومات الشخصية)، وواسعة النطاق (اختطاف مساعدي الذكاء الاصطناعي لإرسال رسائل احتيالية إلى قائمة جهات الاتصال لديك بأكملها).

أكاديمية الذكاء الاصطناعي

كن خبيرًا في الذكاء الاصطناعي

اكتسب المعرفة لتحديد أولويات استثمارات الذكاء الاصطناعي التي تدفع نمو الأعمال. ابدأ مع أكاديمية الذكاء الاصطناعي المجانية اليوم وتولَّ زمام المبادرة لتعزيز مستقبل الذكاء الاصطناعي في مؤسستك.

كيفية إيقاف هجمات حقن المطالبات

هذه الهجمات غالبًا ما تكون مخفية جيدًا، ما يجعلها فعَّالة ويصعب إيقافها. كيف تحمي نفسك من حقن المطالبات المباشر؟ كما يُشير NIST، لا يمكن إيقاف هذه الهجمات بشكل كامل، لكن الاستراتيجيات الدفاعية توفِّر قدرًا من الحماية. بالنسبة لمنشئي النماذج، يقترح NIST ضمان تنسيق مجموعات البيانات بعناية. كما يقترح أيضًا تدريب النموذج على أنواع الإدخال التي تُشير إلى محاولة حقن مطالبات، والتدريب على كيفية تحديد المطالبات العدائية.

بالنسبة إلى حقن المطالبات غير المباشر، يقترح NIST إشراك العنصر البشري في ضبط النماذج، وهو ما يُعرف باسم التعلم المعزز من التعليقات البشرية (RLHF). يساعد RLHF النماذج على التوافق بشكل أفضل مع القيم الإنسانية التي تمنع السلوكيات غير المرغوب فيها. هناك اقتراح آخر يتمثل في تصفية التعليمات من المدخلات التي تم استردادها، ما يساعد على منع تنفيذ التعليمات غير المرغوب فيها من مصادر خارجية. يقترح NIST أيضًا استخدام مشرفين معتمدين على النماذج اللغوية الكبيرة (LLM) للمساعدة على كشف الهجمات التي لا تعتمد على مصادر مستردة للتنفيذ. أخيرًا، يقترح المعهد حلولًا قائمة على قابلية التفسير. هذا يعني أن مسار التنبؤ للنموذج الذي يتعرَّف على المدخلات الشاذة يمكن الاستفادة منه لاكتشاف تلك المدخلات ثم إيقافها.

سيستمر الذكاء الاصطناعي التوليدي، ومن يسعون لاستغلال ثغراته، في تغيير مشهد الأمن الإلكتروني. ولكن هذه القوة التحويلية نفسها قادرة أيضًا على تقديم الحلول. تعرَّف على المزيد حول كيفية قيام IBM® Security بتقديم حلول أمن إلكتروني مدعومة بالذكاء الاصطناعي تعزِّز قدرات الدفاع الأمني.

حلول ذات صلة
®IBM® watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي في وقت قصير وباستخدام جزء بسيط من البيانات.

استكشف watsonx.ai
حلول الذكاء الاصطناعي

استفِد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها التي ستكون بجانبك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات في مجال الذكاء الاصطناعي

تساعد خدمات IBM Consulting AI في إعادة تصور طريقة عمل الشركات باستخدام حلول الذكاء الاصطناعي من أجل النهوض بأعمالها.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

باستخدام الذكاء الاصطناعي، يكشف IBM Concert عن رؤى مهمة حول عملياتك ويقدم توصيات خاصة بالتطبيق من أجل التحسين. اكتشف كيف يمكن لمنصة Concert تعزيز نمو أعمالك.

استكشف Concert® استكشف حلول أتمتة عمليات الأعمال