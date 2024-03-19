يحدِّد NIST نوعين من هجمات حقن المطالبات: مباشر وغير مباشر. باستخدام هجوم حقن المطالبات المباشر، يُدخل المستخدم نصًا يدفع النموذج اللغوي الكبير إلى تنفيذ أفعال غير مقصودة أو غير مصرح بها. يحدث حقن المطالبات غير المباشر عندما يقوم المهاجم بتسميم أو تقليل جودة البيانات التي يعتمد عليها النموذج اللغوي الكبير.

واحدة من أشهر طرق حقن المطالبات المباشرة هي DAN (Do Anything Now)، وهي هجوم حقن مطالبات يتم استخدامها ضد ChatGPT. يستخدم DAN تقمُّص الأدوار للتحايل على عوامل تصفية الإشراف. في أول تكرار لها، وجَّهت المطالبات ChatGPT إلى أنها أصبحت الآن DAN. كان بإمكان DAN فعل أي شيء، وكان سيتظاهر، على سبيل المثال، بمساعدة شخص خبيث على صناعة وتفجير متفجرات. يُتيح هذا الأسلوب تجاوُز عناصر التصفية التي كانت تمنع تقديم معلومات إجرامية أو ضارة عبر اتِّباع سيناريو تقمُّص الأدوار. تتتبَّع OpenAI، شركة تطوير ChatGPT، هذا الأسلوب وتحدِّث النموذج لمنع استخدامه، لكن المستخدمين ما زالوا يتجاوزون عناصر التصفية إلى أن تطورت الطريقة لتصل (على الأقل) إلى DAN 12.0.

يعتمد حقن المطالبات غير المباشر، كما يشير NIST، على قدرة المهاجم على تقديم مصادر سيستوعبها نموذج الذكاء الاصطناعي التوليدي، مثل ملف PDF أو مستند أو صفحة ويب أو حتى ملفات صوتية تُستخدم لتوليد أصوات مزيفة. من المعتقد على نطاق واسع أن حقن المطالبات غير المباشر هو أكبر عيب أمني في الذكاء الاصطناعي التوليدي، وذلك في ظل عدم وجود طرق بسيطة للعثور على هذه الهجمات وإصلاحها. وأمثلة هذا النوع من المطالبات كثيرة ومتنوعة. تتراوح هذه الأساليب بين العبثية (جعل روبوت المحادثة يرد مستخدمًا حديث قراصنة)، والضارة (استعمال محادثة تم هندستها اجتماعيًا لإقناع المستخدم بالكشف عن بيانات بطاقته الائتمانية وغيرها من المعلومات الشخصية)، وواسعة النطاق (اختطاف مساعدي الذكاء الاصطناعي لإرسال رسائل احتيالية إلى قائمة جهات الاتصال لديك بأكملها).