هذه الهجمات غالبًا ما تكون مخفية جيدًا، ما يجعلها فعَّالة ويصعب إيقافها. كيف تحمي نفسك من حقن المطالبات المباشر؟ كما يُشير NIST، لا يمكن إيقاف هذه الهجمات بشكل كامل، لكن الاستراتيجيات الدفاعية توفِّر قدرًا من الحماية. بالنسبة لمنشئي النماذج، يقترح NIST ضمان تنسيق مجموعات البيانات بعناية. كما يقترح أيضًا تدريب النموذج على أنواع الإدخال التي تُشير إلى محاولة حقن مطالبات، والتدريب على كيفية تحديد المطالبات العدائية.
بالنسبة إلى حقن المطالبات غير المباشر، يقترح NIST إشراك العنصر البشري في ضبط النماذج، وهو ما يُعرف باسم التعلم المعزز من التعليقات البشرية (RLHF). يساعد RLHF النماذج على التوافق بشكل أفضل مع القيم الإنسانية التي تمنع السلوكيات غير المرغوب فيها. هناك اقتراح آخر يتمثل في تصفية التعليمات من المدخلات التي تم استردادها، ما يساعد على منع تنفيذ التعليمات غير المرغوب فيها من مصادر خارجية. يقترح NIST أيضًا استخدام مشرفين معتمدين على النماذج اللغوية الكبيرة (LLM) للمساعدة على كشف الهجمات التي لا تعتمد على مصادر مستردة للتنفيذ. أخيرًا، يقترح المعهد حلولًا قائمة على قابلية التفسير. هذا يعني أن مسار التنبؤ للنموذج الذي يتعرَّف على المدخلات الشاذة يمكن الاستفادة منه لاكتشاف تلك المدخلات ثم إيقافها.
سيستمر الذكاء الاصطناعي التوليدي، ومن يسعون لاستغلال ثغراته، في تغيير مشهد الأمن الإلكتروني. ولكن هذه القوة التحويلية نفسها قادرة أيضًا على تقديم الحلول. تعرَّف على المزيد حول كيفية قيام IBM® Security بتقديم حلول أمن إلكتروني مدعومة بالذكاء الاصطناعي تعزِّز قدرات الدفاع الأمني.