يمثِّل الدفاع ضد هذه الهجمات تحديًا مستمرًا. يحدِّد Lee نهجين رئيسيين: تحسين تدريب الذكاء الاصطناعي وبناء جدران حماية الذكاء الاصطناعي.
يوضِّح Lee: نريد تنفيذ تدريب أفضل كي يعرف النموذج نفسه: "حسنًا، هناك من يحاول مهاجمتي". "سنفحص أيضًا جميع الاستعلامات الواردة إلى النموذج اللغوي ونكشف هجمات حقن المطالبات".
مع تزايد دمج الذكاء الاصطناعي التوليدي في حياتنا اليومية، لم يَعُد فهم هذه الثغرات مقتصرًا على خبراء التكنولوجيا فقط. أصبح من المهم بشكل متزايد لأي شخص يتعامل مع أنظمة الذكاء الاصطناعي أن يكون واعيًا لنقاط ضعفها المحتملة.
يقارن Lee الوضع بالأيام الأولى لهجمات حقن SQL على قواعد البيانات. يقول: "استغرقت الصناعة من 5 إلى 10 سنوات لتجعل الجميع يفهم أنه عند كتابة استعلام SQL، يجب تمرير جميع المدخلات كمَعلمات لتجنُّب هجمات الحقن". "يقول: بالنسبة إلى الذكاء الاصطناعي، بدأنا باستخدام النماذج اللغوية في كل مكان. يجب على الناس أن يدركوا أنه لا يمكن الاكتفاء بإعطاء تعليمات بسيطة للذكاء الاصطناعي؛ لأن ذلك يجعل برنامجك عرضة للثغرات".
قد يؤدي اكتشاف طرق كسر الحماية مثل Skeleton Key إلى تقليل ثقة الجمهور بالذكاء الاصطناعي، ما قد يبطئ اعتماد تقنيات الذكاء الاصطناعي المفيدة. بحسب Narayana Pappu، الرئيس التنفيذي لشركة Zendata: "الشفافية والتحقق المستقل أمران أساسيان لاستعادة الثقة".
يقول: "يمكن لمطوري الذكاء الاصطناعي والمؤسسات إيجاد توازن بين إنشاء نماذج لغوية قوية ومتعددة الاستخدامات وضمان وجود تدابير حماية صارمة ضد سوء الاستخدام". "يمكنهم تحقيق ذلك من خلال الشفافية الداخلية للأنظمة، وفهم مخاطر سلسلة توريد البيانات والذكاء الاصطناعي، ودمج أدوات التقييم في كل مرحلة من مراحل التطوير".