تطرح أنظمة الذكاء الاصطناعي التوليدي عددًا من التحديات الأمنية الفريدة. إلى جانب التحدي المعتاد المتمثل في تأمين الوصول إلى نماذج الذكاء الاصطناعي التوليدي، يتعين على المؤسسات تحقيق توازن بين القدرة الإبداعية للنماذج اللغوية الكبيرة (LLMs) وغيرها من التقنيات التوليدية، وبين المخاطر المتمثلة في احتمال أن تنتج هذه النماذج مخرجات غير صحيحة أو غير مرغوب فيها، أو تفصح عن معلومات حساسة أو خاصة، أو تنفِّذ إجراءات غير مرغوب فيها أو غير صحيحة / غير مسموح بها / غير قانونية.
نشر Open Web Application Security Project (OWASP) الإصدار الأول من أهم 10 مخاطر وثغرات أمنية تخص تطبيقات النماذج اللغوية الكبيرة والذكاء الاصطناعي التوليدي. يوضِّح المخطط أدناه هذه الثغرات الأمنية في سياق بنية الذكاء الاصطناعي الوكيل.
يوضِّح الشكل أدناه البنية بعد تعزيزها لإظهار مواضع عناصر الأمن المستخدمة للحماية من الثغرات الأمنية الواردة في قائمة OWASP Top 10 أو الحد منها.
تتم إضافة مكون إدارة الهوية والوصول (IAM) لتوفير هويات مستخدمين قوية وأدوار واضحة؛ ما يَحُدّ من مخاطر سرقة النماذج من خلال التحكم في الوصول إلى وظائف التطبيق وواجهات برمجة التطبيقات التي قد تؤدي إلى سرقة النموذج أو الكشف عنه.
كما تتم إضافة التحكم في هوية الوكيل وإمكانية وصوله (التحكم في وصول الوكلاء)، والذي يعمل بطريقة مشابهة للمستخدم ذي الامتيازات، لمواءمة صلاحيات وصول الوكيل مع هويات المستخدمين وأدوارهم؛ بما يساعد على الحماية من الوكالة المفرطة والإجراءات غير الطبيعية التي قد يقوم بها الوكيل نتيجة الهلوسة أو المطالبات غير المكتوبة جيدًا أو الغامضة.
تتم إضافة عناصر مراقبة الذكاء الاصطناعي التوليدي (GenAI Monitoring) عبر مختلف أجزاء البنية للحماية من هجمات حقن المطالبات، والتعامل غير الآمن مع المخرجات، وكشف البيانات الحساسة، والاعتماد المفرط. كما يتم نشر مزيج من مراقبة الذكاء الاصطناعي التوليدي وآليات مراقبة تسرُّب البيانات التقليدية للحماية من الهجمات المعتمدة على المطالبات أو الاستجابات، مثل إدخال مطالبة خبيثة ضمن نتائج استعلام SQL، وكذلك لمنع الكشف عن المعلومات الحساسة التي قد تظهر في نتائج استدعاءات واجهات برمجة التطبيقات أو استعلامات قواعد البيانات وما شابه ذلك.
يتم الحد من هجمات تسميم بيانات التدريب من خلال إضافة أدوات إدارة التكوين والمراقبة، إلى جانب عملية منظمة للتحكم في الإصدارات والإصدارات المرتبطة بتدريب النماذج والضبط الدقيق وبيانات التكوين.
وأخيرًا، تتم إضافة عنصر مراقبة السلوك المتكامل وربط الأحداث لتحديد الثغرات الأمنية والهجمات المحتملة استنادًا إلى سجلات العناصر الفردية. كما تتم إضافة عنصر الإشعار والتنبيه لإخطار مشغِّلي النظام بالمشكلات المحتملة، وإضافة مكون تنسيق الاستجابة لأتمتة و/أو تنسيق استجابات النظام والاستجابات اليدوية للمشكلات التي يتم تحديدها.