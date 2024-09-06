تؤدي العناصر مفتوحة المصدر دورًا حيويًا في سلسلة توريد الذكاء الاصطناعي. فقط أكبر المؤسسات تمتلك إمكانية الوصول إلى الكميات الهائلة من البيانات اللازمة لتدريب نموذج من الصفر، لذا عليها الاعتماد بشكل كبير على مجموعات البيانات مفتوحة المصدر مثل LAION 5B أو Common Corpus. كما يعني الحجم الهائل لمجموعات البيانات هذه أنه من الصعب للغاية الحفاظ على جودة البيانات والامتثال لقوانين حقوق النشر والخصوصية. على النقيض من ذلك، العديد من نماذج الذكاء الاصطناعي التوليدي السائدة مثل ChatGPT هي صناديق سوداء لأنها تستخدم مجموعات بياناتها المنسّقة الخاصة. ويأتي هذا مع مجموعة من التحديات الأمنية الخاصة به.

يمكن للنماذج المتخصصة والخاصة تحسين نماذج الأساس مفتوحة المصدر من خلال تدريب إضافي باستخدام مجموعات بياناتها الخاصة. على سبيل المثال، قد تستخدم شركة تطوِّر روبوت محادثة لخدمة العملاء من الجيل التالي سجلاتها السابقة لإنشاء نموذج مصمم خصيصًا لاحتياجاتها المحددة. لطالما كانت هذه البيانات هدفًا للمجرمين الإلكترونيين، لكن الصعود السريع للذكاء الاصطناعي التوليدي جعلها أكثر جاذبية للجهات الخبيثة.

من خلال استهداف مجموعات البيانات هذه، يمكن للمجرمين الإلكترونيين تسميمها بمعلومات مضللة أو أكواد وبيانات خبيثة. ثم، بمجرد دخول هذه المعلومات المخترقة في عملية تدريب نموذج الذكاء الاصطناعي، نبدأ بملاحظة تأثير متسلسل يمتد عبر دورة حياة برمجيات الذكاء الاصطناعي بأكملها. قد يستغرق تدريب النموذج اللغوي الكبير (LLM) آلاف الساعات وكمية هائلة من القدرة الحاسوبية. إنها مهمة مكلفة للغاية، ماليًا وبيئيًا. ومع ذلك، إذا تم اختراق مجموعات البيانات المستخدمة في التدريب، فمن المحتمل أن تبدأ العملية بأكملها من الصفر.