تسمم البيانات هو نوع من الهجمات الإلكترونية حيث تتلاعب عناصر التهديد ببيانات التدريب المستخدمة لتطوير نماذج الذكاء الاصطناعي (AI) و التعلم الآلي (ML) أو تعمل على إتلافها.
تعتمد الشبكات العصبية، والنماذج اللغوية الكبيرة (LLMs) ونماذج التعلم العميق بشكل كبير على جودة بيانات التدريب وسلامتها ، التي تحدد وظائف النموذج في النهاية. يمكن أن تأتي بيانات التدريب هذه من مصادر مختلفة ، مثل الإنترنت وقواعد بيانات الحكومة ومقدمي البيانات التابعين لجهات خارجية. من خلال حقن نقاط بيانات غير صحيحة أو متحيزة (بيانات مسمومة) في مجموعات بيانات التدريب هذه، يمكن للجهات الخبيثة تغيير سلوك النموذج بشكل خفي أو جذري.
على سبيل المثال، يمكن أن يؤدي التلاعب بالبيانات من خلال التسمم إلى تصنيف خطأ للبيانات، ما يقلل من فعالية أنظمة الذكاء الاصطناعي والتعلم الآلي (ML) ودقتها. وأكثر من ذلك، يمكن أن تؤدي هذه الهجمات إلى مخاطر الأمن الإلكتروني، خاصةً في الصناعات مثل الرعاية الصحية والمركبات ذاتية القيادة.
يمكن تصنيف هجمات تسمم البيانات إلى فئتين بناءً على النية: المستهدفة وغير المستهدفة.
تتلاعب هجمات تسمم البيانات المستهدفة بمخرجات نماذج الذكاء الاصطناعي بطريقة محددة. على سبيل المثال، قد يقوم المجرمون الإلكترونيون بحقن بيانات مسمومة في روبوت المحادثة أو تطبيق ذكاء اصطناعي توليدي مثل ChatGPT لتغيير استجاباته. وعلى نحو مماثل، في سيناريو الأمن السيبراني ، قد يقوم المهاجم بإدخال بيانات مسمومة إلى نموذج مصمم ليكشف عن برنامج ضار، ما يؤدي إلى تفويت بعض التهديدات.
تعمل الهجمات المستهدفة على التلاعب بسلوك النموذج بطريقة تفيد المهاجم، ما قد يؤدي إلى إنشاء ثغرات أمنية جديدة في النظام.
تركز الهجمات غير المستهدفة على إضعاف المتانة العامة للنموذج. بدلاً من مهاجمة مخرجات محددة، فإن الهدف هو إضعاف قدرة النموذج على معالجة البيانات بشكل صحيح. على سبيل المثال، في المركبات ذاتية القيادة، قد يؤدي تسمم البيانات غير المستهدفة إلى إساءة تفسير النظام للإدخال الوارد من أجهزة الاستشعار الخاصة به، فيخطئ في تفسير علامة "توقف" على أنها علامة "إعطاء الأولوية". تجعل هذه الأنواع من الهجمات نماذج الذكاء الاصطناعي أكثر عرضة للهجمات المعادية، حيث يحاول المهاجم استخدام عيوب صغيرة وغير محسوسة في كثير من الأحيان في عملية صناعة القرار في النموذج.
يمكن أن تتخذ هجمات تسمم البيانات أشكالاً مختلفة، بما في ذلك تقليب الملصقات، وحقن البيانات، وهجمات الباب الخلفي، وهجمات الملصق النظيف. يستهدف كل نوع جوانب مختلفة من وظائف نموذج الذكاء الاصطناعي.
في هجمات تقليب الملصقات، تتلاعب الجهات الخبيثة بالملصقات في بيانات التدريب، من خلال تبديل الملصقات الصحيحة بأخرى غير صحيحة. على سبيل المثال Nightshade، وهي أداة تسمم تعتمد على الذكاء الاصطناعي تم تطويرها في جامعة شيكاغو. تسمح Nightshade للفنانين الرقميين بتغيير وحدات البكسل في صورهم بمهارة قبل تحميلها على الإنترنت. عندما تتخلص شركات الذكاء الاصطناعي من مجموعات البيانات على الإنترنت لتدريب نماذج الذكاء الاصطناعي التوليدي الخاصة بها، فإن الصور المُعدَّلة تعطل عملية التدريب. يمكن أن يتسبب هذا التلاعب في أن تخطئ نماذج الذكاء الاصطناعي في التصنيف أو تتصرف بشكل غير متوقع—وأحيانًا تخطئ في تصنيف صور الأبقار على أنها حقائب جلدية.1
يؤدي حقن البيانات إلى إدخال نقاط بيانات مزيفة إلى مجموعة بيانات التدريب، غالبًا لتوجيه سلوك نماذج الذكاء الاصطناعي في اتجاه معين. ومن الأمثلة الشائعة على ذلك حقن SQL، حيث يضيف المهاجمون "1=1" أو "=" إلى حقل الإدخال. عند تضمين هذه البيانات الخبيثة في SQL Query، فإنها تغير معنى الاستعلام، وتعيد جميع السجلات بدلاً من سجل واحد فقط2 وبالمثل، في نماذج التعلم الآلي، يمكن لحقن البيانات التلاعب بعملية صناعة القرار في النموذج. يمكن أن يتسبب ذلك في إساءة تصنيف النموذج أو إظهار التحيزات، ما يقوض سلامة البيانات ومتانة النموذج بشكل عام.
تُعد هجمات الباب الخلفي خطيرة لأنها تؤدي إلى عمليات تلاعب خفية، مثل الضوضاء الخلفية غير المسموعة على الصوت أو العلامات المائية غير المحسوسة على الصور. هذا يجعل نظام الذكاء الاصطناعي يعمل بشكل طبيعي في معظم الظروف. ومع ذلك، عند مواجهة إدخال مُحفز معين، يتصرف النموذج بطريقة تفيد المهاجم. وفي حالة نماذج المصدر المفتوح—حيث قد يكون الوصول إلى بيانات التدريب و الخوارزميات أقل تقييدًا—فإن هذه الهجمات قد تكون ضارة بشكل خاص. أبلغت شركة ReversingLabs عن زيادة في التهديدات—أكثر من 1300%—المتداولة عبر مستودعات مصدر مفتوح من 2020 إلى 2023.3
في هجمات الملصق النظيف، يقوم المهاجمون بتعديل البيانات بطرق يصعب اكتشافها. السمة الرئيسية هي أن البيانات المسمومة لا تزال تظهر بشكل صحيح، ما يجعل من الصعب تحديد طرق التحقق من صحة البيانات التقليدية. تستخدم هذه الهجمات تعقيد أنظمة التعلم الآلي الحديثة والتعلم العميق، التي يمكن أن تفشل في الإبلاغ عن التغييرات الصغيرة التي تبدو غير ضارة. تُعد هجمات الملصق النظيف من بين أكثر الهجمات خفاءً وسرية، ما يجعل نماذج الذكاء الاصطناعي عرضة للمخرجات المنحرفة ووظائف النموذج المتدهورة.
مع أن تسمم البيانات والحقن الموجِّه يستهدفان مراحل مختلفة من دورة حياة الذكاء الاصطناعي، فهما يشتركان في الهدف نفسه: استغلال الثغرات الأمنية في مدخلات النموذج. تتلاعب عملية تسمم البيانات بمجموعات بيانات التدريب، حيث تقوم بتضمين بيانات تالفة أو خبيثة يمكن أن تضر بعملية تعلّم النموذج ووظائفه على المدى الطويل. على النقيض من ذلك، تقوم عمليات الحقن الموجِّه بإخفاء المدخلات الخبيثة على أنها موجِّهات مشروعة، ما يؤدي إلى التلاعب بأنظمة الذكاء الاصطناعي التوليدي لتسريب بيانات حساسة، أو نشر معلومات مضللة أو ما هو أسوأ من ذلك.
يمكن للمخترقين نشر هذه الاستراتيجية بشكل منفصل أو جنبًا إلى جنب لتضخيم تأثيرها. على سبيل المثال، يمكن لعنصر داخلي لديه إمكانية الوصول إلى أنظمة مجموعة أن يقوم نظريًا بتسميم مجموعة بيانات التدريب من خلال تضمين بيانات منحرفة أو متحيزة، متجاوزًا بذلك إجراءات التحقق من الصحة. في وقت لاحق، يمكن أن يستغل العنصر الداخلي النظام المخترق عن طريق إجراء حقن موجِّه، وتفعيل البيانات المسمومة وإطلاق سلوك خبيث. قد يشمل ذلك تسريب معلومات حساسة، أو إنشاء باب خلفي لمزيد من الهجمات المعادية، أو إضعاف قدرات النظام على صناعة القرار.
يمكن أن يكون لتسمم البيانات مجموعة واسعة من التأثيرات في نماذج الذكاء الاصطناعي والتعلم الآلي (ML)، ما يؤثر في كل من أمانها والأداء بشكل عام.
يمكن أن تتسبب مجموعات بيانات التدريب السامة في إساءة تصنيف المدخلات لنماذج التعلم الآلي ، ما يقوض موثوقية نماذج الذكاء الاصطناعي ووظائفها. وفي التطبيقات التي تواجه المستهلك، يمكن أن يؤدي ذلك إلى توصيات غير دقيقة تؤدي إلى فقدان ثقة العملاء وتقويض تجاربهم. وبالمثل، في إدارة سلسلة التوريد، يمكن أن تتسبب البيانات المسمومة في توقعات معيبة وتأخيرات وأخطاء، ما يضر بكل من أداء النموذج وفعالية الأعمال. وتكشف هذه التصنيفات الخطأ عن الثغرات الأمنية في بيانات التدريب ويمكن أن تضر بالقوة العامة لأنظمة الذكاء الاصطناعي.
يمكن أن يؤدي تسمم البيانات أيضًا إلى تضخيم التحيزات الموجودة في أنظمة الذكاء الاصطناعي. ويمكن للمهاجمين استهداف مجموعات فرعية محددة من البيانات—مثل مجموعة ديموغرافية معينة—لإدخال مدخلات متحيزة. هذا يمكن أن يجعل نماذج الذكاء الاصطناعي تعمل بشكل غير عادل أو غير دقيق. على سبيل المثال، قد تخطئ نماذج التعرّف على الوجه المدرّبة على بيانات متحيزة أو مسمومة في تحديد هوية الأشخاص من مجموعات معينة، ما يؤدي إلى نتائج تمييزية. يمكن أن تؤثر هذه الأنواع من الهجمات في كل من عدالة نماذج التعلم الآلي ودقتها في مختلف التطبيقات، بدءًا من قرارات التوظيف وحتى مراقبة تطبيق القانون.
يمكن أن يفتح تسمم البيانات الباب أمام هجمات أكثر تعقيدًا، مثل هجمات الانعكاس التي يحاول فيها المخترقون عكس هندسة بيانات تدريب النموذج. بمجرد أن يقوم المهاجم بتسميم بيانات التدريب بنجاح، يمكنه استخدام الثغرات الأمنية هذه للتسبب في المزيد من الهجمات العدائية أو إطلاق إجراءات الباب الخلفي. في الأنظمة المصممة للمهام الحساسة، مثل تشخيص الرعاية الصحية أو الأمن السيبراني، يمكن أن تكون هذه المخاطر الأمنية خطيرة بشكل خاص.
للدفاع ضد هجمات تسمم البيانات، يمكن للمجموعة تنفيذ الاستراتيجيات للمساعدة على ضمان سلامة مجموعة بيانات التدريب، وتحسين متانة النموذج ومراقبة نماذج الذكاء الاصطناعي باستمرار.
إن إحدى استراتيجيات الدفاع الأساسية ضد تسمم البيانات هي التحقق من صحة بيانات التدريب وتطهيرها قبل الاستخدام. يمكن أن يساعد تنفيذ عمليات التحقق من صحة البيانات في أثناء مرحلة التدريب على تحديد نقاط البيانات المشبوهة أو التالفة وإزالتها قبل أن تؤثر سلبًا في النموذج. تُعد هذه الخطوة ضرورية لمنع إدخال البيانات الضارة إلى أنظمة الذكاء الاصطناعي، خاصةً عند استخدام مصادر أو نماذج بيانات مصدر مفتوح حيث يكون الحفاظ على السلامة أصعب.
التدريب العدائي هو طريقة استباقية للدفاع ضد تسمم البيانات وأنواع الهجمات الأخرى. من خلال إدخال أمثلة عدائية عن قصد في نماذج التدريب، يمكن للمطورين تعليم النموذج كيفية التعرف على البيانات السامة ومقاومتها، وتحسين متانته ضد التلاعب. بالنسبة إلى التطبيقات عالية المخاطر مثل المركبات ذاتية القيادة أو أمن الذكاء الاصطناعي، يعد التدريب العدائي خطوة حاسمة في جعل نماذج الذكاء الاصطناعي والتعلم الآلي (ML) أكثر قوة وجدارة بالثقة.
بمجرد نشرها، يمكن مراقبة أنظمة الذكاء الاصطناعي بشكل مستمر لكشف السلوك غير المعتاد الذي قد يشير إلى هجوم تسمم البيانات. يمكن لأدوات الكشف عن الخلل، مثل خوارزميات التعرّف على الأنماط، أن تساعد فرق الأمن على تحديد التناقضات في كل من المدخلات والمخرجات والاستجابة بسرعة في حال تعرض النظام للاختراق. إن التدقيق المستمر مهم بشكل خاص لتطبيقات الذكاء الاصطناعي التوليدي مثل ChatGPT، حيث يمكن أن تكون التحديثات في الوقت الفعلي الخاصة ببيانات التدريب وسلوك النموذج حساسة في منع إساءة الاستخدام. إذا تم اكتشاف حالة خلل، فيمكن إيقاف النموذج مؤقتًا أو إعادة تقييمه لمنع المزيد من الضرر.
تطبيق ضوابط وصول صارمة هو استراتيجية أخرى للتخفيف من مخاطر تسمم البيانات. يمكن أن يؤدي تحديد من يمكنه تعديل مجموعات البيانات و مستودعات التدريب إلى تقليل مخاطر التلاعب غير المصرح به. كما أن دمج تدابير أمنية مثل التشفير يمكن أن يساعد على حماية مصادر البيانات وأنظمة الذكاء الاصطناعي من الهجمات الخارجية. في البيئات ذات المخاطر العالية، مثل الرعاية الصحية والأمن السيبراني، يمكن أن تساعد الضوابط الأمنية الصارمة على ضمان بقاء نماذج التعلم الآلي آمنة وجديرة بالثقة.
1 ما Nightshade، جامعة شيكاغو، 2024.
2 حقن SQL، مدارس W3.
3 الامتيازات الرئيسية من تقرير حالة SSCS لعام 2024، شركة ReversingLabs، في 16 يناير 2024.
يمكنك إدارة نماذج الذكاء الاصطناعي من أي مكان ونشرها على السحابة أو بشكل محلي باستخدام IBM watsonx.governance.
حماية البيانات عبر بيئات متعددة، وتلبية لوائح الخصوصية وتبسيط التعقيدات التشغيلية.
توفر IBM خدمات شاملة لأمن البيانات لحماية بيانات المؤسسة وتطبيقاتها وتقنيات الذكاء الاصطناعي لديها.