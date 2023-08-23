يمكن تدريب النماذج اللغوية الكبيرة على بيانات خاصة لتلبية حالات استخدام محددة للمؤسسة. فعلى سبيل المثال، يمكن لشركة ما استخدام ChatGPT وإنشاء نموذج خاص يتم تدريبه على بيانات مبيعات إدارة علاقات العملاء الخاصة بالشركة. ويمكن نشر هذا النموذج كروبوت محادثة على Slack لمساعدة فرق المبيعات في إيجاد إجابات لاستفسارات مثل "كم عدد الفرص التي فاز بها المنتج X في العام الماضي؟" أو "أطلعني على فرصة المنتج Z مع الشركة Y".

يمكنك بسهولة تخيل أن هذه النماذج اللغوية الكبيرة مضبوطة لتناسب عددًا من حالات استخدام خدمة العملاء أو الموارد البشرية أو التسويق. قد نرى هذه النماذج تعزّز حتى المشورة القانونية والطبية، ما يحوّل النماذج اللغوية الكبيرة إلى أداة تشخيص أولية يستخدمها مقدّمو الرعاية الصحية. وتكمن المشكلة في أن حالات الاستخدام هذه تتطلب تدريب النماذج اللغوية الكبيرة على بيانات الملكية الحساسة. وهذا أمر محفوف بالمخاطر بطبيعته، وتتضمن بعض هذه المخاطر:

1. مخاطر الخصوصية وإعادة تحديد الهوية

تتعلم نماذج الذكاء الاصطناعي من بيانات التدريب، لكن ماذا لو كانت تلك البيانات خاصة أو حساسة؟ يمكن استخدام قدر كبير من البيانات بشكل مباشر أو غير مباشر لتحديد هوية أفراد معينين. وبالتالي، إذا كنا نقوم بتدريب نموذج لغوي كبير على بيانات ملكية خاصة بعملاء مؤسسة، فيمكن أن نواجه حالات يمكن فيها استغلال استهلاك هذا النموذج لتسريب معلومات حساسة.

2. بيانات التعلم داخل النموذج

العديد من نماذج الذكاء الاصطناعي البسيطة لها مرحلة تدريب ثم مرحلة نشر يتم خلالها إيقاف التدريب. وتختلف النماذج اللغوية الكبيرة إلى حد ما، فهي تأخذ سياق محادثتك معها، وتتعلم منه، ثم تستجيب وفقًا لذلك.

هذا يجعل مهمة التحكم في بيانات إدخال النموذج أكثر تعقيدًا بشكل لا نهائي؛ إذ لا يتعين علينا فقط القلق بشأن بيانات التدريب الأولية، فنحن نقلق بشأن كل مرة يتم فيها الاستعلام من النموذج. ماذا لو قمنا بتغذية النموذج بمعلومات حساسة في أثناء المحادثة؟ هل يمكننا تحديد الحساسية ومنع النموذج من استخدامها في سياقات أخرى؟

3. مخاطر الأمان والوصول

إلى حد ما، تحدد حساسية بيانات التدريب حساسية النموذج. فعلى الرغم من وجود آليات راسخة للتحكم في الوصول إلى البيانات، ومراقبة من يصل إلى أي بيانات، ثم إخفاء البيانات ديناميكيًا حسب الوضع، فإن أمن نشر الذكاء الاصطناعي لا يزال في طور التطور. وعلى الرغم من وجود حلول تظهر في هذا المجال، فإننا ما زلنا غير قادرين على التحكم بشكل كامل في حساسية مخرجات النموذج بناءً على دور الشخص الذي يستخدم النموذج (على سبيل المثال، النموذج الذي يحدد أن مخرجات معينة يمكن أن تكون حساسة ثم يغيرها بشكل موثوق به بناءً على من يستعلم من النموذج اللغوي الكبير). لهذا السبب، يمكن أن تصبح هذه النماذج بسهولة تسريبات لأي نوع من المعلومات الحساسة التي يتضمنها تدريب النموذج.

4. مخاطر الملكية الفكرية

ماذا يحدث عندما ندرّب نموذجًا على كل أغنية لدريك ثم يبدأ النموذج في توليد أغانٍ مقلدة لدريك؟ هل النموذج ينتهك حقوق دريك؟ هل يمكنك إثبات ما إذا كان النموذج ينسخ عملك بطريقة ما؟

لا تزال هذه المشكلة قيد المعالجة من قِبل المنظمين، لكنها قد تصبح مشكلة كبيرة لأي شكل من أشكال الذكاء الاصطناعي التوليدي الذي يتعلم من الملكية الفكرية الفنية. نتوقع أن يؤدي هذا الأمر إلى دعاوى قضائية كبيرة في المستقبل، ويجب التخفيف من ذلك من خلال المراقبة الكافية للملكية الفكرية لأي بيانات مستخدمة في التدريب.

5. الموافقة ومخاطر طلبات الوصول إلى بيانات الأفراد

واحدة من الأفكار الرئيسية وراء تنظيم خصوصية البيانات الحديثة هي الموافقة. يجب أن يوافق العملاء على استخدام بياناتهم ويجب أن يكونوا قادرين على طلب حذف بياناتهم. وهذا يشكل مشكلة فريدة لاستخدام الذكاء الاصطناعي.

إذا قمت بتدريب نموذج ذكاء اصطناعي باستخدام بيانات عملاء حساسة، يصبح هذا النموذج مصدرًا محتملًا لكشف تلك البيانات الحساسة. وإذا قام العميل بسحب موافقته على استخدام بياناته - وهو متطلبات اللائحة العامة لحماية البيانات - وكانت الشركة قد درّبت النموذج بالفعل على هذه البيانات، فسيتعيّن فعليًا إيقاف النموذج وإعادة تدريبه دون تلك البيانات الملغاة.

يتطلب جعل النماذج اللغوية الكبيرة مفيدة كبرمجيات مؤسسية حوكمة صارمة لبيانات التدريب حتى تتمكن الشركات من الوثوق بسلامة البيانات والاحتفاظ بسجل تدقيقي لبيانات استهلاك النموذج