لقد دفع النجاح الأخير للنماذج اللغوية الكبيرة المستندة إلى الذكاء الاصطناعي السوق لفكر أكثر طموحًا حول كيفية تحويل الذكاء الاصطناعي للعديد من عمليات المؤسسات. ومع ذلك، أصبح المستهلكون والجهات التنظيمية قلقين بشكل متزايد بشأن سلامة بياناتهم ونماذج الذكاء الاصطناعي نفسها. إذ سيتطلب منا الاعتماد الآمن وواسع النطاق للذكاء الاصطناعي تبني حوكمة الذكاء الاصطناعي عبر دورة حياة البيانات من أجل توفير الثقة للمستهلكين والمؤسسات والمنظمين. ولكن كيف يبدو هذا؟
في معظم الأحيان، تكون نماذج الذكاء الاصطناعي بسيطة إلى حد ما، فهي تأخذ البيانات ثم تتعلم الأنماط من هذه البيانات لتوليد مخرجات. لا تختلف النماذج اللغوية الكبيرة المعقدة (LLMs) مثل ChatGPT وGoogle Bard. وبسبب ذلك، عندما ننظر إلى إدارة نشر نماذج الذكاء الاصطناعي وتنظيمه، يجب أن نركز أولًا على تنظيم البيانات التي تدرب عليها نماذج الذكاء الاصطناعي. تتطلب إدارة البيانات هذه أن نفهم أصل جميع البيانات التي نستخدمها وحساسيتها ودورة حياتها. وهذا هو الأساس لأي إجراء من إجراءات حوكمة الذكاء الاصطناعي وهو أمر بالغ الأهمية في الحد من المخاطر المؤسسية المختلفة.
الرسالة الإخبارية الخاصة بالمجال
احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.
سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.
يمكن تدريب النماذج اللغوية الكبيرة على بيانات خاصة لتلبية حالات استخدام محددة للمؤسسة. فعلى سبيل المثال، يمكن لشركة ما استخدام ChatGPT وإنشاء نموذج خاص يتم تدريبه على بيانات مبيعات إدارة علاقات العملاء الخاصة بالشركة. ويمكن نشر هذا النموذج كروبوت محادثة على Slack لمساعدة فرق المبيعات في إيجاد إجابات لاستفسارات مثل "كم عدد الفرص التي فاز بها المنتج X في العام الماضي؟" أو "أطلعني على فرصة المنتج Z مع الشركة Y".
يمكنك بسهولة تخيل أن هذه النماذج اللغوية الكبيرة مضبوطة لتناسب عددًا من حالات استخدام خدمة العملاء أو الموارد البشرية أو التسويق. قد نرى هذه النماذج تعزّز حتى المشورة القانونية والطبية، ما يحوّل النماذج اللغوية الكبيرة إلى أداة تشخيص أولية يستخدمها مقدّمو الرعاية الصحية. وتكمن المشكلة في أن حالات الاستخدام هذه تتطلب تدريب النماذج اللغوية الكبيرة على بيانات الملكية الحساسة. وهذا أمر محفوف بالمخاطر بطبيعته، وتتضمن بعض هذه المخاطر:
تتعلم نماذج الذكاء الاصطناعي من بيانات التدريب، لكن ماذا لو كانت تلك البيانات خاصة أو حساسة؟ يمكن استخدام قدر كبير من البيانات بشكل مباشر أو غير مباشر لتحديد هوية أفراد معينين. وبالتالي، إذا كنا نقوم بتدريب نموذج لغوي كبير على بيانات ملكية خاصة بعملاء مؤسسة، فيمكن أن نواجه حالات يمكن فيها استغلال استهلاك هذا النموذج لتسريب معلومات حساسة.
العديد من نماذج الذكاء الاصطناعي البسيطة لها مرحلة تدريب ثم مرحلة نشر يتم خلالها إيقاف التدريب. وتختلف النماذج اللغوية الكبيرة إلى حد ما، فهي تأخذ سياق محادثتك معها، وتتعلم منه، ثم تستجيب وفقًا لذلك.
هذا يجعل مهمة التحكم في بيانات إدخال النموذج أكثر تعقيدًا بشكل لا نهائي؛ إذ لا يتعين علينا فقط القلق بشأن بيانات التدريب الأولية، فنحن نقلق بشأن كل مرة يتم فيها الاستعلام من النموذج. ماذا لو قمنا بتغذية النموذج بمعلومات حساسة في أثناء المحادثة؟ هل يمكننا تحديد الحساسية ومنع النموذج من استخدامها في سياقات أخرى؟
إلى حد ما، تحدد حساسية بيانات التدريب حساسية النموذج. فعلى الرغم من وجود آليات راسخة للتحكم في الوصول إلى البيانات، ومراقبة من يصل إلى أي بيانات، ثم إخفاء البيانات ديناميكيًا حسب الوضع، فإن أمن نشر الذكاء الاصطناعي لا يزال في طور التطور. وعلى الرغم من وجود حلول تظهر في هذا المجال، فإننا ما زلنا غير قادرين على التحكم بشكل كامل في حساسية مخرجات النموذج بناءً على دور الشخص الذي يستخدم النموذج (على سبيل المثال، النموذج الذي يحدد أن مخرجات معينة يمكن أن تكون حساسة ثم يغيرها بشكل موثوق به بناءً على من يستعلم من النموذج اللغوي الكبير). لهذا السبب، يمكن أن تصبح هذه النماذج بسهولة تسريبات لأي نوع من المعلومات الحساسة التي يتضمنها تدريب النموذج.
ماذا يحدث عندما ندرّب نموذجًا على كل أغنية لدريك ثم يبدأ النموذج في توليد أغانٍ مقلدة لدريك؟ هل النموذج ينتهك حقوق دريك؟ هل يمكنك إثبات ما إذا كان النموذج ينسخ عملك بطريقة ما؟
لا تزال هذه المشكلة قيد المعالجة من قِبل المنظمين، لكنها قد تصبح مشكلة كبيرة لأي شكل من أشكال الذكاء الاصطناعي التوليدي الذي يتعلم من الملكية الفكرية الفنية. نتوقع أن يؤدي هذا الأمر إلى دعاوى قضائية كبيرة في المستقبل، ويجب التخفيف من ذلك من خلال المراقبة الكافية للملكية الفكرية لأي بيانات مستخدمة في التدريب.
واحدة من الأفكار الرئيسية وراء تنظيم خصوصية البيانات الحديثة هي الموافقة. يجب أن يوافق العملاء على استخدام بياناتهم ويجب أن يكونوا قادرين على طلب حذف بياناتهم. وهذا يشكل مشكلة فريدة لاستخدام الذكاء الاصطناعي.
إذا قمت بتدريب نموذج ذكاء اصطناعي باستخدام بيانات عملاء حساسة، يصبح هذا النموذج مصدرًا محتملًا لكشف تلك البيانات الحساسة. وإذا قام العميل بسحب موافقته على استخدام بياناته - وهو متطلبات اللائحة العامة لحماية البيانات - وكانت الشركة قد درّبت النموذج بالفعل على هذه البيانات، فسيتعيّن فعليًا إيقاف النموذج وإعادة تدريبه دون تلك البيانات الملغاة.
يتطلب جعل النماذج اللغوية الكبيرة مفيدة كبرمجيات مؤسسية حوكمة صارمة لبيانات التدريب حتى تتمكن الشركات من الوثوق بسلامة البيانات والاحتفاظ بسجل تدقيقي لبيانات استهلاك النموذج
أفضل شرح لبنية النماذج اللغوية الكبيرة صادفته كان في هذا المقال لـ a16z. وهو شرح ممتاز، لكن بالنسبة لشخص يعمل في إدارة البيانات والخصوصية، فإن ذلك الجزء في أعلى اليسار من المخطط "البيانات السياقية ← مسارات البيانات" ينقصه عنصر مهم: إدارة البيانات.
وعند إضافة إدارة البيانات من IBM، سيبدو ذلك الجزء كما يلي:
حل إدارة البيانات المدعوم من IBM® Knowledge Catalog يقدم عدة قدرات تساعد على تسهيل اكتشاف البيانات، وجودة البيانات الآلية، وحماية البيانات. يمكنك:
الخطوة الأخيرة أعلاه هي الخطوة التي غالبًا ما يتم تجاهلها: تنفيذ أسلوب تعزيز الخصوصية. والسؤال هو: كيف نزيل الأجزاء الحساسة قبل تغذية البيانات للذكاء الاصطناعي؟ يمكنك تقسيم ذلك إلى ثلاث خطوات:
مع IBM® watsonx، حققت IBM تقدمًا سريعًا لوضع قوة الذكاء الاصطناعي التوليدي في أيدي منشئي الذكاء الاصطناعي. IBM watsonx.ai هو استوديو جاهز للمؤسسات، يجمع بين التعلم الآلي التقليدي (ML) وقدرات ذكاء اصطناعي توليدي جديدة مدعومة من النماذج الأساس. يتضمن watsonx أيضًا watsonx.data، وهو مخزن بيانات مناسب للغرض مبني على بنية مستودع بحيرة مفتوحة. ويدعم الاستعلام والحكومة وتنسيقات البيانات المفتوحة للوصول إلى البيانات عبر السحابة الهجينة ومشاركتها.
يُعد الأساس القوي للبيانات مهمًا للغاية لنجاح تطبيقات الذكاء الاصطناعي. بفضل نسيج البيانات من IBM، يمكن للعملاء بناء البنية التحتية المناسبة للبيانات من أجل الذكاء الاصطناعي باستخدام قدرات تكامل البيانات وإدارة البيانات اللازمة للحصول على البيانات وإعدادها وتنظيمها قبل الوصول إليها من قِبل منشئي الذكاء الاصطناعي بسهولة باستخدام watsonx.ai وwatsonx.data.
تقدم IBM حل نسيج البيانات القابل للتركيب كجزء من مجموعة مفتوحة وقابلة للتوسعة من منتجات الذكاء الاصطناعي التي يمكن نشرها على سحابات الطرف الثالث. ويشمل هذا الحل إدارة البيانات، والتكامل، وإمكانية ملاحظة البيانات، ودورة حياة البيانات، وجودة البيانات، وحل الكيانات، وقدرات إدارة خصوصية البيانات.
نماذج الذكاء الاصطناعي، وخاصة النماذج اللغوية الكبيرة، ستكون واحدة من أكثر التقنيات تحولًا في العقد القادم. ومع فرض اللوائح الجديدة المتعلقة بالذكاء الاصطناعي بإرشادات حول استخدام الذكاء الاصطناعي، من الضروري ليس فقط إدارة نماذج الذكاء الاصطناعي وتنظيمها، بل - وبالقدر نفسه من الأهمية - إدارة البيانات التي تدخل في الذكاء الاصطناعي.
يمكنك إدارة نماذج الذكاء الاصطناعي من أي مكان ونشرها على السحابة أو بشكل محلي باستخدام IBM watsonx.governance.
اكتشف كيف يمكن لحوكمة الذكاء الاصطناعي أن تساعد في زيادة ثقة موظفيك في الذكاء الاصطناعي، وتسريع الاعتماد عليه وتعزيز الابتكار، بالإضافة إلى تحسين ثقة العملاء.
تمكَّن من الاستعداد لقانون الذكاء الاصطناعي في الاتحاد الأوروبي ووضع نهج حوكمة مسؤول للذكاء الاصطناعي بمساعدة IBM Consulting.