لماذا تُعد إدارة البيانات ضرورية لاستخدام الذكاء الاصطناعي في المؤسسات

شاب يعمل من المنزل

مؤلف

Corey Keyser

Senior Product Manager - Data privacy and regulatory compliance

IBM

لقد دفع النجاح الأخير للنماذج اللغوية الكبيرة المستندة إلى الذكاء الاصطناعي السوق لفكر أكثر طموحًا حول كيفية تحويل الذكاء الاصطناعي للعديد من عمليات المؤسسات. ومع ذلك، أصبح المستهلكون والجهات التنظيمية قلقين بشكل متزايد بشأن سلامة بياناتهم ونماذج الذكاء الاصطناعي نفسها. إذ سيتطلب منا الاعتماد الآمن وواسع النطاق للذكاء الاصطناعي تبني حوكمة الذكاء الاصطناعي عبر دورة حياة البيانات من أجل توفير الثقة للمستهلكين والمؤسسات والمنظمين. ولكن كيف يبدو هذا؟

في معظم الأحيان، تكون نماذج الذكاء الاصطناعي بسيطة إلى حد ما، فهي تأخذ البيانات ثم تتعلم الأنماط من هذه البيانات لتوليد مخرجات. لا تختلف النماذج اللغوية الكبيرة المعقدة (LLMs) مثل ChatGPT وGoogle Bard. وبسبب ذلك، عندما ننظر إلى إدارة نشر نماذج الذكاء الاصطناعي وتنظيمه، يجب أن نركز أولًا على تنظيم البيانات التي تدرب عليها نماذج الذكاء الاصطناعي. تتطلب إدارة البيانات هذه أن نفهم أصل جميع البيانات التي نستخدمها وحساسيتها ودورة حياتها. وهذا هو الأساس لأي إجراء من إجراءات حوكمة الذكاء الاصطناعي وهو أمر بالغ الأهمية في الحد من المخاطر المؤسسية المختلفة.

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

مخاطر تدريب نماذج النماذج اللغوية الكبيرة على بيانات حساسة

يمكن تدريب النماذج اللغوية الكبيرة على بيانات خاصة لتلبية حالات استخدام محددة للمؤسسة. فعلى سبيل المثال، يمكن لشركة ما استخدام ChatGPT وإنشاء نموذج خاص يتم تدريبه على بيانات مبيعات إدارة علاقات العملاء الخاصة بالشركة. ويمكن نشر هذا النموذج كروبوت محادثة على Slack لمساعدة فرق المبيعات في إيجاد إجابات لاستفسارات مثل "كم عدد الفرص التي فاز بها المنتج X في العام الماضي؟" أو "أطلعني على فرصة المنتج Z مع الشركة Y".

يمكنك بسهولة تخيل أن هذه النماذج اللغوية الكبيرة مضبوطة لتناسب عددًا من حالات استخدام خدمة العملاء أو الموارد البشرية أو التسويق. قد نرى هذه النماذج تعزّز حتى المشورة القانونية والطبية، ما يحوّل النماذج اللغوية الكبيرة إلى أداة تشخيص أولية يستخدمها مقدّمو الرعاية الصحية. وتكمن المشكلة في أن حالات الاستخدام هذه تتطلب تدريب النماذج اللغوية الكبيرة على بيانات الملكية الحساسة. وهذا أمر محفوف بالمخاطر بطبيعته، وتتضمن بعض هذه المخاطر:

1. مخاطر الخصوصية وإعادة تحديد الهوية

تتعلم نماذج الذكاء الاصطناعي من بيانات التدريب، لكن ماذا لو كانت تلك البيانات خاصة أو حساسة؟ يمكن استخدام قدر كبير من البيانات بشكل مباشر أو غير مباشر لتحديد هوية أفراد معينين. وبالتالي، إذا كنا نقوم بتدريب نموذج لغوي كبير على بيانات ملكية خاصة بعملاء مؤسسة، فيمكن أن نواجه حالات يمكن فيها استغلال استهلاك هذا النموذج لتسريب معلومات حساسة.

2. بيانات التعلم داخل النموذج

العديد من نماذج الذكاء الاصطناعي البسيطة لها مرحلة تدريب ثم مرحلة نشر يتم خلالها إيقاف التدريب. وتختلف النماذج اللغوية الكبيرة إلى حد ما، فهي تأخذ سياق محادثتك معها، وتتعلم منه، ثم تستجيب وفقًا لذلك.

هذا يجعل مهمة التحكم في بيانات إدخال النموذج أكثر تعقيدًا بشكل لا نهائي؛ إذ لا يتعين علينا فقط القلق بشأن بيانات التدريب الأولية، فنحن نقلق بشأن كل مرة يتم فيها الاستعلام من النموذج. ماذا لو قمنا بتغذية النموذج بمعلومات حساسة في أثناء المحادثة؟ هل يمكننا تحديد الحساسية ومنع النموذج من استخدامها في سياقات أخرى؟

3. مخاطر الأمان والوصول

إلى حد ما، تحدد حساسية بيانات التدريب حساسية النموذج. فعلى الرغم من وجود آليات راسخة للتحكم في الوصول إلى البيانات، ومراقبة من يصل إلى أي بيانات، ثم إخفاء البيانات ديناميكيًا حسب الوضع، فإن أمن نشر الذكاء الاصطناعي لا يزال في طور التطور. وعلى الرغم من وجود حلول تظهر في هذا المجال، فإننا ما زلنا غير قادرين على التحكم بشكل كامل في حساسية مخرجات النموذج بناءً على دور الشخص الذي يستخدم النموذج (على سبيل المثال، النموذج الذي يحدد أن مخرجات معينة يمكن أن تكون حساسة ثم يغيرها بشكل موثوق به بناءً على من يستعلم من النموذج اللغوي الكبير). لهذا السبب، يمكن أن تصبح هذه النماذج بسهولة تسريبات لأي نوع من المعلومات الحساسة التي يتضمنها تدريب النموذج.

4. مخاطر الملكية الفكرية

ماذا يحدث عندما ندرّب نموذجًا على كل أغنية لدريك ثم يبدأ النموذج في توليد أغانٍ مقلدة لدريك؟ هل النموذج ينتهك حقوق دريك؟ هل يمكنك إثبات ما إذا كان النموذج ينسخ عملك بطريقة ما؟

لا تزال هذه المشكلة قيد المعالجة من قِبل المنظمين، لكنها قد تصبح مشكلة كبيرة لأي شكل من أشكال الذكاء الاصطناعي التوليدي الذي يتعلم من الملكية الفكرية الفنية. نتوقع أن يؤدي هذا الأمر إلى دعاوى قضائية كبيرة في المستقبل، ويجب التخفيف من ذلك من خلال المراقبة الكافية للملكية الفكرية لأي بيانات مستخدمة في التدريب.

5. الموافقة ومخاطر طلبات الوصول إلى بيانات الأفراد

واحدة من الأفكار الرئيسية وراء تنظيم خصوصية البيانات الحديثة هي الموافقة. يجب أن يوافق العملاء على استخدام بياناتهم ويجب أن يكونوا قادرين على طلب حذف بياناتهم. وهذا يشكل مشكلة فريدة لاستخدام الذكاء الاصطناعي.

إذا قمت بتدريب نموذج ذكاء اصطناعي باستخدام بيانات عملاء حساسة، يصبح هذا النموذج مصدرًا محتملًا لكشف تلك البيانات الحساسة. وإذا قام العميل بسحب موافقته على استخدام بياناته - وهو متطلبات اللائحة العامة لحماية البيانات - وكانت الشركة قد درّبت النموذج بالفعل على هذه البيانات، فسيتعيّن فعليًا إيقاف النموذج وإعادة تدريبه دون تلك البيانات الملغاة.

يتطلب جعل النماذج اللغوية الكبيرة مفيدة كبرمجيات مؤسسية حوكمة صارمة لبيانات التدريب حتى تتمكن الشركات من الوثوق بسلامة البيانات والاحتفاظ بسجل تدقيقي لبيانات استهلاك النموذج

أكاديمية الذكاء الاصطناعي

الثقة والشفافية والحوكمة في عصر الذكاء الاصطناعي

يُعَد التباين حول مدى "الثقة" في الذكاء الاصطناعي أحد أهم الموضوعات في هذا المجال.ومن المفهوم أيضًا أنه موضوع شائك.سنتحدث عن مشاكل مثل الهلوسة والتحيز، والمخاطر، وسنشارك خطوات اعتماد الذكاء الاصطناعي بطريقة أخلاقية، ومسؤولة، ومنصفة.

إدارة البيانات للنماذج اللغوية الكبيرة

أفضل شرح لبنية النماذج اللغوية الكبيرة صادفته كان في هذا المقال لـ a16z. وهو شرح ممتاز، لكن بالنسبة لشخص يعمل في إدارة البيانات والخصوصية، فإن ذلك الجزء في أعلى اليسار من المخطط "البيانات السياقية ← مسارات البيانات" ينقصه عنصر مهم: إدارة البيانات.

وعند إضافة إدارة البيانات من IBM، سيبدو ذلك الجزء كما يلي:

حل إدارة البيانات المدعوم من IBM® Knowledge Catalog يقدم عدة قدرات تساعد على تسهيل اكتشاف البيانات، وجودة البيانات الآلية، وحماية البيانات. يمكنك:

  • اكتشاف البيانات وإضافة سياق الأعمال تلقائيًا لتحقيق الفهم المتسق
  • إنشاء مخزون قابل للتدقيق للبيانات عن طريق فهرسة البيانات لتمكين اكتشاف البيانات ذاتية الخدمة
  • تحديد البيانات الحساسة وحمايتها بشكل استباقي لمعالجة متطلبات خصوصية البيانات والمتطلبات التنظيمية

الخطوة الأخيرة أعلاه هي الخطوة التي غالبًا ما يتم تجاهلها: تنفيذ أسلوب تعزيز الخصوصية. والسؤال هو: كيف نزيل الأجزاء الحساسة قبل تغذية البيانات للذكاء الاصطناعي؟ يمكنك تقسيم ذلك إلى ثلاث خطوات:

  1. تحديد العناصر الحساسة للبيانات التي تحتاج إلى إزالة (تلميح: يتم تحديد ذلك في أثناء اكتشاف البيانات ويرتبط بـ "سياق" البيانات)
  2. إخراج البيانات الحساسة بطريقة لا تزال تسمح باستخدام البيانات (على سبيل المثال، تحافظ على السلامة المرجعية، والتوزيعات الإحصائية المكافئة تقريبًا، وما إلى ذلك).
  3. الاحتفاظ بسجل لما حدث في 1) و2) بحيث تتبع هذه المعلومات البيانات في أثناء استهلاكها من قِبل النماذج. ويُعدّ هذا التتبع مفيدًا لإمكانية التدقيق.

بناء أساس خاضع للإدارة للذكاء الاصطناعي التوليدي مع IBM watsonx ونسيج البيانات

مع IBM® watsonx، حققت IBM تقدمًا سريعًا لوضع قوة الذكاء الاصطناعي التوليدي في أيدي منشئي الذكاء الاصطناعي. IBM watsonx.ai هو استوديو جاهز للمؤسسات، يجمع بين التعلم الآلي التقليدي (ML) وقدرات ذكاء اصطناعي توليدي جديدة مدعومة من النماذج الأساس. يتضمن watsonx أيضًا watsonx.data، وهو مخزن بيانات مناسب للغرض مبني على بنية مستودع بحيرة مفتوحة. ويدعم الاستعلام والحكومة وتنسيقات البيانات المفتوحة للوصول إلى البيانات عبر السحابة الهجينة ومشاركتها.

يُعد الأساس القوي للبيانات مهمًا للغاية لنجاح تطبيقات الذكاء الاصطناعي. بفضل نسيج البيانات من IBM، يمكن للعملاء بناء البنية التحتية المناسبة للبيانات من أجل الذكاء الاصطناعي باستخدام قدرات تكامل البيانات وإدارة البيانات اللازمة للحصول على البيانات وإعدادها وتنظيمها قبل الوصول إليها من قِبل منشئي الذكاء الاصطناعي بسهولة باستخدام watsonx.ai وwatsonx.data.

تقدم IBM حل نسيج البيانات القابل للتركيب كجزء من مجموعة مفتوحة وقابلة للتوسعة من منتجات الذكاء الاصطناعي التي يمكن نشرها على سحابات الطرف الثالث. ويشمل هذا الحل إدارة البيانات، والتكامل، وإمكانية ملاحظة البيانات، ودورة حياة البيانات، وجودة البيانات، وحل الكيانات، وقدرات إدارة خصوصية البيانات.

البدء في إدارة البيانات للذكاء الاصطناعي للمؤسسات

نماذج الذكاء الاصطناعي، وخاصة النماذج اللغوية الكبيرة، ستكون واحدة من أكثر التقنيات تحولًا في العقد القادم. ومع فرض اللوائح الجديدة المتعلقة بالذكاء الاصطناعي بإرشادات حول استخدام الذكاء الاصطناعي، من الضروري ليس فقط إدارة نماذج الذكاء الاصطناعي وتنظيمها، بل - وبالقدر نفسه من الأهمية - إدارة البيانات التي تدخل في الذكاء الاصطناعي.

حلول ذات صلة
™IBM® watsonx.governance

يمكنك إدارة نماذج الذكاء الاصطناعي من أي مكان ونشرها على السحابة أو بشكل محلي باستخدام IBM watsonx.governance.

اكتشف watsonx.governance
حلول حوكمة الذكاء الاصطناعي

اكتشف كيف يمكن لحوكمة الذكاء الاصطناعي أن تساعد في زيادة ثقة موظفيك في الذكاء الاصطناعي، وتسريع الاعتماد عليه وتعزيز الابتكار، بالإضافة إلى تحسين ثقة العملاء.

اكتشف حلول حوكمة الذكاء الاصطناعي
خدمات استشارات إدارة الذكاء الاصطناعي

تمكَّن من الاستعداد لقانون الذكاء الاصطناعي في الاتحاد الأوروبي ووضع نهج حوكمة مسؤول للذكاء الاصطناعي بمساعدة IBM Consulting.

اكتشف خدمات إدارة الذكاء الاصطناعي
اتخِذ الخطوة التالية

يمكنك توجيه الذكاء الاصطناعي الذي تستخدمه وإدارته ومراقبته باستخدام محفظة واحدة لتسريع تنفيذ الذكاء الاصطناعي المسؤول والشفاف والقابل للتفسير.

استكشف watsonx.governance احجز عرضًا توضيحيًا مباشرًا