إعادة تقييم إدارة البيانات في عصر الذكاء الاصطناعي التوليدي

أربعة زملاء يجلسون ويقفون حول طاولة في مكتب فيه نوافذ عالية

مؤلف

Geoff Baird

Associate Partner

Data & Technology Transformation

أدى الذكاء الاصطناعي التوليدي إلى تغيير صناعة التكنولوجيا من خلال التسبب في ظهور مخاطر جديدة تؤثر في البيانات، مثل تسرب البيانات الحساسة من خلال النماذج اللغوية الكبيرة (LLMs) وزيادة متطلبات الهيئات التنظيمية والحكومات. وللتعامل مع هذه البيئة بنجاح، من المهم أن تنظر المؤسسات إلى المبادئ الأساسية لإدارة البيانات. والتأكد من أنها تستخدم نهجًا سليمًا لتعزيز النماذج اللغوية الكبيرة من خلال بيانات المؤسسات/البيانات غير العامة.

يستحسن أن نبدأ بتحديث طريقة إدارة المؤسسة للبيانات، خاصةً فيما يتعلق باستخدامها في حلول الذكاء الاصطناعي التوليدي. على سبيل المثال:

  • التحقق من صحة قدرات حماية البيانات وإنشائها: يجب تهيئة منصات البيانات لمستويات أعلى من الحماية والمراقبة. يتطلب هذا الأمر قدرات تقليدية مثل التشفير وإخفاء الهوية والترميز، ويتطلب أيضًا إنشاء قدرات لتصنيف البيانات تلقائيًا (الحساسية ومواءمة التصنيف) باستخدام التعلم الآلي. يمكن لأدوات اكتشاف البيانات وفهرستها أن تكون مفيدة، ولكن يجب تعزيزها لجعل التصنيف خاصًا بفهم المؤسسة لبياناتها. يتيح ذلك للمؤسسات إمكانية تطبيق السياسات الجديدة بفعالية وسد الفجوة بين الفهم المفاهيمي للبيانات وواقع كيفية تطبيق حلول البيانات.
  • تحسين الضوابط وقابلية التدقيق والرقابة: يتطلب الوصول إلى بيانات المؤسسة واستخدامها وتعاون الأطراف الثالثة معها إنشاء تصاميم جديدة باستخدام الحلول الحالية. على سبيل المثال، يمكنك توثيق جزء من المتطلبات اللازمة لضمان الاستخدام المصرح به للبيانات. ولكن الشركات تحتاج إلى مسارات تدقيق كاملة وأنظمة مراقبة. الغرض من ذلك هو تتبع كيفية استخدام البيانات ومتى يتم تعديلها وما إذا كانت تُشارك عبر تفاعلات الأطراف الثالثة؛ ويشمل ذلك حلول الذكاء الاصطناعي التوليدي وحلول الذكاء الاصطناعي غير التوليدي على حد سواء. لم يعد يكفي التحكم في البيانات عن طريق تقييد الوصول إليها فحسب، بل يجب علينا أيضًا تتبع حالات الاستخدام التي يتم من أجلها الوصول للبيانات وتطبيقها ضمن الحلول التحليلية والتشغيلية. يجب على فرق البنية التحتية وإدارة البيانات تطوير تنبيهات آلية وتقارير عن الوصول والاستخدام غير المناسب (يُقاس بتحليل الاستعلام والنقل غير المصرح للبيانات وحركة الشبكة)، ومراجعتها بانتظام لضمان الامتثال بشكل استباقي.
  • إعداد البيانات للذكاء الاصطناعي التوليدي: هناك ابتعاد عن أنماط إدارة البيانات التقليدية ومهاراتها، ويتطلب ذلك انضباطًا جديدًا لضمان جودة البيانات ودقتها وملاءمتها لتدريب النماذج اللغوية وتعزيزها لاستخدام الذكاء الاصطناعي. ومع شيوع قواعد بيانات المتجهات في مجال الذكاء الاصطناعي التوليدي، يجب تعزيز إدارة البيانات لمراعاة منصات إدارة البيانات غير التقليدية. وهذا لضمان تطبيق ممارسات الإدارة نفسها على هذه العناصر البنيوية الجديدة. وتصبح دورة حياة البيانات أكثر أهمية نظرًا لمتطلبات الهيئات التنظيمية بتوفير "قابلية التفسير" في النماذج.

غالبًا ما تكون بيانات الشركات معقدة ومتنوعة ومشتتة عبر مستودعات مختلفة، ما يجعل من الصعب دمجها في حلول الذكاء الاصطناعي التوليدي. ويتفاقم هذا التعقيد بسبب الحاجة إلى ضمان الامتثال التنظيمي وتخفيف المخاطر ومعالجة فجوات المهارات في أنماط تكامل البيانات والتوليد المعزز بالاسترجاع (RAG). علاوة على ذلك، غالبًا ما تكون البيانات فكرة متأخرة في تصميم حلول الذكاء الاصطناعي التوليدي ونشرها، ما يؤدي إلى عدم الكفاءة وظهور التناقضات.

إطلاق العنان للإمكانات الكاملة لبيانات المؤسسة للذكاء الاصطناعي التوليدي

في IBM، طورنا نهجًا لحل تحديات البيانات هذه. مصنع IBM لاستيعاب بيانات الذكاء الاصطناعي التوليدي هو خدمة مُدارة مصممة لمعالجة "مشكلة البيانات" الخاصة بالذكاء الاصطناعي وإطلاق العنان للإمكانات الكاملة لبيانات المؤسسة لأغراض الذكاء الاصطناعي التوليدي. إن بنيتنا المُعرَّفة مسبقًا ومخططاتنا الرمزية التي يمكن نشرها بصفتها خدمة مُدارة تُبسِّط عملية دمج بيانات المؤسسة في حلول الذكاء الاصطناعي التوليدي وتُسرِّعها. نحن نتعامل مع هذه المشكلة مع أخذ إدارة البيانات في الحسبان، مُعدِّين البيانات للإدارة والمخاطر والامتثال من البداية. 

تشمل قدراتنا الأساسية ما يلي:

  • استيعاب البيانات القابل للتوسع: الخدمات القابلة لإعادة الاستخدام لتوسيع نطاق استيعاب البيانات والتوليد المعزز بالاسترجاع (RAG) عبر حالات استخدام الذكاء الاصطناعي التوليدي وحلوله، مع تحسين أنماط التقطيع والتضمين.
  • التنظيم والامتثال: يتم إعداد البيانات لاستخدام الذكاء الاصطناعي التوليدي بطريقة تلبي اللوائح الحالية والمستقبلية، ما يساعد الشركات على تلبية متطلبات الامتثال للوائح السوق التي تركز على الذكاء الاصطناعي التوليدي.
  • إدارة خصوصية البيانات: يمكن إخفاء هوية النص الطويل عند اكتشافه، ما يقلل من المخاطر ويضمن خصوصية البيانات.

تتسم الخدمة بالحيادية، ما يسمح بالنشر في أي مكان، كما أنها توفر التخصيص لبيئات العملاء وحالات الاستخدام. باستخدام مصنع IBM لاستيعاب بيانات الذكاء الاصطناعي التوليدي، يمكن للمؤسسات تحقيق العديد من النتائج الرئيسية، بما في ذلك:

  • تقليل الوقت المستغرق في تكامل البيانات: خدمة مُدارة تقلل من الوقت والجهد اللازمين لحل "مشكلة البيانات" الخاصة بالذكاء الاصطناعي. على سبيل المثال، استخدام عملية قابلة للتكرار لـ "تقسيم" البيانات و"تضمينها"، بحيث لا تتطلب جهود تطوير لكل حالة استخدام جديدة للذكاء الاصطناعي التوليدي.
  • الاستخدام الممتثل للبيانات: المساعدة في الامتثال للوائح استخدام البيانات التي تركز على تطبيقات الذكاء الاصطناعي التوليدي المنشورة من قِبَل المؤسسة. على سبيل المثال، ضمان اعتماد البيانات التي يتم الحصول عليها من أنماط التوليد المعزز بالاسترجاع (RAG) للاستخدام المؤسسي في حلول الذكاء الاصطناعي التوليدي.
  • التخفيف من المخاطر: تقليل المخاطر المرتبطة بالبيانات المستخدمة في حلول الذكاء الاصطناعي التوليدي. على سبيل المثال، إن توفير نتائج شفافة حول مصدر البيانات التي تم استخدامها لإنتاج مخرج من النموذج يقلل من مخاطر النموذج ومن الوقت المستغرق في إثبات مصدر المعلومات للجهات التنظيمية.
  • نتائج متسقة وقابلة للتكرار: تقديم نتائج متسقة وقابلة للتكرار من حلول النماذج اللغوية الكبيرة والذكاء الاصطناعي التوليدي. على سبيل المثال، التقاط دورة الحياة ومقارنة المخرجات (أي البيانات المولدة) بمرور الوقت للإبلاغ عن الاتساق من خلال المقاييس القياسية مثل ROUGE وBLEU.

يتطلب التعامل مع تعقيدات مخاطر البيانات خبرة متعددة الوظائف. يتمتع فريقنا من المنظمين السابقين وقادة الصناعات والخبراء التقنيين في IBM Consulting بوضع فريد يتيح لهم التعامل مع هذا الأمر من خلال خدماتنا وحلولنا الاستشارية. 

 
اتخِذ الخطوة التالية

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

استكشف حلول إدارة البيانات اكتشف watsonx.data