أدى الذكاء الاصطناعي التوليدي إلى تغيير صناعة التكنولوجيا من خلال التسبب في ظهور مخاطر جديدة تؤثر في البيانات، مثل تسرب البيانات الحساسة من خلال النماذج اللغوية الكبيرة (LLMs) وزيادة متطلبات الهيئات التنظيمية والحكومات. وللتعامل مع هذه البيئة بنجاح، من المهم أن تنظر المؤسسات إلى المبادئ الأساسية لإدارة البيانات. والتأكد من أنها تستخدم نهجًا سليمًا لتعزيز النماذج اللغوية الكبيرة من خلال بيانات المؤسسات/البيانات غير العامة.

يستحسن أن نبدأ بتحديث طريقة إدارة المؤسسة للبيانات، خاصةً فيما يتعلق باستخدامها في حلول الذكاء الاصطناعي التوليدي. على سبيل المثال:

التحقق من صحة قدرات حماية البيانات وإنشائها: يجب تهيئة منصات البيانات لمستويات أعلى من الحماية والمراقبة. يتطلب هذا الأمر قدرات تقليدية مثل التشفير وإخفاء الهوية والترميز، ويتطلب أيضًا إنشاء قدرات لتصنيف البيانات تلقائيًا (الحساسية ومواءمة التصنيف) باستخدام التعلم الآلي. يمكن لأدوات اكتشاف البيانات وفهرستها أن تكون مفيدة، ولكن يجب تعزيزها لجعل التصنيف خاصًا بفهم المؤسسة لبياناتها. يتيح ذلك للمؤسسات إمكانية تطبيق السياسات الجديدة بفعالية وسد الفجوة بين الفهم المفاهيمي للبيانات وواقع كيفية تطبيق حلول البيانات.

تحسين الضوابط وقابلية التدقيق والرقابة: يتطلب الوصول إلى بيانات المؤسسة واستخدامها وتعاون الأطراف الثالثة معها إنشاء تصاميم جديدة باستخدام الحلول الحالية. على سبيل المثال، يمكنك توثيق جزء من المتطلبات اللازمة لضمان الاستخدام المصرح به للبيانات. ولكن الشركات تحتاج إلى مسارات تدقيق كاملة وأنظمة مراقبة. الغرض من ذلك هو تتبع كيفية استخدام البيانات ومتى يتم تعديلها وما إذا كانت تُشارك عبر تفاعلات الأطراف الثالثة؛ ويشمل ذلك حلول الذكاء الاصطناعي التوليدي وحلول الذكاء الاصطناعي غير التوليدي على حد سواء. لم يعد يكفي التحكم في البيانات عن طريق تقييد الوصول إليها فحسب، بل يجب علينا أيضًا تتبع حالات الاستخدام التي يتم من أجلها الوصول للبيانات وتطبيقها ضمن الحلول التحليلية والتشغيلية. يجب على فرق البنية التحتية وإدارة البيانات تطوير تنبيهات آلية وتقارير عن الوصول والاستخدام غير المناسب (يُقاس بتحليل الاستعلام والنقل غير المصرح للبيانات وحركة الشبكة)، ومراجعتها بانتظام لضمان الامتثال بشكل استباقي.

إعداد البيانات للذكاء الاصطناعي التوليدي: هناك ابتعاد عن أنماط إدارة البيانات التقليدية ومهاراتها، ويتطلب ذلك انضباطًا جديدًا لضمان جودة البيانات ودقتها وملاءمتها لتدريب النماذج اللغوية وتعزيزها لاستخدام الذكاء الاصطناعي. ومع شيوع قواعد بيانات المتجهات في مجال الذكاء الاصطناعي التوليدي، يجب تعزيز إدارة البيانات لمراعاة منصات إدارة البيانات غير التقليدية. وهذا لضمان تطبيق ممارسات الإدارة نفسها على هذه العناصر البنيوية الجديدة. وتصبح دورة حياة البيانات أكثر أهمية نظرًا لمتطلبات الهيئات التنظيمية بتوفير "قابلية التفسير" في النماذج.

غالبًا ما تكون بيانات الشركات معقدة ومتنوعة ومشتتة عبر مستودعات مختلفة، ما يجعل من الصعب دمجها في حلول الذكاء الاصطناعي التوليدي. ويتفاقم هذا التعقيد بسبب الحاجة إلى ضمان الامتثال التنظيمي وتخفيف المخاطر ومعالجة فجوات المهارات في أنماط تكامل البيانات والتوليد المعزز بالاسترجاع (RAG). علاوة على ذلك، غالبًا ما تكون البيانات فكرة متأخرة في تصميم حلول الذكاء الاصطناعي التوليدي ونشرها، ما يؤدي إلى عدم الكفاءة وظهور التناقضات.