أهمية استيعاب البيانات ودمجها للذكاء الاصطناعي في المؤسسات

شابة وزميلها يكتبان أفكارًا على ملاحظات لاصقة

دفع ظهور الذكاء الاصطناعي التوليدي العديد من الشركات البارزة إلى تقييد استخدامه بسبب سوء التعامل مع البيانات الداخلية الحساسة. وفقًا لشبكة CNN، فرضت بعض الشركات حظرًا داخليًا على أدوات الذكاء الاصطناعي التوليدي في أثناء سعيها إلى فهم التقنية بشكل أفضل، كما حظرت العديد منها أيضًا استخدام ChatGPT داخل الشركة.

تستمر الشركات في كثير من الأحيان في تقبل مخاطر استخدام البيانات الداخلية عند استكشاف النماذج اللغوية الكبرى (LLMs)، وذلك لأن هذه البيانات السياقية هي ما يُمكّن النماذج اللغوية الكبرى من التحول من المعرفة العامة إلى معرفة خاصة بالمجال. في دورة تطوير الذكاء الاصطناعي التوليدي أو الذكاء الاصطناعي التقليدي، تمثل عملية استيعاب البيانات نقطة الدخول. وهنا، يمكن جمع البيانات غير المنسقة والمصممة خصوصًا لمتطلبات الشركة ومعالجتها مسبقًا وإخفائها وتحويلها إلى تنسيق مناسب للنماذج اللغوية الكبرى أو غيرها من النماذج. حاليًا، لا توجد عملية موحدة للتغلب على تحديات استيعاب البيانات، لكن دقة النماذج تعتمد عليها.

أحدث الأخبار التقنية، مدعومة برؤى خبراء

ابقَ على اطلاع دومًا بأهم—اتجاهات المجال وأكثرها إثارة للفضول—بشأن الذكاء الاصطناعي والأتمتة والبيانات وغيرها الكثير مع نشرة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! أنت مشترك.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

4 مخاطر لسوء استيعاب البيانات

  1. توليد معلومات مضللة: عندما تدريب النماذج اللغوية الكبرى على بيانات فاسدة (بيانات تحتوي على أخطاء أو أوجه عدم دقة)، يمكن أن تولد إجابات غير صحيحة، ما يؤدي إلى صناعة قرار معيبة واحتمالية حدوث مشكلات متتالية.
  2. زيادة التباين: يقيس التباين مدى الاتساق. يمكن أن تؤدي البيانات غير الكافية إلى إجابات متباينة بمرور الوقت، أو إلى قيم خارجية مضللة، ما يؤثر بشكل خاص في مجموعات البيانات الأصغر. قد يشير التباين العالي في النموذج إلى أن النموذج فعال مع بيانات التدريب ولكنه غير ملائم لحالات الاستخدام الفعلية في الصناعة.
  3. محدودية نطاق البيانات والإجابات غير التمثيلية: عندما تكون مصادر البيانات مقيدة أو متجانسة أو تحتوي على تكرارات خاطئة، فإن الأخطاء الإحصائية مثل التحيز في أخذ العينات يمكن أن تؤدي إلى انحراف جميع النتائج. قد يتسبب هذا في استبعاد النموذج لمناطق أو أقسام أو ديموغرافيات أو صناعات أو مصادر بأكملها من المحادثات.
  4. تحديات تصحيح البيانات المتحيزة: إذا كانت البيانات متحيزة منذ البداية، فإن "الطريقة الوحيدة لإزالة جزء من تلك البيانات بأثر رجعي هي إعادة تدريب الخوارزمية من الصفر ". يصعب على النماذج اللغوية الكبرى محو الإجابات المشتقة من البيانات غير التمثيلية أو الملوثة عندما تكون البيانات متجهة. تميل هذه النماذج إلى تعزيز فهمها بناءً على الإجابات المجمعة مسبقًا.

يجب إجراء عملية استيعاب البيانات بشكل صحيح منذ البداية، حيث يمكن أن يؤدي سوء إجرائها إلى ظهور مجموعة من المشكلات الجديدة. يمكن مقارنة عمليات تأسيس بيانات التدريب في نماذج الذكاء الاصطناعي بقيادة طائرة. إذا انحرفت زاوية الإقلاع درجة واحدة، فقد تهبط في قارة أخرى غير التي تتوقعها.

يعتمد مسار الذكاء الاصطناعي التوليدي بأكمله على مسارات البيانات التي تُمكّنه، ما يجعل من الضروري اتخاذ الاحتياطات اللازمة.

أكاديمية الذكاء الاصطناعي

هل تعد إدارة البيانات هي سر الذكاء الاصطناعي التوليدي؟

استكشف سبب أهمية البيانات عالية الجودة للاستخدام الناجح للذكاء الاصطناعي التوليدي.

4 عناصر رئيسية لضمان موثوقية عملية استيعاب البيانات

  1. جودة البيانات وإدارتها: تعني جودة البيانات ضمان أمن مصادر البيانات والحفاظ على شمولية البيانات وتوفير بيانات وصفية واضحة. قد يستلزم ذلك أيضًا استخدام بيانات جديدة من خلال طرق مثل استخلاص البيانات من الويب أو التحميل. إدارة البيانات هي عملية مستمرة في دورة حياة البيانات تساعد على ضمان الامتثال للقوانين وأفضل الممارسات بالشركة.
  2. تكامل البيانات: تُمكّن هذه الأدوات الشركات من دمج مصادر البيانات المتباينة في موقع واحد آمن. ومن الطرق الشائعة طريقة الاستخراج والتحميل والتحويل (ELT). في نظام ELT، تُحدد مجموعات البيانات من المستودعات المنعزلة، وتحول ثم تحمل إلى تجمعات بيانات المصدر أو الهدف. تسهل أدوات ELT مثل IBM® DataStage عمليات التحول السريعة والآمنة من خلال محركات المعالجة المتوازية. في عام 2023، كانت المؤسسة العادية تتلقى مئات من تدفقات البيانات المتباينة، ما يجعل عمليات تحويل البيانات بكفاءة ودقة أمرًا بالغ الأهمية لتطوير نماذج الذكاء الاصطناعي التقليدية والجديدة.
  3. تنظيف البيانات والمعالجة المسبقة: يتضمن ذلك تنسيق البيانات لتلبية المتطلبات المحددة لتدريب النماذج اللغوية الكبيرة أو أدوات التنسيق أو أنواع البيانات. يمكن تقسيم البيانات النصية أو ترميزها بينما يمكن تخزين بيانات الصور كتضمينات. يمكن تنفيذ عمليات تحويل شاملة باستخدام أدوات تكامل البيانات. كما قد تكون هناك حاجة لمعالجة البيانات غير المنسقة مباشرة عن طريق حذف التكرارات أو تغيير أنواع البيانات.
  4. تخزين البيانات: بعد تنظيف البيانات ومعالجتها، يظهر تحدي تخزين البيانات. معظم البيانات تُستضاف إما على السحابة أو في البيئات المحلية، ما يتطلب من الشركات اتخاذ قرارات بشأن مكان تخزين بياناتها. من المهم الحذر عند استخدام النماذج اللغوية الكبرى الخارجية للتعامل مع المعلومات الحساسة مثل البيانات الشخصية أو المستندات الداخلية أو بيانات العملاء. ومع ذلك، تؤدي النماذج اللغوية الكبرى دورًا مهمًا في ضبط أو تنفيذ نهج قائم على التوليد المعزز بالاسترجاع (RAG). وللحد من المخاطر، ينبغي تشغيل أكبر عدد ممكن من عمليات تكامل البيانات على الخوادم الداخلية. يتمثل أحد الحلول المحتملة في استخدام خيارات وقت التشغيل عن بُعد.

اشرع في عملية استيعاب البيانات لديك مع IBM

تعمل IBM DataStage على تبسيط تكامل البيانات من خلال الجمع بين أدوات مختلفة، ما يسمح لك بسحب البيانات اللازمة لنماذج تدريب الذكاء الاصطناعي في بيئة السحابة الهجينة وتنظيمها وتحويلها وتخزينها من دون عناء. يمكن لموظفي البيانات على اختلاف مستوى مهاراتهم التفاعل مع الأداة باستخدام واجهات المستخدم الرسومية منعدمة التعليمات البرمجية أو الوصول إلى واجهات برمجة التطبيقات ذات التعليمات البرمجية المخصصة والموجهة.

يوفر خيار وقت تشغيل عن بُعد الجديد DataStage as a Service Anywhere مرونة في تشغيل عمليات تحويل البيانات لديك. فهو يُمكِّنك من استخدام المحرك الموازي من أي مكان، ما يمنحك تحكمًا غير مسبوق في موقعه. يبدو DataStage as a Service Anywhere مثل حاوية خفيفة الوزن، ما يسمح لك بتشغيل جميع إمكانات تحويل البيانات في أي بيئة. وذلك يسمح لك بتجنب العديد من مخاطر سوء استيعاب البيانات في أثناء تشغيل عمليات تكامل البيانات وتنظيفها ومعالجتها مسبقًا داخل السحابة الخاصة الافتراضية. بفضل DataStage، يمكنك التحكم بالكامل في الأمان وجودة البيانات وفعاليتها، ما يلبي احتياجاتك من البيانات لمبادرات الذكاء الاصطناعي التوليدي.

على الرغم من أنه لا توجد حدود لما يمكن تحقيقه باستخدام الذكاء الاصطناعي التوليدي، إلا أن هناك حدودًا للبيانات التي يستخدمها النموذج—وقد تُحدث تلك البيانات كل الفرق.

حلول ذات صلة
برمجيات وحلول إدارة البيانات

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

استكشف حلول إدارة البيانات
IBM watsonx.data

يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.

اكتشف watsonx.data
خدمات الاستشارات في مجال البيانات والتحليلات

استفِد من قيمة بيانات المؤسسة باستخدام IBM Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.

اكتشف خدمات التحليلات
اتخِذ الخطوة التالية

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

استكشف حلول إدارة البيانات اكتشف watsonx.data