استكشاف البيانات الاصطناعية: الوعود والمخاطر والواقع

متخصّصة اختراق إلكتروني تنظر إلى كمبيوتر أثناء عملها في شركة ناشئة

مع إعادة تشكيل الذكاء الاصطناعي للصناعات حول العالم، يواجه المطورون تحديًا غير متوقع: نقصًا في بيانات واقعية عالية الجودة لتدريب نماذجهم التي تزداد تعقيدًا يومًا بعد يوم. يبرز الآن حل محتمل من مصدر غير متوقع؛ بيانات لا وجود لها في الواقع أصلًا.

تكتسب البيانات الاصطناعية، وهي معلومات تُولَّد اصطناعيًا لمحاكاة سيناريوهات العالم الحقيقي، زخمًا متسارعًا في تطوير نماذج الذكاء الاصطناعي. وتَعِد بالقدرة على تجاوز اختناقات البيانات، ومعالجة مخاوف الخصوصية، وتقليل التكاليف. ومع ذلك، ومع تطور هذا المجال، تتصدر المشهد أسئلة حول حدوده وأثره الفعلي في العالم الحقيقي.

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

ظهور البيانات الاصطناعية

تراهن عمالقة شركات التقنية بقوة على البيانات الاصطناعية. أعلنت NVIDIA مؤخرًا عن Nemotron-4 340B، وهي عائلة من النماذج المفتوحة المصممة لتوليد بيانات اصطناعية لتدريب النماذج اللغوية الكبيرة (LLMs) في مختلف الصناعات. تعالج هذه الخطوة تحديًا حاسمًا في تطوير نماذج الذكاء الاصطناعي، يتمثل في التكلفة المرتفعة وصعوبة الوصول إلى مجموعات بيانات قوية.

كتبت NVIDIA في مدونتها: "تضطلع بيانات التدريب عالية الجودة بدورٍ حاسمٍ في أداء النموذج اللغوي المخصص ودقته وجودة الردود التي ينتجها". تتضمن عائلة Nemotron-4 340B نماذج أساسية ونماذج موجهة ونماذج للمكافأة تشكل معًا مسار عمل متكاملًا لتوليد البيانات الاصطناعية وتنقيحها، بما قد يسرّع تطوير النماذج اللغوية الكبيرة (LLMs) القوية والمتخصصة في مجالات بعينها.

يشرح الباحث في IBM Akash Srivastava أنه في سياق النماذج اللغوية الكبيرة (LLMs)، تُولَّد البيانات الاصطناعية في كثير من الأحيان بواسطة نموذج ذكاء اصطناعي واحد من أجل تدريب نموذج آخر أو تخصيصه. ويشير Srivastava إلى أن "الباحثين والمطورين في هذا المجال يستخدمون هذه النماذج لتوليد بيانات لمهام مستهدفة بعينها".

قدّم باحثون من مختبر MIT-IBM Watson AI ومن IBM Research مؤخرًا نهجًا جديدًا لتحسين النماذج اللغوية الكبيرة (LLMs) باستخدام البيانات الاصطناعية. ويهدف هذا النهج، المسمى LAB (المحاذاة واسعة النطاق لروبوتات المحادثة)، إلى تقليل الاعتماد على التوسيمات البشرية وعلى نماذج الذكاء الاصطناعي المملوكة مثل GPT-4.

يعتمد LAB عملية لتوليد بيانات اصطناعية موجَّهة ببنية تصنيفية، إلى جانب إطار تدريب متعدد المراحل. ويذكر الباحثون أن "النماذج المدرَّبة باستخدام LAB يمكن أن تحقق أداءً تنافسيًا عبر عدة معايير مقارنة بالنماذج المدرَّبة على بيانات اصطناعية تقليدية موسومة بشريًا أو مولَّدة بنموذج GPT-4".

ولإثبات فعالية LAB، طوّر الفريق نموذجين هما LABRADORITE-13B وMERLINITE-7B، وقد تفوّقا على النسخ الأخرى المضبوطة ضبطًا دقيقًا من النماذج الأساسية نفسها في العديد من المقاييس الرئيسية. واستخدم الباحثون نموذج Mixtral مفتوح المصدر لتوليد بيانات تدريب اصطناعية، في نهج قد يكون أكثر كفاءة من حيث التكلفة لتعزيز النماذج اللغوية الكبيرة (LLMs).

تمثل جودة البيانات الاصطناعية عاملًا حاسمًا في مدى فعاليتها. يوضح Raul Salles de Padua، مدير هندسة الذكاء الاصطناعي وحوسبة Quantum في شركة Multiverse Computing، أن "دقة البيانات الاصطناعية تُقاس من خلال مقارنتها بالبيانات الواقعية باستخدام اختبارات إحصائية وتحليلية". ويتضمن ذلك تقييم مدى قدرة البيانات الاصطناعية على الحفاظ على الخصائص الإحصائية الرئيسية، مثل المتوسطات والتباينات والارتباطات بين المتغيرات.

ورغم ما تنطوي عليه البيانات الاصطناعية من فرص واعدة، فإنها لا تخلو من التحديات. يشير De Padua إلى أن "التحدي في البيانات الاصطناعية يكمن في إنشاء بيانات تجمع بين الفائدة والحفاظ على الخصوصية". ومن دون تطبيق هذه الضمانات، قد تكشف البيانات الاصطناعية عن تفاصيل شخصية، مما قد يؤدي إلى سرقة الهوية أو التمييز العنصري أو غير ذلك من انتهاكات الخصوصية.

وقد كشفت أبحاث حديثة عن مخاطر محتملة للاعتماد المفرط على البيانات الاصطناعية. فقد كشفت دراسة حديثة نُشرت في مجلة Nature عن ظاهرة تُسمى "انهيار النموذج". فعندما تُدرَّب نماذج الذكاء الاصطناعي مرارًا على نصوص مولدة بالذكاء الاصطناعي، يمكن أن تصبح مخرجاتها أقل اتساقًا وأكثر لا معقولية، مما يثير مخاوف بشأن جدوى استخدام البيانات الاصطناعية على المدى الطويل، خاصة مع تزايد انتشار المحتوى الذي يولّده الذكاء الاصطناعي عبر الإنترنت.

كما تحضر الاعتبارات الأخلاقية بقوة في هذا السياق. ويحذر De Padua من "خطر ألا تعكس البيانات الاصطناعية بدقة تنوع السكان في العالم الحقيقي، مما قد ينتج عنه تحيز في النماذج التي تعجز عن تحقيق أداء عادل عبر المجموعات الديموغرافية المختلفة".

Mixture of Experts | 12 ديسمبر، الحلقة 85

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

مستقبل تدريب نماذج الذكاء الاصطناعي

في التطبيقات الحساسة مثل الرعاية الصحية والمركبات ذاتية القيادة، يمكن للبيانات الاصطناعية أن تضطلع بدور محوري. يشير De Padua إلى أنه "في مجال الرعاية الصحية، تستطيع البيانات الاصطناعية أن تستكمل مجموعة البيانات الحقيقية، مما يتيح نطاقًا أوسع من السيناريوهات لتدريب النماذج، ويعزز قدراتها التشخيصية والتنبؤية". ويضيف فيما يتعلق بالمركبات ذاتية القيادة: "من خلال استخدام البيانات الاصطناعية في التعزيز، يمكن تعريض النماذج لمدى أوسع من الظروف والحالات الاستثنائية التي قد تغيب عن مجموعة البيانات الأصلية".

وبالنظر إلى المستقبل، يرى De Padua أن البيانات الاصطناعية ستستكمل البيانات الحقيقية في تدريب نماذج الذكاء الاصطناعي بدلًا من أن تحل محلها. ويؤكد: "تمثل دقة البيانات الاصطناعية وقدرتها على تمثيل الواقع بدقة عاملين حاسمين. وسوف يسهم التقدم في خوارزميات توليد البيانات في تعزيز موثوقية البيانات الاصطناعية".

ومع تزايد حضور الذكاء الاصطناعي في حياتنا اليومية، من تشخيص الحالات الصحية إلى المركبات ذاتية القيادة، سيصبح تحقيق التوازن بين البيانات الاصطناعية والبيانات الحقيقية في تدريب النماذج مسألة بالغة الأهمية. وسيتمثل التحدي أمام مطوري نماذج الذكاء الاصطناعي في المرحلة المقبلة في تعزيز الاستفادة من البيانات الاصطناعية مع التخفيف من مخاطرها.

ويقول Srivastava: "نحن عند نقطة تحول حاسمة في تطوير الذكاء الاصطناعي. وسيحدد نجاحنا في تحقيق التوازن الصحيح بين البيانات الاصطناعية والبيانات الحقيقية مستقبل الذكاء الاصطناعي، بما يشمل قدراته وحدوده وتأثيره النهائي في المجتمع".

مؤلف

Sascha Brodsky

Staff Writer

IBM

حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا