اختيار النموذج في التعلم الآلي هو عملية اختيار نموذج التعلم الآلي (نموذج ML) الأكثر ملاءمة للمهمة المحددة. عادةً ما يكون النموذج المُختار هو الذي يتمتع بأفضل قدرة على التعميم على البيانات غير المرئية، مع تلبية أكبر قدر ممكن من مقاييس أداء النموذج ذات الصلة.
تُعَد عملية اختيار نموذج التعلم الآلي (ML) مقارنةً بين نماذج مختلفة من مجموعة من المرشحين. يقوم متخصصو التعلم الآلي بتقييم كيفية أداء كل نموذج من نماذج التعلم الآلي، ثم اختيار النموذج الأفضل بناءً على مجموعة من مقاييس التقييم.
يكمن جوهر معظم مهام التعلم الآلي في التحدي المتمثِّل في التعرُّف على الأنماط في البيانات، ثم استخدام هذه الأنماط للتنبؤ بالبيانات الجديدة. يؤدي اختيار النموذج التنبؤي الأفضل أداءً إلى تنبؤات أكثر دقة وتطبيق أكثر موثوقية للتعلم الآلي.
يُعَد اختيار نموذج الذكاء الاصطناعي أمرًا مهمًا؛ لأنه يحدِّد مدى أداء نظام التعلم الآلي. كل نموذج له نقاط قوة ونقاط ضعف، واختيار النموذج المناسب يؤثِّر بشكل مباشر في نجاح المشروع. يُعَد اختيار النموذج مرحلة مبكرة في مسار التعلم الآلي الأكبر لإنشاء نماذج التعلم الآلي ونشرها.
تتطلب بعض المهام نماذج معقدة يمكنها التقاط تفاصيل مجموعة بيانات كبيرة، ولكنها قد تواجه صعوبة في تعميمها على البيانات الجديدة. وقد تأتي أيضًا مع متطلبات حوسبة وموارد أعلى. هناك مهام أخرى أفضل للنماذج الصغرى والبسيطة المصممة لغرض محدد واحد.
اختيار النموذج المناسب للمهمة قد يؤدي إلى:
تحسين الكفاءة: النموذج الأقوى بين جميع النماذج المرشَّحة هو الذي سيحقق التوازن بين الأداء والقدرة على التعميم من ناحية، والتعقيد واستخدام الموارد من ناحية أخرى.
تعزيز أداء النموذج: تكون الأداة قوية بقدر المهمة التي يتم تطبيقها عليها. يكشف اختبار النماذج المرشَّحة وتقييمها عن النموذج الأفضل أداءً للوظيفة، ما يمنح تطبيق الذكاء الاصطناعي أفضل فرصة لتحقيق الجدوى في العالم الحقيقي.
تعزيز نجاح المشروع: يؤثِّر تعقيد النموذج بشكل مباشر في وقت التدريب ومتطلبات الموارد بالإضافة إلى النتائج. تتراوح النماذج التنبؤية من البسيطة إلى المعقدة. تُعتبر النماذج البسيطة أسرع وأرخص في التدريب، بينما تتطلب النماذج المعقدة المزيد من البيانات والمال والوقت.
تم تصميم عملية اختيار النموذج لإنتاج نموذج مخصص يناسب حالة الاستخدام المستهدفة. يقوم المتخصصون في التعلم الآلي بتحديد المشكلة، ثم الاختيار من بين أنواع النماذج التي من المرجَّح أن تحقق أداءً جيدًا، وأخيرًا تدريب واختبار النماذج المرشَّحة لتحديد أفضل خيار بشكل عام.
تتضمن مراحل عملية اختيار النموذج عادةً ما يلي:
تحديد تحدي التعلم الآلي
اختيار النماذج المرشَّحة
تحديد مقاييس تقييم النموذج
تدريب النموذج وتقييمه
اعتمادًا على طبيعة المهمة، تُعَد بعض خوارزميات التعلم الآلي خيارات أفضل من غيرها. تنقسم تحديات التعلم الآلي عادةً إلى واحدة من ثلاث فئات:
مشكلات الانحدار: تعمل نماذج المهام على تحديد العلاقات بين ميزات الإدخال ومتغيّر الإخراج المستمر المحدد، مثل السعر. ومن أمثلة مشكلات الانحدار التنبؤ بمعايير الرواتب أو احتمال وقوع الكوارث الطبيعية استنادًا إلى الظروف الجوية. تعتمد تنبؤات النموذج على ميزات الإدخال ذات الصلة، مثل الوقت من العام أو المعلومات الديموغرافية. التنبؤ بالسلاسل الزمنية هو نوع من تحديات الانحدار التي تتنبأ بقيمة متغيّر بمرور الوقت. نماذج السلاسل الزمنية هي فئة نموذجية فعَّالة في الحوسبة متخصصة في هذا التحدي.
تقوم مشكلات التصنيف بفرز نقاط البيانات إلى فئات استنادًا إلى مجموعة من متغيرات الإدخال. تتضمن أمثلة مشكلات التصنيف التعرُّف على الكائنات وعناصر البريد الإلكتروني غير المرغوب فيه. قد تتضمن مجموعة التدريب نقاط بيانات بمخرجات مصنَّفة حتى يتمكن النموذج من تعلُّم الارتباط بين المدخلات والمخرجات. تُعرَف هذه الممارسة باسم التعلم الخاضع للإشراف.
تعمل مشكلات التجميع على تجميع نقاط البيانات بناءً على أوجه التشابه. يختلف التجميع عن التصنيف، حيث إن الهدف هو اكتشاف المجموعات داخل نقاط البيانات، بدلًا من فرز نقاط البيانات إلى فئات معروفة. يجب على النماذج أن تميِّز أوجه التشابه بنفسها في بيئة التعلم غير الخاضع للإشراف. وتقسيم السوق هو مثال على تحدي التجميع.
تقارِن عملية الاختبار بين النماذج المرشَّحة وتقيِّم أداءَها وفقًا لمجموعة من مقاييس التقييم المحددة مسبقًا. على الرغم من وجود العديد من المقاييس، إلا إن بعضها أفضل من غيرها لأنواع معينة من تحديات التعلم الآلي (ML).
تتضمن مقاييس تقييم النموذج للتصنيف ما يلي:
الدقة: النسبة المئوية للتنبؤات الصحيحة من إجمالي التنبؤات التي تم إجراؤها.
التحديد الدقيق: نسبة التنبؤات الإيجابية الحقيقية من بين جميع التنبؤات الإيجابية، لقياس دقة التنبؤات الإيجابية.
الاستدعاء: نسبة التنبؤات الإيجابية الحقيقية بين جميع الحالات الإيجابية الفعلية، لقياس كفاءة النموذج في تحديد الحالات الإيجابية.
درجة F1: تجمع بين الدقة والاستدعاء لإلقاء نظرة شاملة على قدرة النموذج على التعرُّف على الحالات الإيجابية وتصنيفها بشكل صحيح.
مصفوفة الإرباك: تلخِّص أداء نموذج المصنِّف من خلال عرض الإيجابيات الحقيقية والإيجابيات الخاطئة والسلبيات الحقيقية والسلبيات الخاطئة في جدول.
AUC-ROC: رسم بياني يوضِّح معدلات الإيجابيات الحقيقية والإيجابيات الزائفة على شكل منحنى خاصية تشغيل المستقبِل (ROC). تُظهر المساحة أسفل المنحنى (AUC) أداء النموذج.
تتضمن مقاييس تقييم الانحدار ما يلي:
متوسط الخطأ التربيعي (MSE): هو متوسط الفرق بين مربعات الاختلافات بين القيم المتوقعة والقيم الفعلية. يُعَد MSE حساسًا للغاية للقيم المتطرفة ويعاقب بشدة على الأخطاء الكبيرة.
الجذر التربيعي لمتوسط مربع الخطأ (RMSE): الجذر التربيعي لمتوسط الخطأ التربيعي (MSE)، ويعرض معدل الخطأ بنفس وحدات المتغيّر ويزيد من قابلية تفسير المقاييس. يعرض MSE الخطأ نفسه في بالوحدات التربيعية.
متوسط الخطأ المطلق (MAE): متوسط الاختلافات بين القيم الفعلية والقيم المطبَّقة للمتغيّر المستهدف. يُعَد MAE أقل حساسية من MSE.
متوسط النسبة المئوية للخطأ المطلق (MAPE): ينقِل متوسط الخطأ المطلق كنسبة مئوية وليس بوحدات المتغيّر المتوقع، ما يجعل من الأسهل مقارنة النماذج.
R-squared: يُعطي مقياسًا معياريًا لأداء النموذج بين 0 و1. ومع ذلك، يمكن تضخيم قيمة r-squared بشكل مصطنع عن طريق إضافة المزيد من الميزات.
r-squared المعدل: يعكس مساهمات الميزات التي تعمل على تحسين أداء النموذج مع تجاهل الميزات غير ذات الصلة.
علماء البيانات يستعدون لتدريب النموذج وتقييمه من خلال تقسيم البيانات المتاحة إلى عدة مجموعات. يتم استخدام مجموعة بيانات التدريب لتدريب النموذج، حيث تتعلم النماذج المرشَّحة كيفية التعرُّف على الأنماط والعلاقات في نقاط البيانات. بعد ذلك، يتم التحقق من أداء النموذج باستخدام جزء مختلف من مجموعة البيانات.
أبسط وأسرع شكل للاختبار هو تقسيم التدريب والاختبار. يقوم علماء البيانات بتقسيم مجموعة البيانات إلى قسمين، أحدهما للتدريب والآخر للاختبار. لا يتعرض النموذج لتقسيم الاختبار إلا بعد التدريب - تعمل مجموعة الاختبار كبديل للبيانات الجديدة غير المرئية التي سيعالجها النموذج في العالم الحقيقي.
يمكن لمنشئي النماذج الوصول إلى مجموعة واسعة من تقنيات اختيار النماذج. بعضها يتعلق بالإعداد الأوَّلي وهندسة النموذج، ما يؤثِّر بدوره في سلوكه. ويقدِّم البعض الآخر تقييمًا للنموذج أكثر دقة وصرامة أو يتنبأ بكيفية أداء النماذج على مجموعة بيانات محددة.
تشمل تقنيات اختيار النموذج ما يلي:
ضبط المعلمات الفائقة
التحقق المتبادل
التشغيل التمهيدي
معايير المعلومات
ضبط المَعلمات الفائقة هو عملية تحسين المَعلمات الفائقة للنموذج، وهي إعدادات خارجية تحدِّد بنية النموذج وسلوكه. تحتوي النماذج أيضًا على مَعلمات داخلية يتم تحديثها في الوقت الفعلي أثناء التدريب. تحكم المَعلمات الداخلية كيفية معالجة النموذج للبيانات. يمكن أن تحتوي النماذج المعقدة، مثل تلك المستخدمة في الذكاء الاصطناعي التوليدي، على أكثر من تريليون مَعلمة.
ضبط المعلمات الفائقة ليس هو نفسه الضبط الدقيق للنموذج، والذي يحدث عندما يتم تدريب النموذج بشكل أكبر أو تعديله بعد مرحلة التدريب الأوَّلية (المعروفة بالتدريب المسبق).
هناك العديد من تقنيات ضبط المَعلمات الفائقة البارزة ومنها:
البحث الشبكي (Grid search): يتم تدريب كل تركيبة ممكنة من المَعلمات الفائقة، واختبارها وتقييمها. البحث الشبكي هو طريقة شاملة وعملية بالقوة الغاشمة، ومن المرجَّح أن يكتشف أفضل تركيبة ممكنة للمَعلمات الفائقة. ومع ذلك، فإن الأمر يستغرق وقتًا طويلًا ويتطلب الكثير من الموارد.
البحث العشوائي: يتم اختيار عينات من مجموعات المَعلمات الفائقة بشكل عشوائي، مع استخدام كل عينة في المجموعة الفرعية لتدريب واختبار النموذج. يُعَد البحث العشوائي بديلًا للبحث الشبكي عندما يكون الأخير غير ممكن.
التحسين البايزي: يتم استخدام نموذج احتمالي للتنبؤ بمجموعات المَعلمات الفائقة التي من المرجَّح أن تؤدي إلى أفضل أداء للنموذج. التحسين البايزي هو أسلوب تكراري يتحسَّن مع كل جولة من التدريب والاختبار، ويعمل بشكل جيد مع مساحات المَعلمات الفائقة الكبيرة.
في نظام إعادة أخذ العينات للتحقق المتبادل من k-fold، يتم تقسيم البيانات إلى مجموعات k أو طيات. تشتمل بيانات التدريب على مجموعات فرعية k-1، ويتم التحقق من صحة النموذج على المجموعة المتبقية. وتتكرر العملية بحيث تعمل كل مجموعة فرعية كمجموعة تحقُّق من الصحة. يتم أخذ عينات من نقاط البيانات دون استبدال، ما يعني أن كل نقطة بيانات تظهر مرة واحدة لكل تكرار.
يوفر التحقق المتبادل باستخدام K-fold نظرة عامة أكثر شمولًا لأداء النموذج مقارنةً بتقسيم التدريب والاختبار الفردي.
التشغيل التمهيدي هو تقنية إعادة أخذ العينات المشابهة للتحقق المتبادل، إلا إن نقاط البيانات يتم أخذ عينات منها مع الاستبدال. وهذا يعني أن نقاط البيانات التي تم أخذ عينات منها يمكن أن تظهر في طيات متعددة.
تقوم معايير المعلومات بمقارنة درجة تعقيد النموذج مع احتمالاته في الإفراط في ملاءمة مجموعة البيانات أو عدم ملاءمتها. الإفراط في التخصيص يعني أن النموذج يتكيف بشكل وثيق للغاية مع مجموعة التدريب ولا يمكنه التعميم على البيانات الجديدة. نقص التخصيص هو العكس، حيث يكون النموذج غير معقد بدرجة كافية لالتقاط العلاقات بين نقاط البيانات.
يشجع كلٌّ من معيار معلومات أكايك (AIC) ومعيار المعلومات البايزي (BIC) على اعتماد النموذج الأقل تعقيدًا الذي يمكنه التعامل مع مجموعة البيانات بشكل كافٍ.
إن أداء النموذج ليس هو العامل الوحيد الذي يحدِّد ما يجعل النموذج "الأفضل". وقد تكون هناك عوامل أخرى ذات صلة بالقرار بالقدر نفسه، إن لم تكن أكثر.
تُعَد النماذج اللغوية الكبيرة (LLMs) النماذج الأساسية للذكاء الاصطناعي في العديد من تطبيقات الأعمال، مثل وكلاء الذكاء الاصطناعي، والتوليد المعزز بالاسترجاع (RAG) في الإجابة عن الأسئلة، أو روبوتات المحادثة لخدمة العملاء مع توليد النصوص المؤتمت. معالجة اللغة الطبيعية (NLP) هي استخدام خوارزميات التعلم الآلي لفهم وتوليد اللغة البشرية، والنماذج اللغوية الكبيرة هي نوع محدد من نموذج معالجة اللغة الطبيعية.
تتضمن النماذج اللغوية الكبيرة البارزة عائلة GPT من OpenAI -مثل GPT-4o وGPT-3.5، وبعض النماذج وراء ChatGPT- بالإضافة إلى Claude من Anthropic وGemini من Google وLlama 3 من Meta. تمتلك جميع النماذج اللغوية الكبيرة القدرة على التعامل مع المهام المعقدة، ولكن الاحتياجات المحددة لمشروع التعلم الآلي يمكن أن تساعد على النموذج اللغوي الكبير المناسب للوظيفة.
يعود اختيار النموذج اللغوي الكبير المناسب إلى مجموعة من العوامل، ومنها:
