وقت القراءة
معلمات النماذج هي متغيرات التكوين الداخلية لنموذج التعلم الآلي التي تتحكم في كيفية معالجة البيانات وإجراء التنبؤات. يمكن لقيم المعلمات أن تحدد ما إذا كانت مخرجات نموذج الذكاء الاصطناعيتعكس نتائج واقعية—أي كيفية تحويلها لبيانات الإدخال إلى مخرجات مثل النصوص أو الصور المُنشأة.
تقدر خوارزميات التعلم الآلي قيمة معلمات النموذج في أثناء تدريب النموذج. تضبط خوارزمية التعلم أو التحسين المعلمات للحصول على الأداء الأمثل للنموذج عن طريق تقليل الأخطاء أو التكاليف أو دالة الخسارة.
غالبًا ما يخلط الناس بين معلمات النموذج والمعلمات الفائقة. يتحكم كلا النوعين من المعلمات في أداء النموذج، ولكن مع وجود أوجه اختلاف كبيرة.
معلمات النموذج داخلية للنموذج ويقدرها النموذج في أثناء عملية التعلم بناءً على بيانات التدريب. تُحدّث خوارزمية تعلم النموذج قيم المعلمات في أثناء التدريب. تتحكم المعلمات في كيفية تفاعل النموذج مع البيانات الجديدة—على سبيل المثال، كيفية إجراء نموذج التنبؤ للتنبؤات بعد عملية النشر.
المعلمات الفائقة للنموذج خارجية وتُحدد مسبقًا من خلال ضبط المعلمات الفائقة. تضبط بعض المعلمات الفائقة أداء النموذج في أثناء التدريب، مثل معدل التعلم في أثناء الانحدار الاشتقاقي أو عدد الحلقات التدريبية في عملية التدريب.
تحدد المعلمات الفائقة الأخرى شكل النموذج وبنيته، مثل عدد أشجار القرار في غابة عشوائية، أو المجموعات في التجميع بالمتوسطات أو الطبقات المخفية في الشبكة العصبية.
لا تتشارك جميع نماذج التعلم العميق مجموعة معلمات النموذج نفسها. تستخدم النماذج اللغوية الكبرى الأوزان والتحيزات لمعالجة البيانات. وفي الوقت نفسه، فإن نماذج الانحدار الخطي وآلات المتجهات الداعمة (SVMs) لها معلماتها الخاصة، مثل معاملات النموذج الخطي أو متجهات الدعم.
الأوزان هي مقابض التحكم أو إعدادات النموذج الأساسية وتحدد كيفية تقييم النموذج للبيانات الجديدة وإجراء التنبؤات. إنها المعلمات الأساسية للنماذج اللغوية الكبرى وتُحدد في أثناء التدريب. يمكن أن يكون للنماذج اللغوية الكبرى ملايين أو حتى مليارات الأوزان.
الأوزان هي متغيرات عددية تحدد الأهمية النسبية للمزايا في مجموعة البيانات وتأثيرها في المخرجات. في الشبكة العصبية، تحدد الأوزان قوة الروابط بين الخلايا العصبية: أي درجة تأثير خرج إحدى الخلايا العصبية في إدخال الخلية العصبية التالية.
تُمكّن التحيزات الشبكات العصبية من ضبط المخرجات بشكل مستقل عن أوزان النموذج ومدخلاته. في حين أن الوزن هو تكوين متغير، فإن التحيزات هي ثوابت تعمل كحدود أو تعديلات. تساعد التحيزات النماذج على تعميم الأنماط والاتجاهات الأكبر ورصدها عبر مجموعة البيانات.
تستخدم الشبكات العصبية دالة تنشيط لتحديد ما إذا كانت الخلية العصبية تنشط وتُنتج خرجًا أم لا. تعدل التحيزات هذه الدالة، وتعزز المرونة من خلال السماح للخلايا العصبية بالتنشيط بغض النظر عما إذا كان مجموع الإدخالات كافيًا لبدء التنشيط.
يختلف مفهوم معلمات التحيز عن التحيز الخوارزمي، وهو عندما ينتج النموذج نتائج تمييزية. التحيز هو أيضًا مصطلح يطلق على نوع الخطأ الذي ينتج عن افتراض النموذج افتراضًا غير صحيح حول البيانات، ما يؤدي إلى وجود تباين بين القيم المتوقعة والقيم الفعلية.
نظرًا إلى أنها تنظم عملية التدريب، فإن العديد من المعلمات الفائقة تؤثر في التكوين النهائي لمعلمات النموذج. يمكن أن يشمل ذلك ما يلي:
الحلقة التدريبية: تشير إلى عدد الدورات التي تمر من خلالها مجموعة البيانات التدريبية بالكامل عبر النموذج في أثناء التدريب.
حجم الدفعة: كمية بيانات التدريب في كل دورة من دورات التدريب. تُحدّث النماذج أوزانها وتحيزاتها بشكل متكرر بعد كل دفعة.
معدل التعلم: مستوى قدرة النموذج على تحديث أوزانه.
الزخم: هو ميل النموذج إلى تحديث أوزانه في اتجاه عمليات التحديث السابقة نفسه، بدلاً من عكسه في الاتجاه الآخر.
تؤدي المعلمات دورًا حاسمًا في أداء النموذج. فهي تؤثر في كيفية معالجة الخلايا العصبية في الشبكة للبيانات وإنتاج المخرجات. في علم البيانات، تتكون بيانات الإدخال من سمات وخصائص تُعرف بالمزايا. ولكن ليست كل المزايا على القدر نفسه من الأهمية في فهم البيانات وإجراء تنبؤات جيدة.
فكر في نموذج مصمم لتصنيف الحيوانات إما ثدييات أو أسماك. نظرًا إلى أن كلاً من الثدييات والأسماك من الفقاريات، فإن ميزة "الفقاريات" لا تؤثر في تنبؤات النموذج. وفي المقابل، نظرًا إلى أن جميع الأسماك لديها خياشيم على عكس الثدييات، فإن ميزة "لديها خياشيم" أكثر أهمية بالنسبة إلى النموذج.
الأوزان المحددة للمعلومات الأكثر أهمية تُنشئ روابط أقوى بين الخلايا العصبية ذات الصلة. في المقابل، تزيد الروابط الأقوى من أهمية المعلومات التي تمر بين تلك الخلايا العصبية مقارنةً بغيرها.
تؤثر المعلمات أيضًا في أداء النموذج من منظور عملي:
يحدث الإفراط في التخصيص عندما يتناسب النموذج بشكل وثيق مع بيانات تدريبه ولا يمكنه التعميم على البيانات الجديدة. يمكن أن يكون الإفراط في التخصيص أكثر احتمالاً أو أكثر حدة عندما يحتوي النموذج على المزيد من المعلمات—حيث يصبح النموذج مصممًا خصوصًا لمجموعة بيانات تدريبية محددة. يستخدم مصممو النماذج تقنيات مثل التحقق المتبادل وضبط الإسقاط للحد من الإفراط في التخصيص.
يمكن أن تتعامل النماذج كثيرة المعلمات مع المهام الأكثر تعقيدًا. يمنح العدد المتزايد من المعلمات النموذج فهمًا أكثر دقة للبيانات. ولكن كما ذكرنا سابقًا، يمكن أن يؤدي هذا إلى الإفراط في التخصيص.
تؤدي كثرة المعلمات إلى زيادة حجم النموذج وتتطلب المزيد من الموارد الحاسوبية. تحتوي النماذج الفائقة التي تقوم عليها تطبيقات الذكاء الاصطناعي التوليدي الرائدة مثل ChatGPT على مليارات المعلمات وتستهلك كميات هائلة من المياه والكهرباء بينما تكلف ملايين الدولارات للتدريب.
في مناهج التعلّم الآلي التقليدية، تحدد النماذج المعلمات من خلال عملية تدريب مكونة من مرحلتين هما الانتشار الأمامي والعكسي.
الانتشار الأمامي هو حركة البيانات عبر النموذج. تتلقى الخلايا العصبية المعلومات وتحسب الأوزان لتلك الإدخالات وتضيف التحيزات. تحدد دالة التنشيط بعد ذلك ما إذا كانت هذه القيمة كافية لبدء تنشيط الخلايا العصبية. إذا كانت كافية، فإن الخلايا العصبية تنشط وتمرر المخرجات عبر الشبكة. تستمر السلسلة حتى ينتج النموذج الخرج النهائي.
المرحلة الثانية هي الانتشار العكسي. تحسب هذه المرحلة خطأ النموذج: التباين بين مخرجاته والقيم الواقعية. ولفعل ذلك، تقيس خوارزمية تحسين الانحدار الاشتقاقي اشتقاق دالة الخسارة. يُحدّث النموذج أوزانه وتحيزاته بناءً على الاشتقاق، بهدف تقليل دالة الخسارة وتوليد تنبؤات أفضل.
تستمر عملية الانتشار الأمامي والعكسي حتى تقليل دالة الخسارة بنجاح، ما يشير إلى تحقيق الأداء الأمثل للنموذج. يُحكم على أداء النموذج بناءً على مقاييس تقييم النماذج اللغوية الكبرى مثل تماسك النص المُنشأ.
حدد الباحثون في مجال التعلم الآلي مجموعة من التقنيات التي يمكن أن تساعد النماذج على الوصول إلى أفضل تكوين للمعلمات.
يعمل الضبط الدقيق على تكييف النموذج المُدرَّب مع المهام النهائية من خلال تدريبه على مجموعات بيانات أصغر خاصة بالمجال. تُحدّث النماذج المضبوطة بدقة معلماتها بما يكفي لتعلم مهام جديدة مع الاحتفاظ بالقدرة على التعميم.
يضيف التنظيم عقوبة إلى دالة الخسارة لمنع النموذج من تغيير أوزانه بشكل كبير.
ينهي التوقف المبكر التحقق من الصحة عندما لا يظهر النموذج علامات التحسن، ما يحافظ على الموارد ويقلل من فرصة تناقص العوائد.
يشجع التعلم المنقول النماذج على تطبيق المعرفة السابقة على المهام الجديدة، ما يقلل من فرص نسيان ما تعلمته بالفعل.
يحافظ عزل المعلمات على معلمات معينة عند تدريب النماذج على المهام الجديدة، ما يمنعها من تحديثها وربما فقدان المعرفة السابقة.
في إعادة التشغيل بشكل دوري، يُعرض النموذج على "مخزن ذاكرة مؤقت" للبيانات السابقة في أثناء خضوعه للتدريب على مهام جديدة. يُدمج المخزن المؤقت في البيانات الجديدة لتحديث ذاكرة النموذج ومنع تعديلات الوزن المبالغ فيها.
يستبدل التكميم أوزان النموذج المدرّب بقيم أقل دقة، ما يقلل من متطلباته الحاسوبية مع الحفاظ على المعرفة. بشكل عام، التكميم هو عملية تحويل التنسيقات عالية الدقة إلى تنسيقات أقل دقة.
يُقسم التحقق المتبادل بيانات التدريب إلى مجموعات فرعية تُعرف باسم الطيات، واحدة للتدريب والأخرى للاختبار. تتكرر العملية عدة مرات مع مجموعات مختلفة من البيانات.
ضبط المعلمات الفائقة هي عملية تحسين المعلمات الفائقة للنموذج. تؤدي المعلمات الفائقة المثلى إلى قيم مثلى لمعلمات النموذج بعد التدريب.