تتمثل فائدة ضبط التعليمات، مثل معظم تقنيات التخصيص، في أن نماذج LLMs المدربة مسبقًا ليست مهيأة بشكل مثالي للمحادثات أو اتباع التعليمات. بالمعنى الحرفي، لا تجيب نماذج LLMs على الطلبات مباشرة: بل تضيف نصًا إليها. يساعد ضبط التعليمات في جعل هذا النص المضاف أكثر فائدة.
تعمل عملية التدريب المسبق للنماذج التوليدية - نماذج LLMs المستخدمة لتوليد النصوص، مثل Llama 2 من Meta، وGPT من OpenAI، وGemini من Google، وGranite من IBM- على تحسين هذه النماذج للتنبؤ بالكلمة (الكلمات) التالية في تسلسل معين حتى اكتمال النص.
يتم تدريب نماذج LLMs مسبقا باستخدام التعلم الذاتي على مجموعة ضخمة من المحتوى المكتوب. في مرحلة ما قبل التدريب، يتم تزويد النماذج بجزء من نص وتكليفها بشكل متكرر بالتنبؤ بالكلمة التالية في التسلسل حتى نهاية المقطع. بالنسبة لكل تنبؤ، تكون الكلمة التالية الفعلية في الجملة الأصلية بمثابة "حقيقة مرجعية". من خلال خوارزميات التحسين مثل الانحدار المتدرج التي تعمل على تعديل معايير النموذج تدريجيًا - الأوزان والتحيزات المتغيرة التي يتم تطبيقها على العمليات الرياضية التي تحدث في كل عقدة داخل الشبكة العصبية - بطريقة تقرب تنبؤات النموذج من النص الأصلي، "يتعلم" النموذج الأنماط اللغوية الموجودة في بيانات التدريب الخاصة به (وبالتالي، "المعرفة" المنقولة في تلك الأنماط اللغوية).
على الرغم من أن عملية التدريب الأولي هذه تمنح النموذج قدرة رائعة على توليد نصوص لغوية متماسكة، إلا أنها لا تتوافق بالضرورة مع احتياجات المستخدمين العملية. بدون التدريب الدقيق، قد يستجيب نموذج الأساس لتوجيه مثل "علمني كيف أخبز الخبز" بعبارة "في فرن منزلي". هذا رد سليم نحويًا لإكمال الجملة، ولكن ليس ما يريده المستخدم.
ومع ذلك، فإن تدريب نموذج LLM لأي غرض محدد (مثل اتباع التعليمات) من البداية غير عملي. تشير كلمة "الكبيرة" في "النماذج اللغوية الكبيرة" إلى أن هذه النماذج تحتوي غالبًا على مليارات المعلمات، مما يجعل تدريب هذه النماذج من الصفر يتطلب قدرا هائلا من الطاقة والوقت والموارد الحسابية وبيانات التدريب. بالمقابل، يتطلب التدريب الدقيق على نموذج LLM مدرب مسبقًا بيانات أقل بكثير، وخاصة عند استخدام طرق التدريب الدقيق الفعالة من حيث المعلمات (PEFT) مثل التدريب الجزئي أو التكيف منخفض الرتبة (LoRA)،، حيث يتم تقليل المتطلبات الحسابية بشكل كبير.
على الرغم من أنه يمكن تحقيق التدريب الدقيق من خلال أي نموذج من نماذج التعلم الآلي تقريبا، بما في ذلك التعلم المعزز أو التعلم شبه الخاضع للإشراف أو التعلم الإضافي الذاتي، إلا أن ضبط التعليمات يعتمد على التعلم الخاضع للإشراف باستخدام أزواج موسومة من (المدخلات والمخرجات). ما يميز ضبط التعليمات عن غيره من أشكال التدريب الخاضع للإشراف (SFT) هو أن عينات الإدخال في مجموعة بيانات التعليمات تتكون بالكامل من مهام تشبه الطلبات التي قد يقدمها المستخدمون في توجيهاتهم. والمخرجات توضح الاستجابات المثالية لتلك الطلبات. عند تعديل أوزان النموذج لجعل مخرجات نموذج LLM تشبه الأمثلة الموجودة في مجموعة بيانات التعليمات، "يتعلم" نموذج LLM كيفية الاستجابة لتوجيه مثل "علمني كيف أخبز الخبز" بإضافة نص يحتوي على إرشادات فعلية حول خبز الخبز.
وبالتالي فإن ضبط التعليمات يساعد على سد الفجوة بين الهدف الأساسي للنموذج - التنبؤ بالكلمة التالية - وهدف المستخدم المتمثل في جعل النموذج يتبع التعليمات وينفذ المهام المحددة. هذا يجعل سلوك النموذج أكثر فائدة ويمكن التنبؤ به.