يعدّ ضبط التعليمات جزءًا من الفئة الأوسع من تقنيات التخصيص (التدريب الدقيق) المستخدمة لتكييف نماذج الأساس المدربة مسبقا لأداء مهام متخصصة. يمكن تخصيص نماذج الأساس لأغراض متعددة، بدءًا من تخصيص الأسلوب مرورًا بتعزيز المعرفة والمفردات الأساسية للنموذج المدرب مسبقًا ووصولًا إلى تحسين الأداء لحالة استخدام معينة. على الرغم من أن التخصيص لا يقتصر على مجال محدد أو بنية معينة لنموذج ذكاء اصطناعي، إلا أنه أصبح جزءا لا يتجزأ من دورة حياة نماذج LLM. على سبيل المثال، يتم تقديم عائلة نموذج Llama 2 من Meta (بأحجام مختلفة) كنموذج أساسي، وكنسخة مخصصة للمحادثة (Llama-2-chat) وكنسخة مخصصة للبرمجة (Code Llama).
ضبط التعليمات ليس حصرًا على تقنيات التخصيص الأخرى. على سبيل المثال، غالبا ما تخضع نماذج المحادثة لكل من ضبط التعليمات والتعلم المعزز من تعليقات البشر (RLHF)، وهي تقنية تخصيص تهدف إلى تحسين صفات مثل المساعدة والصدق. أما النماذج المخصصة للبرمجة، فتخضع عادةً لضبط التعليمات (لتحسين الاستجابة للتعليمات بشكل عام) بالإضافة إلى تخصيص إضافي لبيانات برمجية محددة (لتعزيز معرفة النموذج بصياغة البرمجة والمفردات).
تعود صول نماذج LLMs إلى الورقة البحثية لعام 2017 بعنوان "Attention is All You Need" التي قدمت نموذج المحول واسع النطاق لمهام معالجة اللغة الطبيعية (NLP)، لكن دمج ضبط التعليمات و التعلم RLHF-- المستند إلى أوراق بحثية مؤثرة من Google (في عام 2021)1 وOpenAI (في عام 2022)- 2 - أدى إلى ظهور نماذج LLMs الحديثة التي أطلقت عصر الذكاء الاصطناعي التوليدي، بدءًا بإطلاق ChatGPT.
تتمثل فائدة ضبط التعليمات، مثل معظم تقنيات التخصيص، في أن نماذج LLMs المدربة مسبقًا ليست مهيأة بشكل مثالي للمحادثات أو اتباع التعليمات. بالمعنى الحرفي، لا تجيب نماذج LLMs على الطلبات مباشرة: بل تضيف نصًا إليها. يساعد ضبط التعليمات في جعل هذا النص المضاف أكثر فائدة.
تعمل عملية التدريب المسبق للنماذج التوليدية - نماذج LLMs المستخدمة لتوليد النصوص، مثل Llama 2 من Meta، وGPT من OpenAI، وGemini من Google، وGranite من IBM- على تحسين هذه النماذج للتنبؤ بالكلمة (الكلمات) التالية في تسلسل معين حتى اكتمال النص.
يتم تدريب نماذج LLMs مسبقا باستخدام التعلم الذاتي على مجموعة ضخمة من المحتوى المكتوب. في مرحلة ما قبل التدريب، يتم تزويد النماذج بجزء من نص وتكليفها بشكل متكرر بالتنبؤ بالكلمة التالية في التسلسل حتى نهاية المقطع. بالنسبة لكل تنبؤ، تكون الكلمة التالية الفعلية في الجملة الأصلية بمثابة "حقيقة مرجعية". من خلال خوارزميات التحسين مثل الانحدار المتدرج التي تعمل على تعديل معايير النموذج تدريجيًا - الأوزان والتحيزات المتغيرة التي يتم تطبيقها على العمليات الرياضية التي تحدث في كل عقدة داخل الشبكة العصبية - بطريقة تقرب تنبؤات النموذج من النص الأصلي، "يتعلم" النموذج الأنماط اللغوية الموجودة في بيانات التدريب الخاصة به (وبالتالي، "المعرفة" المنقولة في تلك الأنماط اللغوية).
على الرغم من أن عملية التدريب الأولي هذه تمنح النموذج قدرة رائعة على توليد نصوص لغوية متماسكة، إلا أنها لا تتوافق بالضرورة مع احتياجات المستخدمين العملية. بدون التدريب الدقيق، قد يستجيب نموذج الأساس لتوجيه مثل "علمني كيف أخبز الخبز" بعبارة "في فرن منزلي". هذا رد سليم نحويًا لإكمال الجملة، ولكن ليس ما يريده المستخدم.
ومع ذلك، فإن تدريب نموذج LLM لأي غرض محدد (مثل اتباع التعليمات) من البداية غير عملي. تشير كلمة "الكبيرة" في "النماذج اللغوية الكبيرة" إلى أن هذه النماذج تحتوي غالبًا على مليارات المعلمات، مما يجعل تدريب هذه النماذج من الصفر يتطلب قدرا هائلا من الطاقة والوقت والموارد الحسابية وبيانات التدريب. بالمقابل، يتطلب التدريب الدقيق على نموذج LLM مدرب مسبقًا بيانات أقل بكثير، وخاصة عند استخدام طرق التدريب الدقيق الفعالة من حيث المعلمات (PEFT) مثل التدريب الجزئي أو التكيف منخفض الرتبة (LoRA)،، حيث يتم تقليل المتطلبات الحسابية بشكل كبير.
على الرغم من أنه يمكن تحقيق التدريب الدقيق من خلال أي نموذج من نماذج التعلم الآلي تقريبا، بما في ذلك التعلم المعزز أو التعلم شبه الخاضع للإشراف أو التعلم الإضافي الذاتي، إلا أن ضبط التعليمات يعتمد على التعلم الخاضع للإشراف باستخدام أزواج موسومة من (المدخلات والمخرجات). ما يميز ضبط التعليمات عن غيره من أشكال التدريب الخاضع للإشراف (SFT) هو أن عينات الإدخال في مجموعة بيانات التعليمات تتكون بالكامل من مهام تشبه الطلبات التي قد يقدمها المستخدمون في توجيهاتهم. والمخرجات توضح الاستجابات المثالية لتلك الطلبات. عند تعديل أوزان النموذج لجعل مخرجات نموذج LLM تشبه الأمثلة الموجودة في مجموعة بيانات التعليمات، "يتعلم" نموذج LLM كيفية الاستجابة لتوجيه مثل "علمني كيف أخبز الخبز" بإضافة نص يحتوي على إرشادات فعلية حول خبز الخبز.
وبالتالي فإن ضبط التعليمات يساعد على سد الفجوة بين الهدف الأساسي للنموذج - التنبؤ بالكلمة التالية - وهدف المستخدم المتمثل في جعل النموذج يتبع التعليمات وينفذ المهام المحددة. هذا يجعل سلوك النموذج أكثر فائدة ويمكن التنبؤ به.
يؤدي التدريب الدقيق لنموذج LLM على مجموعة بيانات موسومة تتضمن مهام متنوعة لاتباع التعليمات إلى زيادة قدرة النموذج على اتباع التعليمات بشكل عام، مما يقلل من الحاجة إلى تقديم معلومات داخل السياق لتوجيهات فعالة. يمكن أن تكون مجموعات بيانات التعليمات إما من صنع الإنسان أو مولّدة بواسطة نموذج LLM آخر.
كما أوضحت الورقة البحثية المؤثرة التي نشرتها Google Research في عام 2022 بعنوان "Finetuned Language Models are Zero-Shot Learners"، فإن الهدف من ضبط التعليمات هو تحسين قدرة نماذج LLMs على الاستجابة لتعليمات NLP. ولتحقيق ذلك، فإن ضبط التعليمات "يجمع بين الجوانب الإيجابية لكل من التدريب الأولي،والتدريب الدقيق، والهندسة التوجيهية". بمعنى آخر، من خلال دمج مبادئ الهندسة التوجيهية بشكل طبيعي في التدريب المراقب الدقيق، يقلل ضبط التعليمات من كمية الهندسة التوجيهية وعدد الأمثلة ذات التدريب القليل المطلوبة للحصول على استجابة دقيقة ومفيدة من النموذج المدرب1.
تتألف كل عينة تدريب في مجموعة بيانات التعليمات من ثلاثة عناصر:
أشارت الورقة البحثية من Google إلى أن نموذج LaMDA-PT المعدل باستخدام ضبط التعليمات، والذي يطلق عليه اسم FLAN (لشبكة اللغة المخصصة للتدريب الدقيق)، شهد تحسينات كبيرة في المهام التي تعبر عادة عن التعليمات، مثل الترجمة والإجابة على الأسئلة وفهم القراءة والاستدلال اللغوي الطبيعي (NLI) - وهي مهمة تحديد ما إذا كانت "الفرضية" المقدمة تتبع منطقيا من "الفرضية" المعطاة.
لتوضيح هذا، أشارت ورقة FLAN إلى ملاحظة قدمها Brown وآخرون في الورقة البحثية الصادرة حول نموذج GPT-3 الأصلي في عام 2020: أحد التفسيرات لسبب صعوبة النماذج اللغوية الكبيرة المدربة مسبقًا (LLMs) في التعامل مع مهام مثل الاستدلال اللغوي الطبيعي (NLI) بدون تدريب دقيق إضافي هو أن المقاطع التي تشبه مهمة NLI النموذجية من غير المرجح أن تظهر بشكل طبيعي في مجموعة البيانات غير الموسومة المستخدمة في التدريب الذاتي..3 على النقيض، بالنسبة للمهام التي تتماشى بشكل أوضح مع هدف نمذجة اللغة في التدريب الأولي-مثل مهام المنطق السليم التي تتطلب من النموذج إكمال الجملة بشكل صحيح-تكون التعليمات إلى حد كبير غير ضرورية، وبالتالي يكون تأثير ضبط التعليمات أقل.
ولعل الأهم من ذلك أن الورقة أظهرت أن إضافة مهام جديدة إلى مجموعة بيانات ضبط التعليمات حسّن من أداء النموذج حتى في المهام الجديدة التي لم يتم تمثيلها في مجموعة بيانات التعليمات. وهنا تكمن الميزة الأساسية لضبط التعليمات: تحسين شامل في قدرة النموذج على اتباع التعليمات بشكل عام.
تضمنت دراسة FLAN أيضًا دراسة تحليلية لتحديد ما إذا كانت فوائد ضبط التعليمات الدقيق ناتجة عن التعليمات ذاتها أو تُعزى ببساطة إلى الضبط الدقيق للنموذج على مجموعة من المهام المتنوعة في معالجة اللغة الطبيعية. ولتقييم دور التعليمات في الضبط الدقيق، أجرت الدراسة ضبطًا دقيقًا للنموذج الأساسي على ثلاثة إعدادات مختلفة:
ثم قامت الدراسة الاستئصالية بقياس نتائج كل نموذج لغوي دقيق على سلسلة من مهام اتباع التعليمات بدون تدريب مسبق. حقق النموذج المضبوط بالتعليمات دقة أكبر بنسبة 18٪ مقارنة بالنموذج "بدون قالب"، وبنسبة 8٪ مقارنة بالنموذج "اسم مجموعة البيانات". يشير هذا إلى أن التدريب باستخدام التعليمات أمر بالغ الأهمية لتعزيز الأداء في المهام بدون تدريب مسبق على المهام غير المعروفة.
التفكير المتسلسل (CoT) هو أسلوب يطلب من نماذج LLMs ليس فقط الإجابة عن السؤال بل أيضًا تقديم تفسير حول كيفية وصوله إلى الإجابة. يمكن تحقيق ذلك من خلال التوجيه بخطوات قليلة باستخدام أمثلة للتفكير المتسلسل، أو ببساطة عن طريق إضافة "فكر خطوة بخطوة" إلى نهاية التوجيه. أظهرت الأبحاث أن التفكير المتسلسل يعزز بشكل كبير القدرات في المهام المختلفة مثل الاستدلال الحسابي والاستدلال الرمزي ومهام الاستدلال المنطقي.5 وجد Wei, وآخرون أن ضبط التعليمات الذي لا يتضمن مهام التفكير المتسلسل في مجموعة بيانات التعليمات يؤدي إلى تراجع ملحوظ في أداء النموذج عند التقييم باستخدام التفكير المتسلسل - ولكن إضافة مجموعات بيانات التفكير المتسلسل يحسن الأداء في جميع التقييمات.6
علاوة على ذلك، أظهرت أبحاثهم أن التدريب الدقيق على مهام التفكير المتسلسل-سواء مع أو بدون أمثلة من التوجيه بخطوات قليلة-يزيد من قدرة النموذج على التفكير المتسلسل في إعدادات التوجيه بدون تدريب مسبق. التفسير المنطقي لهذه الميزة هو أن التدريب الدقيق على معالجة المشكلة بخطوات منطقية بدلاً من القفز مباشرة إلى إجابة تبدو متماسكة لغويًا فقط، يساعد النماذج على تعلم إنتاج وتطبيق مهارات التفكير الخاصة بها بشكل أفضل.
توجد العديد من مجموعات البيانات المخصصة لضبط التعليمات للنماذج اللغوية الكبيرة، معظمها منها مفتوح المصدر. يمكن أن تتكون مجموعات البيانات هذه من أزواج تعليمات، مخرجات) مكتوبة مباشرة (أو تم جمعها) بلغة طبيعية، أو تستخدم فيها قوالب لتحويل مجموعات البيانات الموسومة الموجودة إلى تعليمات، أو حتى استخدام نماذج لغوية كبيرة أخرى لتوليد أمثلة.
على الرغم من أن كتابة أزواج (تعليمات، مخرجات) بشكل مباشر يعد أمرًا بسيطًا، إلا أنها عملية تستغرق وقتًا طويلاً وتتطلب جهدًا كبيرًا وتكلفة مرتفعة. تم اقتراح طرق مختلفة لتحويل مجموعات بيانات اللغة الطبيعية إلى تعليمات، عادةً من خلال تطبيق القوالب. وقد ساهمت مجموعات البيانات المفتوحة المصدر التي أنشأها البشر في تقليل تكلفة التدريب الدقيق على البيانات الطبيعية.
تتضمن مجموعات بيانات التعليمات البارزة مفتوحة المصدر التي أنشأها الإنسان ما يلي:
نظرًا للتكلفة العالية والجهد اللازم لتوليد التعليمات والمخرجات يدويًا، تعتمد العديد من مجموعات بيانات ضبط التعليمات على استجابات نماذج LLMs الأكبر لتوليد التوجيهات أو المخرجات أو كليهما. يساهم استخدام مجموعات البيانات التي أنشاها نموذج LLM في تعليم النماذج الأصغر تقليد سلوك النماذج الأكبر، وأحيانًا يتم ذلك بشكل مقصود في إطار علاقة المعلم/المتعلم.
مع زيادة قوة النماذج اللغوية الكبيرة LLMs، تزداد أيضًا فائدة مجموعات البيانات الخاصة بضبط التعليمات التي تم إنشاؤها باستخدام هذه النماذج. في عام 2023، أجريت دراسة بحثية أُعيد فيها تطبيق نهج الضبط الدقيق المستخدم في نموذج Alpaca-الذي ضبط نموذج LLaMA باستخدام تعليمات تم توليدها من InstructGPT. في نفس الوقت، م تكرار العملية باستخدام GPT-4 لتوليد التعليمات. النموذج الناتج، الذي أُطلق عليه اسم LLaMA-GPT4، تفوق بشكل ملحوظ على نظيره Alpaca من حيث درجات "الفائدة"، واقترب من تحقيق أداء مشابه لنموذج GPT-4 نفسه في معايير "الفائدة"، و"الصدق"، و"الأمان".11
على الرغم من أن تقنيات ضبط التعليمات أسفرت عن تقدم ملحوظ في أداء نماذج LLMs، إلا أن هناك حاجة مستمرة لتنويع مجموعات بيانات ضبط التعليمات وتوضيح فوائدها بشكل كامل.
أحد أبرز التحديات في ضبط التعليمات هو إنشاء تعليمات عالية الجودة لاستخدامها في التدريب الدقيق. إن الموارد المطلوبة لإنشاء مجموعة بيانات تعليمات كبيرة بشكل كافٍ جعلت ضبط التعليمات مركزًا على عدد محدود من مجموعات البيانات مفتوحة المصدر، مما قد يقلل من تنوع النماذج. على الرغم من أن استخدام نماذج LLMs المملوكة للشركات لتوليد التعليمات ساعد في تقليل التكاليف، إلا أن هناك جانبًا سلبيًا يتمثل في تعزيز التحيزات وأوجه القصور الموجودة في هذه النماذج عبر نماذج LLMs مفتوحة المصدر. تتفاقم هذه المشكلة بسبب حقيقة أن النماذج المملوكة غالبًا ما تستخدم، في محاولة لتجنب التحيز الذاتي للباحثين البشريين، لتقييم أداء النماذج الأصغر.
على المستوى التقني، أثار بعض الباحثين مخاوف من أن استخدام نماذج أكبر لتحسين النماذج الأصغر قد يساعد النماذج الأصغر على تقليد أسلوب النماذج الأكبر، ولكن دون تحقيق نفس وظائفها الفعلية. أشارت دراسة تجريبية في عام 2023 إلى أن العديد من المكاسب الكبيرة التي تحققت من خلال ضبط التعليمات قد تكون ناتجة عن التقاط أنماط سطحية، بدلاً من تحسين حقيقي في الاستدلال المنطقي..12
وبالمثل، اقترح باحثون آخرون أن بعض التحسينات المبلغ عنها قد تعتمد إلى حد ما على تقييم أداء النماذج المدربة على التعليمات في مهام قريبة جدًا من تلك الموجودة في مجموعة بيانات التدريب. من خلال اختبار أكثر دقة للنماذج المدربة على التعليمات، خلص Gudibande وآخرون إلى أن "الإجراء الأكثر فعالية لتحسين النماذج مفتوحة المصدر هو مواجهة التحدي الصعب المتمثل في تطوير نماذج لغوية أساسية أفضل، بدلاً من سلوك الطريق المختصر لتقليد الأنظمة المملوكة للشركات".13
تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.
استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.
تعلّم كيف يمكن للمديرين التنفيذيين تحقيق التوازن بين القيمة التي يمكن أن يقدمها الذكاء الاصطناعي مقابل الاستثمار الذي يتطلبه والمخاطر التي يثيرها.
تعلّم المفاهيم الأساسية وطوّر مهاراتك من خلال المختبرات العملية والدورات التدريبية والمشاريع الموجهة والتجارب وغيرها.
تعرّف على كيفية دمج الذكاء الاصطناعي التوليدي والتعلّم الآلي بثقة في أعمالك
هل ترغب في زيادة عائد استثماراتك في الذكاء الاصطناعي؟ تعرّف على كيفية تأثير توسيع نطاق الذكاء الاصطناعي التوليدي في المجالات الرئيسية، من خلال مساعدة أفضل العقول لديك على وضع حلول مبتكرة جديدة وطرحها.
ملاحظة: جميع الروابط موجودة خارج موقع ibm.com.
1 "Finetuned Language Models Are Zero-Shot Learners", Google (via arXiv), 3 September 2021 (last revised 8 February 2022).
2 "Aligning language models to follow instructions", OpenAI, 27 January 2022.
3 "Language Models are Few-Shot Learners", arXiv, 22 July 2020.
4 "WMT 2014", Papers With Code, 27 June 2014.
5 "Language Models are Zero-Shot Reasoners", arXiv, 24 May 2022 (last revised 29 January 2023).
6 "Scaling Instruction-Finetuned Language Models", Google (via arXiv), 6 December, 2022.
7 "Alpaca: A Strong, Replicable Instruction-Following Model", Stanford Center for Research on Foundation Models, 13 March 2023.
8 "WizardLM: Empowering Large Language Models to Follow Complex Instructions", arXiv, 10 June 2023.
9 "Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality", LMSYS Org, 30 March 2023.
10 "Orca: Progressive Learning from Complex Explanation Traces of GPT-4", Microsoft, June 2023.
11 "Instruction Tuning with GPT-4", arXiv, 6 April 2023.
12 "Do Models Really Learn to Follow Instructions? An Empirical Study of Instruction Tuning", arXiv, 19 May 2023.
13 "The False Promise of Imitating Proprietary LLMs", arXiv, 25 May 2023.