My IBM Log in اشترك

ما هو ضبط التعليمات؟

5 أبريل 2024

المؤلفين

Dave Bergmann

Senior Writer, AI Models

IBM

ما هو ضبط التعليمات؟

ضبط التعليمات هو تقنية لتخصيص النماذج اللغوية الكبيرة (LLMs) باستخدام مجموعة بيانات موسومة تحتوي على توجيهات ومخرجات مقابلة. تعمل هذه التقنية على تحسين أداء النموذج ليس فقط في المهام المحددة، ولكن أيضًا في اتباع التعليمات بشكل عام، مما يساعد على تكييف النماذج المدربة مسبقًا للاستخدامات العملية.

يعدّ ضبط التعليمات جزءًا من الفئة الأوسع من تقنيات التخصيص (التدريب الدقيق) المستخدمة لتكييف نماذج الأساس المدربة مسبقا لأداء مهام متخصصة. يمكن تخصيص نماذج الأساس لأغراض متعددة، بدءًا من تخصيص الأسلوب مرورًا بتعزيز المعرفة والمفردات الأساسية للنموذج المدرب مسبقًا ووصولًا إلى تحسين الأداء لحالة استخدام معينة. على الرغم من أن التخصيص لا يقتصر على مجال محدد أو بنية معينة لنموذج ذكاء اصطناعي، إلا أنه أصبح جزءا لا يتجزأ من دورة حياة نماذج LLM. على سبيل المثال، يتم تقديم عائلة نموذج Llama 2 من Meta (بأحجام مختلفة) كنموذج أساسي، وكنسخة مخصصة للمحادثة (Llama-2-chat) وكنسخة مخصصة للبرمجة (Code Llama).

ضبط التعليمات ليس حصرًا على تقنيات التخصيص الأخرى. على سبيل المثال، غالبا ما تخضع نماذج المحادثة لكل من ضبط التعليمات والتعلم المعزز من تعليقات البشر (RLHF)، وهي تقنية تخصيص تهدف إلى تحسين صفات مثل المساعدة والصدق. أما النماذج المخصصة للبرمجة، فتخضع عادةً لضبط التعليمات (لتحسين الاستجابة للتعليمات بشكل عام) بالإضافة إلى تخصيص إضافي لبيانات برمجية محددة (لتعزيز معرفة النموذج بصياغة البرمجة والمفردات).

تعود صول نماذج LLMs إلى الورقة البحثية لعام 2017 بعنوان "Attention is All You Need" التي قدمت نموذج المحول واسع النطاق لمهام معالجة اللغة الطبيعية (NLP)، لكن دمج ضبط التعليمات و التعلم RLHF-- المستند إلى أوراق بحثية مؤثرة من Google (في عام 2021)1 وOpenAI (في عام 2022)- 2 - أدى إلى ظهور نماذج LLMs الحديثة التي أطلقت عصر الذكاء الاصطناعي التوليدي، بدءًا بإطلاق ChatGPT.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

لماذا نقوم بضبط تعليمات نماذج LLMs؟

تتمثل فائدة ضبط التعليمات، مثل معظم تقنيات التخصيص، في أن نماذج LLMs المدربة مسبقًا ليست مهيأة بشكل مثالي للمحادثات أو اتباع التعليمات. بالمعنى الحرفي، لا تجيب نماذج LLMs على الطلبات مباشرة: بل تضيف نصًا إليها. يساعد ضبط التعليمات في جعل هذا النص المضاف أكثر فائدة.

تعمل عملية التدريب المسبق للنماذج التوليدية - نماذج LLMs المستخدمة لتوليد النصوص، مثل Llama 2 من Meta، وGPT من OpenAI، وGemini من Google، وGranite من IBM- على تحسين هذه النماذج للتنبؤ بالكلمة (الكلمات) التالية في تسلسل معين حتى اكتمال النص.

يتم تدريب نماذج LLMs مسبقا باستخدام التعلم الذاتي على مجموعة ضخمة من المحتوى المكتوب. في مرحلة ما قبل التدريب، يتم تزويد النماذج بجزء من نص وتكليفها بشكل متكرر بالتنبؤ بالكلمة التالية في التسلسل حتى نهاية المقطع. بالنسبة لكل تنبؤ، تكون الكلمة التالية الفعلية في الجملة الأصلية بمثابة "حقيقة مرجعية". من خلال خوارزميات التحسين مثل الانحدار المتدرج التي تعمل على تعديل معايير النموذج تدريجيًا - الأوزان والتحيزات المتغيرة التي يتم تطبيقها على العمليات الرياضية التي تحدث في كل عقدة داخل الشبكة العصبية - بطريقة تقرب تنبؤات النموذج من النص الأصلي، "يتعلم" النموذج الأنماط اللغوية الموجودة في بيانات التدريب الخاصة به (وبالتالي، "المعرفة" المنقولة في تلك الأنماط اللغوية).

على الرغم من أن عملية التدريب الأولي هذه تمنح النموذج قدرة رائعة على توليد نصوص لغوية متماسكة، إلا أنها لا تتوافق بالضرورة مع احتياجات المستخدمين العملية. بدون التدريب الدقيق، قد يستجيب نموذج الأساس لتوجيه مثل "علمني كيف أخبز الخبز" بعبارة "في فرن منزلي". هذا رد سليم نحويًا لإكمال الجملة، ولكن ليس ما يريده المستخدم.

ومع ذلك، فإن تدريب نموذج LLM لأي غرض محدد (مثل اتباع التعليمات) من البداية غير عملي. تشير كلمة "الكبيرة" في "النماذج اللغوية الكبيرة" إلى أن هذه النماذج تحتوي غالبًا على مليارات المعلمات، مما يجعل تدريب هذه النماذج من الصفر يتطلب قدرا هائلا من الطاقة والوقت والموارد الحسابية وبيانات التدريب. بالمقابل، يتطلب التدريب الدقيق على نموذج LLM مدرب مسبقًا بيانات أقل بكثير، وخاصة عند استخدام طرق التدريب الدقيق الفعالة من حيث المعلمات (PEFT) مثل التدريب الجزئي أو التكيف منخفض الرتبة (LoRA)،، حيث يتم تقليل المتطلبات الحسابية بشكل كبير.

على الرغم من أنه يمكن تحقيق التدريب الدقيق من خلال أي نموذج من نماذج التعلم الآلي تقريبا، بما في ذلك التعلم المعزز أو التعلم شبه الخاضع للإشراف أو التعلم الإضافي الذاتي، إلا أن ضبط التعليمات يعتمد على التعلم الخاضع للإشراف باستخدام أزواج موسومة من (المدخلات والمخرجات). ما يميز ضبط التعليمات عن غيره من أشكال التدريب الخاضع للإشراف (SFT) هو أن عينات الإدخال في مجموعة بيانات التعليمات تتكون بالكامل من مهام تشبه الطلبات التي قد يقدمها المستخدمون في توجيهاتهم. والمخرجات توضح الاستجابات المثالية لتلك الطلبات. عند تعديل أوزان النموذج لجعل مخرجات نموذج LLM تشبه الأمثلة الموجودة في مجموعة بيانات التعليمات، "يتعلم" نموذج LLM كيفية الاستجابة لتوجيه مثل "علمني كيف أخبز الخبز" بإضافة نص يحتوي على إرشادات فعلية حول خبز الخبز.

وبالتالي فإن ضبط التعليمات يساعد على سد الفجوة بين الهدف الأساسي للنموذج - التنبؤ بالكلمة التالية - وهدف المستخدم المتمثل في جعل النموذج يتبع التعليمات وينفذ المهام المحددة. هذا يجعل سلوك النموذج أكثر فائدة ويمكن التنبؤ به.

Mixture of Experts | بودكاست

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم وهم يجتازون طريق الذكاء الاصطناعي لتزويدك بأحدث أخباره والمعارف المتعلقة به.

كيف يعمل ضبط التعليمات؟

يؤدي التدريب الدقيق لنموذج LLM على مجموعة بيانات موسومة تتضمن مهام متنوعة لاتباع التعليمات إلى زيادة قدرة النموذج على اتباع التعليمات بشكل عام، مما يقلل من الحاجة إلى تقديم معلومات داخل السياق لتوجيهات فعالة. يمكن أن تكون مجموعات بيانات التعليمات إما من صنع الإنسان أو مولّدة بواسطة نموذج LLM آخر.

كما أوضحت الورقة البحثية المؤثرة التي نشرتها Google Research في عام 2022 بعنوان "Finetuned Language Models are Zero-Shot Learners"، فإن الهدف من ضبط التعليمات هو تحسين قدرة نماذج LLMs على الاستجابة لتعليمات NLP. ولتحقيق ذلك، فإن ضبط التعليمات "يجمع بين الجوانب الإيجابية لكل من التدريب الأولي،والتدريب الدقيق، والهندسة التوجيهية". بمعنى آخر، من خلال دمج مبادئ الهندسة التوجيهية بشكل طبيعي في التدريب المراقب الدقيق، يقلل ضبط التعليمات من كمية الهندسة التوجيهية وعدد الأمثلة ذات التدريب القليل المطلوبة للحصول على استجابة دقيقة ومفيدة من النموذج المدرب1.

تتألف كل عينة تدريب في مجموعة بيانات التعليمات من ثلاثة عناصر:

  • تعليمات: إدخال نص بلغة طبيعية يحدد مهمة معينة. على سبيل المثال، "ترجم هذه الجملة من الإنجليزية إلى الإسبانية".
  • معلومات إضافية: معلومات اختيارية تكميلية اختيارية توفر سياقًا ذا صلة بالمهمة المطروحة. على سبيل المثال، قد يحتوي الإدخال لمهمة فهم القراءة على مقطع نصي قصير (ثم يطلب من النموذج الإجابة على سؤال معين حوله).
  • المخرجات المطلوبة: المخرجات المستهدفة - الاستجابة - للطلب بناءً على التعليمات والسياق المقدم. يتم تقييم تنبؤات النموذج وتحسينها بناءً على هذه المخرجات باعتبارها "الحقيقة المرجعية"ا.

أشارت الورقة البحثية من Google إلى أن نموذج LaMDA-PT المعدل باستخدام ضبط التعليمات، والذي يطلق عليه اسم FLAN (لشبكة اللغة المخصصة للتدريب الدقيق)، شهد تحسينات كبيرة في المهام التي تعبر عادة عن التعليمات، مثل الترجمة والإجابة على الأسئلة وفهم القراءة والاستدلال اللغوي الطبيعي (NLI) - وهي مهمة تحديد ما إذا كانت "الفرضية" المقدمة تتبع منطقيا من "الفرضية" المعطاة.

لتوضيح هذا، أشارت ورقة FLAN إلى ملاحظة قدمها Brown وآخرون في الورقة البحثية الصادرة حول نموذج GPT-3 الأصلي في عام 2020: أحد التفسيرات لسبب صعوبة النماذج اللغوية الكبيرة المدربة مسبقًا (LLMs) في التعامل مع مهام مثل الاستدلال اللغوي الطبيعي (NLI) بدون تدريب دقيق إضافي هو أن المقاطع التي تشبه مهمة NLI النموذجية من غير المرجح أن تظهر بشكل طبيعي في مجموعة البيانات غير الموسومة المستخدمة في التدريب الذاتي..3 على النقيض، بالنسبة للمهام التي تتماشى بشكل أوضح مع هدف نمذجة اللغة في التدريب الأولي-مثل مهام المنطق السليم التي تتطلب من النموذج إكمال الجملة بشكل صحيح-تكون التعليمات إلى حد كبير غير ضرورية، وبالتالي يكون تأثير ضبط التعليمات أقل.

ولعل الأهم من ذلك أن الورقة أظهرت أن إضافة مهام جديدة إلى مجموعة بيانات ضبط التعليمات حسّن من أداء النموذج حتى في المهام الجديدة التي لم يتم تمثيلها في مجموعة بيانات التعليمات. وهنا تكمن الميزة الأساسية لضبط التعليمات: تحسين شامل في قدرة النموذج على اتباع التعليمات بشكل عام.

الفرق بين ضبط التعليمات والتدريب الدقيق متعدد المهام

تضمنت دراسة FLAN أيضًا دراسة تحليلية لتحديد ما إذا كانت فوائد ضبط التعليمات الدقيق ناتجة عن التعليمات ذاتها أو تُعزى ببساطة إلى الضبط الدقيق للنموذج على مجموعة من المهام المتنوعة في معالجة اللغة الطبيعية.  ولتقييم دور التعليمات في الضبط الدقيق، أجرت الدراسة ضبطًا دقيقًا للنموذج الأساسي على ثلاثة إعدادات مختلفة:

  • بدون قالب: تم تزويد النموذج بالمدخلات والمخرجات فقط. على سبيل المثال، سيكون الإدخال لمهمة الترجمة هو "the dog runs"، وسيكون الإخراج المستهدف هو "le chien court".
  • اسم مجموعة البيانات: تم تقديم كل إدخال باسم المهمة ومجموعة البيانات. في مثال الترجمة الخاص بنا، سيكون الإدخال - المستمد من مجموعة بيانات WMT 20144 - "[ترجمة: WMT 14 إلى الفرنسية] The dog runs."
  • تعليمات FLAN: تم تقديم المدخلات لمبادئ ضبط التعليمات. بالنسبة لمثال الترجمة، سيكون الإدخال هو "Please translate this sentence to French: ‘The dog runs. "

ثم قامت الدراسة الاستئصالية بقياس نتائج كل نموذج لغوي دقيق على سلسلة من مهام اتباع التعليمات بدون تدريب مسبق. حقق النموذج المضبوط بالتعليمات دقة أكبر بنسبة 18٪ مقارنة بالنموذج "بدون قالب"، وبنسبة 8٪ مقارنة بالنموذج "اسم مجموعة البيانات". يشير هذا إلى أن التدريب باستخدام التعليمات أمر بالغ الأهمية لتعزيز الأداء في المهام بدون تدريب مسبق على المهام غير المعروفة.

التدريب الدقيق على التفكير المتسلسل (CoT)

التفكير المتسلسل (CoT) هو أسلوب يطلب من نماذج LLMs ليس فقط الإجابة عن السؤال بل أيضًا تقديم تفسير حول كيفية وصوله إلى الإجابة. يمكن تحقيق ذلك من خلال التوجيه بخطوات قليلة باستخدام أمثلة للتفكير المتسلسل، أو ببساطة عن طريق إضافة "فكر خطوة بخطوة" إلى نهاية التوجيه. أظهرت الأبحاث أن التفكير المتسلسل يعزز بشكل كبير القدرات في المهام المختلفة مثل الاستدلال الحسابي والاستدلال الرمزي ومهام الاستدلال المنطقي.5 وجد Wei, وآخرون أن ضبط التعليمات الذي لا يتضمن مهام التفكير المتسلسل في مجموعة بيانات التعليمات يؤدي إلى تراجع ملحوظ في أداء النموذج عند التقييم باستخدام التفكير المتسلسل - ولكن إضافة مجموعات بيانات التفكير المتسلسل يحسن الأداء في جميع التقييمات.6

علاوة على ذلك، أظهرت أبحاثهم أن التدريب الدقيق على مهام التفكير المتسلسل-سواء مع أو بدون أمثلة من التوجيه بخطوات قليلة-يزيد من قدرة النموذج على التفكير المتسلسل في إعدادات التوجيه بدون تدريب مسبق. التفسير المنطقي لهذه الميزة هو أن التدريب الدقيق على معالجة المشكلة بخطوات منطقية بدلاً من القفز مباشرة إلى إجابة تبدو متماسكة لغويًا فقط، يساعد النماذج على تعلم إنتاج وتطبيق مهارات التفكير الخاصة بها بشكل أفضل.

مجموعات بيانات ضبط التعليمات

توجد العديد من مجموعات البيانات المخصصة لضبط التعليمات للنماذج اللغوية الكبيرة، معظمها منها مفتوح المصدر. يمكن أن تتكون مجموعات البيانات هذه من أزواج تعليمات، مخرجات) مكتوبة مباشرة (أو تم جمعها) بلغة طبيعية، أو تستخدم فيها قوالب لتحويل مجموعات البيانات الموسومة الموجودة إلى تعليمات، أو حتى استخدام نماذج لغوية كبيرة أخرى لتوليد أمثلة.

مجموعات البيانات التي أنشأها الإنسان

على الرغم من أن كتابة أزواج (تعليمات، مخرجات) بشكل مباشر يعد أمرًا بسيطًا، إلا أنها عملية تستغرق وقتًا طويلاً وتتطلب جهدًا كبيرًا وتكلفة مرتفعة. تم اقتراح طرق مختلفة لتحويل مجموعات بيانات اللغة الطبيعية إلى تعليمات، عادةً من خلال تطبيق القوالب. وقد ساهمت مجموعات البيانات المفتوحة المصدر التي أنشأها البشر في تقليل تكلفة التدريب الدقيق على البيانات الطبيعية.

تتضمن مجموعات بيانات التعليمات البارزة مفتوحة المصدر التي أنشأها الإنسان ما يلي:

  • Flan: استُخدم لأول مرة في تدريب نموذج LaMDA-PT من Google لإنتاج النموذج الأصلي FLAN. ومنذ ذلك الحين، يتم تحسين مجموعة بيانات Flan واستخدامها في الضبط الدقيق لعدد من النماذج اللغوية الكبيرة (LLMs). مثل FLAN-T5، Flan-UL2، وFlan-PaLM 540B (المعروف أيضًا باسم FLAN-T5-XXL).
  • OpenAssistant: OpenAssistant Conversations هي مجموعة محادثات متعددة اللغات تم إنشاؤها يدويًا، وتركز على حوارات بأسلوب المساعد الشخصي. تشمل المجموعة 91,829 توجيهًا من المستخدمين و69,614 ردًا من المساعد، مستخلصة من 66,497 شجرة حوارية بخمسة وثلاثين (35) لغة مختلفة.
  • Dolly: Dolly هي مجموعة بيانات باللغة الإنجليزية تضم 15,000 محادثة من إنشاء البشر، وهي مصممة لتمكين النماذج اللغوية الكبيرة (LLMs) من التفاعل مع المستخدمين بطريقة حوارية تشبه ChatGPT. تغطي هذه البيانات نطاقًا واسعًا من المهام والسلوكيات البشرية، مثل التلخيص، واستخراج المعلومات، والعصف الذهني، والكتابة الإبداعية، والتصنيف، والإجابة على الأسئلة.

مجموعات البيانات التي تم إنشاؤها بواسطة نموذج LLM

نظرًا للتكلفة العالية والجهد اللازم لتوليد التعليمات والمخرجات يدويًا، تعتمد العديد من مجموعات بيانات ضبط التعليمات على استجابات نماذج LLMs الأكبر لتوليد التوجيهات أو المخرجات أو كليهما. يساهم استخدام مجموعات البيانات التي أنشاها نموذج LLM في تعليم النماذج الأصغر تقليد سلوك النماذج الأكبر، وأحيانًا يتم ذلك بشكل مقصود في إطار علاقة المعلم/المتعلم.

  • Self-Instruct: تم إنشاؤها باستخدام InstructGPT، وهو نسخة محسّنة من GPT-3 تم تدريبها على التعليمات. استخدم الباحثون "مهام أولية" مكتوبة بلغة طبيعية وطلبوا من InstructGPT توليد أمثلة إضافية، ما أسفر في النهاية عن إنتاج 52000 تعليمات تدريبية. استخدم باحثو جامعة ستانفورد نسخة معدلة من طريقة Self-Instruct لتطوير بيانات تدريبية لنموذج Alpaca، الذي يعد أول نموذج مدرب على التعليمات من سلسلة LLaMA. والجدير بالذكر أن Alpaca تفوق قليلًا على معايير InstructGPT عند اختباره باستخدام مجموعة بيانات InstructGPT .7
  • Evol-Instruct: كما يوحي اسمها، تقدم Evol-Instruct تطورا لمنهجية Self-Instruct، وإعادة صياغة التعليمات باستخدام استراتيجيات التعمّق والتوسّع . تركز استراتيجيات التعمق على تعقيد التعليمات بإضافة قيود جديدة، وزيادة خطوات التفكير، وتعقيد المدخلات. في حين تعمل استراتيجيات التوسّع على تعديل التعليمات السابقة لزيادة تنوع مجموعة البيانات وتوسيع تغطية الموضوعات تم تقديم Evol-Instruct في الدراسة البحثية الخاصة بنموذج WizardLM، التي توضح بالتفصيل كيفية استخدام Evol-Instruct في الضبط الدقيق لنموذج LLaMA.8
  • ShareGPT: ShareGPT.com يحتوي على مستودع يضم محادثات أنشأها المستخدمون مع ChatGPT. اعتمد الباحثون القائمون على نموذج Vicuna، وهو نسخة محسنة من LLaMA، على 70,000 سجل محادثة مأخوذة من ShareGPT، وقاموا بتخصيصها للحوارات متعددة الأدوار.9
  • OpenOrca: OpenOrca هي مجموعة من بيانات Flan Collection المعززة (الرابط موجود خارج موقع ibm.com). تهدف OpenOrca إلى إعادة إنشاء مجموعة البيانات التي استخدمتها Microsoft لتدريب نموذج Orca، الذي استكشف منهجية تركز على تحسين استخدام النماذج الأكبر لتطوير النماذج الأصغر من خلال التعلم بالتقليد.10

مع زيادة قوة النماذج اللغوية الكبيرة LLMs، تزداد أيضًا فائدة مجموعات البيانات الخاصة بضبط التعليمات التي تم إنشاؤها باستخدام هذه النماذج. في عام 2023، أجريت دراسة بحثية أُعيد فيها تطبيق نهج الضبط الدقيق المستخدم في نموذج Alpaca-الذي ضبط نموذج LLaMA باستخدام تعليمات تم توليدها من InstructGPT. في نفس الوقت، م تكرار العملية باستخدام GPT-4 لتوليد التعليمات. النموذج الناتج، الذي أُطلق عليه اسم LLaMA-GPT4، تفوق بشكل ملحوظ على نظيره Alpaca من حيث درجات "الفائدة"، واقترب من تحقيق أداء مشابه لنموذج GPT-4 نفسه في معايير "الفائدة"، و"الصدق"، و"الأمان".11

التحديات والقيود المرتبطة بضبط التعليمات

على الرغم من أن تقنيات ضبط التعليمات أسفرت عن تقدم ملحوظ في أداء نماذج LLMs، إلا أن هناك حاجة مستمرة لتنويع مجموعات بيانات ضبط التعليمات وتوضيح فوائدها بشكل كامل.

أحد أبرز التحديات في ضبط التعليمات هو إنشاء تعليمات عالية الجودة لاستخدامها في التدريب الدقيق. إن الموارد المطلوبة لإنشاء مجموعة بيانات تعليمات كبيرة بشكل كافٍ جعلت ضبط التعليمات مركزًا على عدد محدود من مجموعات البيانات مفتوحة المصدر، مما قد يقلل من تنوع النماذج. على الرغم من أن استخدام نماذج LLMs المملوكة للشركات لتوليد التعليمات ساعد في تقليل التكاليف، إلا أن هناك جانبًا سلبيًا يتمثل في تعزيز التحيزات وأوجه القصور الموجودة في هذه النماذج عبر نماذج LLMs مفتوحة المصدر. تتفاقم هذه المشكلة بسبب حقيقة أن النماذج المملوكة غالبًا ما تستخدم، في محاولة لتجنب التحيز الذاتي للباحثين البشريين، لتقييم أداء النماذج الأصغر.

على المستوى التقني، أثار بعض الباحثين مخاوف من أن استخدام نماذج أكبر لتحسين النماذج الأصغر قد يساعد النماذج الأصغر على تقليد أسلوب النماذج الأكبر، ولكن دون تحقيق نفس وظائفها الفعلية. أشارت دراسة تجريبية في عام 2023 إلى أن العديد من المكاسب الكبيرة التي تحققت من خلال ضبط التعليمات قد تكون ناتجة عن التقاط أنماط سطحية، بدلاً من تحسين حقيقي في الاستدلال المنطقي..12

وبالمثل، اقترح باحثون آخرون أن بعض التحسينات المبلغ عنها قد تعتمد إلى حد ما على تقييم أداء النماذج المدربة على التعليمات في مهام قريبة جدًا من تلك الموجودة في مجموعة بيانات التدريب. من خلال اختبار أكثر دقة للنماذج المدربة على التعليمات، خلص Gudibande وآخرون إلى أن "الإجراء الأكثر فعالية لتحسين النماذج مفتوحة المصدر هو مواجهة التحدي الصعب المتمثل في تطوير نماذج لغوية أساسية أفضل، بدلاً من سلوك الطريق المختصر لتقليد الأنظمة المملوكة للشركات".13

حلول ذات صلة

حلول ذات صلة

IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
خدمات الذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا
الحواشي

ملاحظة: جميع الروابط موجودة خارج موقع ibm.com.
1
 "Finetuned Language Models Are Zero-Shot Learners", Google (via arXiv), 3 September 2021 (last revised 8 February 2022).
2 "Aligning language models to follow instructions", OpenAI, 27 January 2022.
3 "Language Models are Few-Shot Learners", arXiv, 22 July 2020.
"WMT 2014", Papers With Code, 27 June 2014.
5 "Language Models are Zero-Shot Reasoners", arXiv, 24 May 2022 (last revised 29 January 2023).
6 "Scaling Instruction-Finetuned Language Models", Google (via arXiv), 6 December, 2022.
7 "Alpaca: A Strong, Replicable Instruction-Following Model", Stanford Center for Research on Foundation Models, 13 March 2023.
8 "WizardLM: Empowering Large Language Models to Follow Complex Instructions", arXiv, 10 June 2023.
9 "Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality", LMSYS Org, 30 March 2023.
10 "Orca: Progressive Learning from Complex Explanation Traces of GPT-4", Microsoft, June 2023.
11 "Instruction Tuning with GPT-4", arXiv, 6 April 2023.
12 "Do Models Really Learn to Follow Instructions? An Empirical Study of Instruction Tuning", arXiv, 19 May 2023.
13 "The False Promise of Imitating Proprietary LLMs", arXiv, 25 May 2023.