الضبط الدقيق في التعلم الآلي هو عملية تكييف نموذج مدرب مسبقًا لمهام أو حالات استخدام محددة. . لقد أصبحت تقنية التعلم العميق الأساسية، خاصة في عملية تدريب النماذج الأساسية المستخدمة في الذكاء الاصطناعي التوليدي.
يمكن اعتبار الضبط الدقيق مجموعة فرعية من التقنية الأوسع نطاقًا للتعلم التحويلي: وهي ممارسة الاستفادة من المعرفة التي تعلمها نموذج موجود بالفعل كنقطة انطلاق لتعلم مهام جديدة.
يتمثل الحدس الكامن وراء الضبط الدقيق في أنه من الأسهل والأرخص بشكل أساسي صقل قدرات النموذج الأساسي المدرب مسبقًا الذي اكتسب بالفعل معارف واسعة النطاق ذات صلة بالمهمة المطروحة بدلاً من تدريب نموذج جديد من الصفر لذلك الغرض المحدد. وهذا ينطبق بشكل خاص على نماذج التعلّم العميق التي تحتوي على ملايين أو حتى مليارات المعلمات، مثل النماذج اللغوية الكبيرة (LLMs) التي برزت في مجال معالجة اللغات الطبيعية (NLP) أو الشبكات العصبية التلافيفية المعقدة (CNNs) ومحولات الرؤية (ViTs) المستخدمة في مهام الرؤية الحاسوبية مثل تصنيف الصور أو اكتشاف الأجسام أو تجزئة الصور.
وبالاستفادة من التدريب المسبق للنموذج من خلال التعلّم التحوّلي، يمكن للضبط الدقيق أن يقلل من كمية الطاقة الحاسوبية المكلفة والبيانات المصنفة اللازمة للحصول على نماذج كبيرة مصممة خصيصًا لحالات الاستخدام المتخصصة واحتياجات العمل. على سبيل المثال، يمكن استخدام الضبط الدقيق لتعديل نبرة المحادثة لنموذج توليد الصور المدرّب مسبقًا أو أسلوب التوضيح لنموذج توليد الصور المدرّب مسبقًا؛ كما يمكن استخدامه أيضًا لتكملة ما تم تعلمه من مجموعة بيانات التدريب الأصلية للنموذج ببيانات خاصة أو معرفة متخصصة خاصة بمجال معين.
ومن ثم، يلعب الضبط الدقيق دورًا مهمًا في التطبيق الواقعي لنماذج التعلم الآلي، ما يساعد على إضفاء الطابع الديمقراطي على الوصول إلى النماذج المتطورة وتخصيصها.
في حين أن الضبط الدقيق هو تقنية تُستخدم في الظاهر في تدريب النموذج، فإنها عملية مختلفة عما يُطلق عليه "التدريب" عادةً. من أجل توضيح الغموض، يشير عالم البيانات عادةً إلى الأخير على أنه تدريب مسبق في هذا السياق.
في بداية التدريب (أو، في هذا السياق، ما قبل التدريب)، لم "يتعلم" النموذج أي شيء بعد. يبدأ التدريب بالتهيئة العشوائية لمعلمات النموذج- الأوزان والتحيزات المتفاوتة المطبقة على العمليات الرياضية التي تحدث في كل عقدة في الشبكة العصبية.
يتم التدريب بشكل متكرر على مرحلتين: في التمريرة الأمامية، يقوم النموذج بعمل تنبؤات لمجموعة من مدخلات العينة من مجموعة البيانات، وتقيس دالة الخسارة الفرق (أو الخسارة) بين تنبؤات النموذج لكل إدخال والإجابات «الصحيحة» (أو الحقيقة الأساسية)؛ أثناء النشر العكسي، تُستخدم خوارزمية التحسين - عادةً النزول المتدرج- لضبط أوزان النموذج عبر الشبكة لتقليل الخسارة. وتُعد هذه التعديلات على أوزان النموذج هي الطريقة التي "يتعلم" بها النموذج. يتم تكرار العملية عبر فترات تدريب متعددة حتى يتم اعتبار النموذج مدربًا بشكل كافٍ.
يستخدم التعلم الخاضع للإشراف التقليدي، والذي يستخدم عادةً للتدريب المسبق للنماذج لمهام الرؤية الكمبيوتر مثل تصنيف الصور أو كشف الكائنات أو تقسيم الصور، بيانات مُصنفة: توفر العلامات (أو التعليقات التوضيحية) كلًا من مجموعة الإجابات المحتملة ونواتج الحقيقة الأساسية لكل عينة.
عادة ما يتم تدريب النماذج اللغوية الكبيرة مسبقًا من خلال التعلم الخاضع للإشراف الذاتي (SSL)، حيث تتعلم النماذج من خلال مهام الذريعة المصممة خصوصًأ لاشتقاق الحقيقة الأساسية من البنية المتأصلة للبيانات غير المصنفة. تنقل مهام الذريعة هذه المعرفة المفيدة للمهام النهائية. عادة ما يتبعون أحد النهجين:
التنبؤ الذاتي: إخفاء جزء من المدخلات الأصلية وتكليف النموذج بإعادة بنائها. وهذا هو النمط السائد لتدريب النماذج اللغوية الكبيرة.
التعلُّم المتباين: تدريب النماذج لتعلُّم التضمينات المتشابهة للمدخلات ذات الصلة والتضمينات المختلفة للمدخلات غير ذات الصلة. إذ يُستخدم هذا الأمر بشكل بارز في نماذج الرؤية الحاسوبية المصممة للتعلم بالقليل من الأمثلة أو من دون أمثلة مسبقة، مثل تدريب نموذج تدريب صورة اللغة التباينية المسبق.
ومن ثم يسمح التعلم الخاضع للإشراف الذاتي باستخدام مجموعات البيانات الضخمة في التدريب من دون الحاجة إلى شرح الملايين أو المليارات من نقاط البيانات. يوفر هذا قدرًا هائلاً من العمالة، ولكنه مع ذلك يتطلب موارد حسابية ضخمة.
على الجانب الآخر، يستلزم الضبط الدقيق تقنيات لمواصلة تدريب نموذج تم تحديث أوزانه بالفعل من خلال التدريب السابق. وباستخدام المعرفة السابقة للنموذج الأساسي كنقطة بداية، يعمل الضبط الدقيق للنموذج من خلال تدريبه على مجموعة بيانات أصغر حجمًا ومحددة المهام.
بينما كان من الممكن نظريًا استخدام مجموعة البيانات الخاصة بمهمة محددة في التدريب الأولي، إلا أن تدريب نموذج كبير من الصفر على مجموعة بيانات صغيرة قد يؤدي إلى خطر الإفراط في التكييف: قد يتعلم النموذج الأداء الجيد على أمثلة التدريب، ولكن تعميمه ضعيف على البيانات الجديدة. وهذا من شأنه أن يجعل النموذج غير ملائم للمهمة المحددة له ويلغي الغرض من تدريب النموذج.
ومن ثم فإن الضبط الدقيق يوفر أفضل ما في المجالين: الاستفادة من المعرفة الواسعة والاستقرار المكتسبة من التدريب المسبق على مجموعة ضخمة من البيانات وصقل فهم النموذج لمفاهيم أكثر تفصيلاً وتحديدًا. وبالنظر إلى البراعة المتزايدة لنماذج المؤسسات مفتوحة المصدر، يمكن في كثير من الأحيان التمتع بالمزايا من دون أي عبء مالي أو حسابي أو لوجستي للتدريب المسبق.
يستخدم الضبط الدقيق أوزان نموذج مُدرَّب مسبقًا كنقطة بداية لمزيد من التدريب على مجموعة بيانات أصغر من الأمثلة التي تعكس بشكل مباشر أكثر المهام وحالات الاستخدام المحددة التي سيتم استخدام النموذج من أجلها. يستلزم عادةً التعلم تحت الإشراف، ولكن يمكن أن يتضمن أيضًا التعلم المعزز أو التعلم الخاضع للإشراف الذاتي أو التعلم شبه الخاضع للإشراف.
تنقل مجموعات البيانات المستخدمة للضبط الدقيق معرفة المجال أو الأسلوب أو المهام أو حالات الاستخدام المحددة التي يتم ضبط النموذج المُدرَّب مسبقًا من أجلها. على سبيل المثال:
يمكن أن يتم ضبط النماذج اللغوية الكبيرة المدربة مسبقًا على اللغة العامة من أجل الترميز باستخدام مجموعة بيانات جديدة تحتوي على طلبات البرمجة ذات الصلة ومقتطفات التعليمات البرمجية المقابلة لكل منها.
يمكن لنموذج تصنيف الصور المستخدم لتحديد أنواع معينة من الطيور أن يتعلم أنواعًا جديدة من خلال عينات تدريب إضافية مصنفة.
يمكن للنماذج اللغوية الكبيرة أن تتعلم محاكاة أسلوب معين في الكتابة من خلال التعلم الذاتي الخاضع للإشراف على عينة من النصوص التي تمثل هذا الأسلوب.
يُعد التعلم شبه الخاضع للإشراف، وهو مجموعة فرعية من التعلُّم الآلي الذي يتضمن بيانات مصنفة وغير مصنفة على حد سواء، مفيدًا عندما يستدعي السيناريو التعلم تحت الإشراف ولكن الأمثلة المصنفة المناسبة نادرة. أسفر الضبط الدقيق شبه الخاضع للإشراف عن نتائج واعدة لكلٍ من مهام الرؤية الحاسوبية1 ومعالجة اللغات الطبيعية2 ويساعد على تقليل عبء الحصول على كمية كافية من البيانات المصنفة.
يمكن استخدام الضبط الدقيق لتحديث أوزان الشبكة بأكملها، ولكن لأسباب عملية لا يكون هذا هو الحال دائمًا. ثمة مجموعة واسعة من طرق الضبط الدقيق البديلة، والتي غالبًا ما يشار إليها تحت مصطلح الضبط الدقيق الفعال للمعلمات (PEFT)، والتي تقوم بتحديث مجموعة فرعية مختارة فقط من معلمات النموذج. يمكن أن تقلل أساليب الضبط الدقيق الفعال للمعلمات (PEFT)، والتي سيتم استكشافها لاحقًا في هذا القسم، من المتطلبات الحسابية وتقلل من النسيان الكارثي - وهي الظاهرة التي يؤدي فيها الضبط الدقيق إلى فقدان أو زعزعة استقرار المعرفة الأساسية للنموذج - غالبًا من دون أي تنازلات ذات مغزى في الأداء.
ونظرًا للتنوع الكبير في تقنيات الضبط الدقيق والعديد من المتغيرات الكامنة في كل منها، فإن تحقيق الأداء المثالي للنموذج يتطلب غالبًا تكرارًا متعددًا لإستراتيجيات التدريب والإعدادات، وتعديل مجموعات البيانات والمعاملات الفائقة مثل حجم الدُفعات ومعدل التعلم وشروط التنظيم حتى يتم الوصول إلى نتيجة مُرضية - وفقًا للمقاييس الأكثر صلة بحالة الاستخدام الخاصة بك.
تتمثل الوسيلة الأكثر وضوحًا من الناحية المفاهيمية للضبط الدقيق في تحديث الشبكة العصبية بالكامل. وتشبه هذه المنهجية البسيطة بشكل أساسي عملية التدريب المسبق: الاختلافات الأساسية الوحيدة بين عمليتي الضبط الكامل والتدريب المسبق هي مجموعة البيانات المستخدمة والحالة الأولية لمعلمات النموذج.
لتجنب التغييرات المزعزعة للاستقرار الناجمة عن عملية الضبط الدقيق، قد يتم تعديل بعض المعلمات الفائقة- سمات النموذج التي تؤثر على عملية التعلم ولكنها ليست معلمات قابلة للتعلم في حد ذاتها - مقارنة بمواصفاتها أثناء التدريب المسبق: على سبيل المثال، من غير المرجح أن يؤدي معدل التعلم الأصغر ( ما يقلل من حجم كل تحديث لأوزان النموذج) إلى نسيان كارثي.
يتطلب الضبط الدقيق الكامل، مثل عملية ما قبل التدريب التي تشبهها، الكثير من المتطلبات الحسابية. بالنسبة إلى نماذج التعلّم العميق الحديثة التي تحتوي على مئات الملايين أو حتى عدة مليارات من المعلمات، غالبًا ما يكون ذلك مكلفًا للغاية وغير عملي.
يشمل الضبط الدقيق الفعال للمعلمات (PEFT) مجموعة من الطرق لتقليل عدد المعلمات القابلة للتدريب التي تحتاج إلى تحديث من أجل تكييف نموذج كبير مدرب مسبقًا بشكل فعال على أساس تطبيقات نهائية محددة. ومن ثّمَّ، يقلل الضبط الدقيق الفعال للمعلمات بشكل كبير من الموارد الحسابية وتخزين الذاكرة اللازمة لإنتاج نموذج مضبوط بشكل فعال. غالبًا ما ثبت أن طرق التحويل الإلكتروني للتحويلات الأولية أكثر استقرارًا من طرق الضبط الدقيق الكامل، خاصةً في حالات استخدام البرمجة اللغوية العصبية.3
تهدف أساليب الضبط الدقيق الجزئي التي تسمى أيضًا الضبط الدقيق الانتقائي إلى تقليل المتطلبات الحاسوبية من خلال تحديث مجموعة فرعية مختارة فقط من المعلمات المدربة مسبقًا الأكثر حساسية لأداء في المهام النهائية ذات الصلة. ويتم "تجميد" المعلمات المتبقية، ما يضمن عدم تغييرها.
نهج الضبط الدقيق الجزئي الأكثر سهولة هو تحديث الطبقات الخارجية للشبكة العصبية فقط. في معظم بنيات النماذج، لا تلتقط الطبقات الداخلية للنموذج (الأقرب إلى طبقة الإدخال) سوى السمات العامة والواسعة: على سبيل المثال، في الشبكة العصبية التلافيفية المستخدمة لتصنيف الصور، عادةً ما تقوم الطبقات الأولى بتمييز الحواف والأنسجة؛ ثم تقوم كل طبقة لاحقة بتمييز السمات الدقيقة تدريجيًا حتى يتم التنبؤ بالتصنيف النهائي في الطبقة الخارجية. وبصفة عامة، كلما كانت المهمة الجديدة (التي يتم ضبط النموذج من أجلها) أكثر تشابهًا مع المهمة الأصلية، كانت الأوزان المدربة مسبقًا للطبقات الداخلية أكثر فائدة لهذه المهمة الجديدة ذات الصلة - ومن ثم قل عدد الطبقات التي تحتاج إلى تحديث).
تتضمن طرق الضبط الجزئي الأخرى بما في ذلك تحديث مصطلحات التحيز على مستوى الطبقة للنموذج (بدلاً من الأوزان الخاصة بالعقدة)4 وطرق الضبط "المتفرقة" التي تقوم بتحديث مجموعة فرعية مختارة فقط من الأوزان الكلية في النموذج.5
بدلاً من ضبط المعلمات الحالية لنموذج مُدرَّب مسبقًا، تضيف الأساليب الإضافية معلمات أو طبقات إضافية إلى النموذج، وتجميد الأوزان الحالية المُدرَّبة مسبقًا، وتدريب تلك المكونات الجديدة فقط. يساعد هذا النهج في الحفاظ على استقرار النموذج من خلال ضمان بقاء الأوزان الأصلية المدربة مسبقًا من دون تغيير.
في حين أن هذا يمكن أن يزيد من وقت التدريب، فإنه يقلل بشكل كبير من متطلبات الذاكرة نظرًا لوجود عدد أقل بكثير من التدرجات وحالات التحسين التي يجب تخزينها: وفقًا لما ذكره Lialin وآخرين، يتطلب تدريب جميع معلمات النموذج ذاكرة وحدة معالجة الرسومات أكبر بمعدل 12-20 مرة من أوزان النماذج وحدها.6 ويمكن تحقيق المزيد من التوفير في الذاكرة من خلال تكميم أوزان النماذج المجمّدة: وهو تقليل الدقة المستخدمة لتمثيل معلمات النموذج، ما يشبه من الناحية النظرية خفض معدل البت في ملف صوتي.
أحد الفروع الفرعية للطرق المضافة هو ضبط المطالبات. من الناحية النظرية، إنها تشبه هندسة المطالبات، والتي تشير إلى تصميم "المطالبات الصعبة" - أي المطالبات التي يكتبها الإنسان بلغة طبيعية - لتوجيه النموذج نحو النواتج المرغوبة، مثل تحديد نبرة معينة أو من خلال تقديم أمثلة تسهل التعلم بالقليل من الأمثلة. يقدم ضبط مطالبات سهلة مؤلفة مدعومة بالذكاء الاصطناعي: تضمينات متجهة قابلة للتعلم يتم ربطها بالمطالبة الصعبة للمستخدم. بدلاً من إعادة تدريب النموذج، يستلزم ضبط المطالبات تجميد أوزان النموذج، وبدلاً من ذلك يقوم بتدريب المطالبة السهلة نفسها. يسمح ضبط المطالبات السريع والفعال للنماذج بالتبديل بسهولة أكبر بين مهام محددة، وإن كان ذلك مع مفاضلة في قابلية التفسير.
تقوم مجموعة فرعية أخرى من الضبط الدقيق الإضافي بحقن وحدات المحول - وهي طبقات جديدة خاصة بالمهام المضافة إلى الشبكة العصبية - وتدريب وحدات المحول هذه بدلاً من ضبط أي من أوزان النموذج المُدرب مسبقًا (والتي يتم تجميدها). ووفقًا للورقة البحثية الأصلية، التي قامت بقياس النتائج على نموذج اللغة المقنعة BERT، حققت المحولات أداءً مكافئًا لأداء الضبط الدقيق الكامل مع تدريب 3.6% فقط من المعلمات.7
تستفيد الأساليب القائمة على إعادة ضبط المعلمات مثل التكيف منخفض الرتبة (LoRA) من التحويل منخفض الرتبة للمصفوفات عالية الأبعاد (مثل المصفوفة الضخمة لأوزان النموذج المدرب مسبقًا في نموذج المحول). تحذف هذه التمثيلات منخفضة الرتبة المعلومات غير المنطقية ذات الأبعاد الأعلى من أجل التقاط البنية الأساسية منخفضة الأبعاد لأوزان النموذج، ما يقلل بشكل كبير من عدد المعلمات القابلة للتدريب. يعمل هذا على تسريع الضبط الدقيق بشكل كبير ويقلل من الذاكرة اللازمة لتخزين تحديثات النموذج.
يتجنب التكيف منخفض الرتبة التحسين المباشر لمصفوفة أوزان النموذج، وبدلاً من ذلك يقوم بتحسين مصفوفة تحديثات أوزان النموذج (أو أوزان دلتا)، والتي يتم إدراجها في النموذج. يتم تمثيل مصفوفة تحديثات الوزن هذه بدورها على شكل مصفوفتين أصغر (أي مصفوفتين من رتبة أقل)، ما يقلل بشكل كبير من عدد المعلمات التي يجب تحديثها - وهو ما يسرّع بدوره من الضبط الدقيق بشكل كبير ويقلل من الذاكرة اللازمة لتخزين تحديثات النموذج. تظل أوزان النموذج المُدرَّب مسبقًا نفسها مجمدة.
من المزايا الإضافية للتكيف منخفض الرتبة هو أنه نظرًا إلى أن ما يتم تحسينه وتخزينه ليس أوزانًا جديدة للنموذج، بل الفرق (أو دلتا) بين الأوزان الأصلية المدربة مسبقًا والأوزان المعدلة بدقة، يمكن "تبديل" أوزان التكيف منخفض الرتبة المختلفة الخاصة بالمهام حسب الحاجة لتكييف النموذج المدرب مسبقًا - الذي تظل معلماته الفعلية من دون تغيير - مع حالة استخدام معينة.
تم تطوير مجموعة متنوعة من مشتقات تقنية التكيف منخفض الرتبة، مثل التكيف الكمي منخفض الرتبة، الذي يقلل من التعقيد الحسابي من خلال تكميم نموذج المحول قبل تقنية التكيف منخفض الرتبة.
يُعدّ الضبط الدقيق جزءًا أساسيًا من دورة تطوير النماذج اللغوية الكبيرة، ما يسمح بتكييف القدرات اللغوية الأولية لنماذج الأساس الأساسية مع مجموعة متنوعة من حالات الاستخدام، بدءًا من روبوتات المحادثة إلى الترميز ووصولاً إلى المجالات الأخرى الإبداعية والتقنية على حد سواء.
يتم تدريب النماذج اللغوية الكبيرة (LLMs) مسبقا باستخدام التعلم الذاتي على مجموعة ضخمة من البيانات غير المصنفة. يتم تدريب النماذج اللغوية الانحدارية التلقائية، مثل نماذج GPT من OpenAI أو Gemini من Google أو نماذج Llama من Meta، على التنبؤ ببساطة بالكلمة (الكلمات) التالية في تسلسل ما حتى يكتمل. في مرحلة ما قبل التدريب، يتم تزويد النماذج ببداية عينة جملة مأخوذة من بيانات التدريب، ويتم تكليفها مرارًا وتكرارًا بتوقع الكلمة التالية في التسلسل حتى نهاية العينة. بالنسبة إلى كل تنبؤ، تُستخدم الكلمة التالية الفعلية لجملة العينة الأصلية كحقيقة أساسية.
في حين أن هذا التدريب المسبق ينتج عنه قدرات توليد نص قوية، إلا أنه لا ينتج عنه أي فهم فعلي لقصد المستخدم. على المستوى الأساسي، لا تجيب أجهزة التوليد التلقائي للنص على المطالبة فعليًا؛ فهي تُلحق نصًا بها فقط.من دون توجيه محدد للغاية في شكل هندسة المطالبة، فإن النماذج اللغوية الكبيرة المدرب مسبقًا (الذي لم يتم ضبطه بدقة) يتنبأ ببساطة، بطريقة متماسكة نحويًا، بما قد تكون الكلمة (الكلمات) التالية في تسلسل معين يبدأ بالمطالبة. إذا طُلب منك "علمني كيف أصمم سيرة ذاتية"، فقد تجيب النماذج اللغوية الكبيرة "باستخدام Microsoft Word". إنها طريقة صحيحة لإكمال الجملة، ولكنها لا تتماشى مع هدف المستخدم. قد يكون لدى النموذج بالفعل معرفة كبيرة بكتابة السيرة الذاتية مستقاة من المحتوى ذي الصلة المدرج في مجموعة ما قبل التدريب، ولكن من دون الضبط الدقيق قد لا يمكن الوصول إلى هذه المعرفة.
ومن ثم، فإن عملية الضبط الدقيق تؤدي دورًا حاسمًا ليس فقط في تصميم نماذج الأساس بما يتناسب مع أسلوبك أو أسلوب عملك وحالات الاستخدام الفريدة الخاصة بك، ولكن في جعلها مناسبة تمامًا للاستخدام العملي.
ضبط التعليمات هو مجموعة فرعية من الضبط الدقيق الخاضع للإشراف (SFT)، وغالبًا ما يُستخدم لضبط آلية التعلم الآلي للدردشة الآلية من أجل استخدام روبوتات المحادثة، والتي تهيئ آلية التعلم الآلي لتوليد استجابات تلبي احتياجات المستخدم بشكل مباشر أكثر: بمعنى آخر، لاتباع التعليمات بشكل أفضل. أمثلة مُصنَّفة على شكل (مطالبة، إجابة) - حيث تتضمن أمثلة المطالبات مهام تعليمية مثل "ترجمة الجملة التالية من الإنجليزية إلى الإسبانية" أو "تصنيف الجملة التالية إلى إيجابية أو سلبية" - توضح كيفية الاستجابة للمطالبات التي تمثل مجموعة متنوعة من حالات الاستخدام، مثل الإجابة عن الأسئلة أو التلخيص أو الترجمة. وعند تحديث أوزان النموذج لتقليل الفاقد بين نواتج النموذج والعينات المصنفة، تتعلم النماذج اللغوية الكبيرة إلحاق النص بالمطالبات بطريقة أكثر فائدة واتباع التعليمات بشكل أفضل بصفة عامة.
استمرارًا لمثال المطالبة السابق "علمني كيف أكتب سيرة ذاتية"، يمكن أن تحتوي مجموعة البيانات المستخدمة في SFT على عدد من أزواج (المطالبة، الاستجابة) التي توضح أن الطريقة المرغوبة للرد على المطالبات التي تبدأ بـ "علمني كيف" هي تقديم اقتراحات خطوة بخطوة، بدلاً من مجرد إكمال الجملة.
في حين يمكن أن يعلم ضبط التعليمات النموذج سلوكيات ملموسة ومباشرة مثل كيفية تنظيم استجاباته، إلا أنه قد يكون من الصعب تعليم الصفات الإنسانية المجردة مثل المساعدة أو الدقة الواقعية أو الفكاهة أو التعاطف من خلال أمثلة مصنفة.
لمواءمة نواتج النموذج مع السلوك البشري المثالي بشكل أفضل، خاصةً في حالات الاستخدام التخاطبي مثل روبوتات الدردشة، يمكن استكمال نموذج التحويلات المالية المعززة بالتعلم المعزز - وبشكل أكثر تحديدًا، التعلم المعزز من التعليقات البشرية (RLHF). يساعد نموذج RLHF، الذي يُطلق عليه أيضًا التعلُّم المعزز من التفضيلات البشرية، في ضبط النماذج الخاصة بالصفات المعقدة أو غير المحددة أو التي يصعب تحديدها من خلال أمثلة منفصلة.
ضع في اعتبارك الكوميديا: لتعليم نموذج ليكون "مضحكًا" باستخدام SFT لا يتطلب فقط تكلفة وجهد كتابة (أو الحصول على) ما يكفي من النكات لتكوين نمط قابل للتعلم، بل يتطلب أيضًا أن ما يعتقد عالم بيانات معين أنه مضحك يتماشى مع ما قد تجده قاعدة المستخدمين مضحكًا. يوفر التعلم المعزز من التعليقات البشرية بشكل أساسي بديلًا رياضيًا جماهيريًا: حيث يحث النماذج اللغوية الكبيرة على إنشاء النكات وجعل المختبرين البشريين يقيّمون جودتها. يمكن استخدام هذه التقييمات لتدريب نموذج المكافأة للتنبؤ بأنواع النكات التي ستتلقى ردود فعل إيجابية، وفي المقابل يمكن استخدام نموذج المكافأة هذا لتدريب النماذج اللغوية الكبيرة من خلال التعلم المعزز.
ومن الناحية العملية، يهدف يوفر التعلم المعزز من التعليقات البشرية إلى معالجة التحديات الوجودية التي تواجهها الآلات ذاتية القيادة مثل الهلوسة، والتي تعكس التحيزات المجتمعية المتأصلة في بيانات التدريب أو التعامل مع مدخلات المستخدم الفظة أو العدائية.
يمكن استخدام الضبط الدقيق لمجموعة واسعة من الأغراض، بدءًا من التخصيص إلى استكمال المعرفة الأساسية للنموذج إلى توسيع النموذج ليشمل مهام ومجالات جديدة تمامًا.
تخصيص الأسلوب: يمكن ضبط النماذج بدقة لتعكس الأسلوب المرغوب للعلامة التجارية، بدءًا من تنفيذ أنماط سلوكية معقدة وأنماط توضيحية مميزة إلى تعديلات بسيطة مثل بدء كل تبادل بتحية مهذبة.
التخصص: يمكن صقل القدرات اللغوية العامة للنماذج اللغوية الكبيرة لمهام محددة. على سبيل المثال، تم إصدار نماذج Llama 2 من Meta كنماذج تأسيس أساسية من Meta، ونماذج أخرى معدّلة لروبوت المحادثة (Llama-2-chat) ونماذج معدّلة برمجيًا (Code Llama).
إضافة معرفة خاصة بالمجال: على الرغم من أن النماذج اللغوية الكبيرة المُدرّبة مسبقًا على مجموعة ضخمة من البيانات، إلا أنها ليست شاملة المعرفة. يُعد استخدام عينات تدريب إضافية لتكملة معرفة النموذج الأساسي مناسبًا بشكل خاص في البيئات القانونية أو المالية أو الطبية، والتي عادةً ما تستلزم استخدام مفردات متخصصة وموجهة قد لا تكون ممثلة بشكل كافٍ في التدريب المسبق.
التعلّم بالقليل من الأمثلة: يمكن في كثير من الأحيان ضبط النماذج التي لديها بالفعل معرفة معممة قوية لنصوص تصنيف أكثر تحديدًا باستخدام أمثلة توضيحية قليلة نسبيًا.
معالجة الحالات على الحافة: قد ترغب في أن يتعامل نموذجك مع مواقف معينة من غير المحتمل أن تتم تغطيتها في التدريب المسبق بطريقة معينة. يُعدّ الضبط الدقيق للنموذج على أمثلة مصنفة لمثل هذه الحالات طريقة فعالة لضمان التعامل معها بشكل مناسب.
دمج بيانات الملكية: قد يكون لدى شركتك مسار بيانات مملوكة خاصة بها وذات صلة كبيرة بحالة الاستخدام الخاصة بك. يسمح الضبط الدقيق بدمج هذه المعرفة في النموذج من دون الحاجة إلى التدريب من الصفر.
تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.
استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.
تعلّم كيف يمكن للمديرين التنفيذيين تحقيق التوازن بين القيمة التي يمكن أن يقدمها الذكاء الاصطناعي مقابل الاستثمار الذي يتطلبه والمخاطر التي يثيرها.
تعلّم المفاهيم الأساسية وطوّر مهاراتك من خلال المختبرات العملية والدورات التدريبية والمشاريع الموجهة والتجارب وغيرها.
تعرّف على كيفية دمج الذكاء الاصطناعي التوليدي والتعلّم الآلي بثقة في أعمالك
هل ترغب في زيادة عائد استثماراتك في الذكاء الاصطناعي؟ تعرّف على كيفية تأثير توسيع نطاق الذكاء الاصطناعي التوليدي في المجالات الرئيسية، من خلال مساعدة أفضل العقول لديك على وضع حلول مبتكرة جديدة وطرحها.
لقد قمنا باستطلاع آراء 2000 مؤسسة حول مبادرات الذكاء الاصطناعي لديها لمعرفة ما ينجح وما لا ينجح وكيف يمكنك المضي قدمًا.
يُعَد IBM Granite مجموعة من نماذج الذكاء الاصطناعي المفتوحة والموثوق بها وذات الأداء العالي، وهي مصممة خصيصًا للأعمال ومُحسَّنة لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. استكشف خيارات اللغة والتعليمات البرمجية والسلاسل الزمنية وضوابط الحماية.
تعرّف على كيفية اختيار نموذج أساس الذكاء الاصطناعي الأكثر ملاءمة لحالة الاستخدام الخاصة بك.
تعمّق في العناصر الثلاثة الهامة لاستراتيجية الذكاء الاصطناعي القوية: إنشاء ميزة تنافسية، وتوسيع نطاق الذكاء الاصطناعي عبر الأعمال، وتطوير الذكاء الاصطناعي الجدير بالثقة.
جميع الروابط موجودة خارج موقع ibm.com
1 "النماذج الكبيرة الخاضعة للإشراف الذاتي هي نماذج قوية خاضعة للإشراف الجزئي"، arXiv، بتاريخ 26 أكتوبر 2020
2 "CSS-LM: إطار عمل تبايني للضبط الدقيق شبه الخاضع للإشراف لنماذج اللغة المدربة مسبقًا"، arXiv، بتاريخ 2 مارس 2021
3 "حول فعالية الضبط الدقيق الملائم للمعلمات"، arXiv، بتاريخ 28 نوفمبر 2022
4 "BitFit: ضبط دقيق بسيط وفعال للمعلمات لنماذج لغة مقنعة تعتمد على المحولات"، arXiv، بتاريخ 18 يونيو 2021 (تاريخ آخر تحديث 5 سبتمبر 2022)
5 "توسيع نطاق الضبط الدقيق المتفرق إلى نماذج لغوية كبيرة"، arXiv، بتاريخ 2 فبراير 2024
6 "التقليص من أجل التوسيع: دليل للضبط الدقيق باستخدام المعلمات بكفاءة"، arXiv، بتاريخ 28 مارس 2023
7 "التعلم الانتقالي الفعال للمعلمات في معالجة اللغة الطبيعية"، arXiv، بتاريخ 13 يونيو 2019