ما المقصود بالمطالبة التحفيزية الاتجاهية (DSP)؟

مؤلف

Shalini Harkar

Lead AI Advocate

ما المقصود بالمطالبة التحفيزية الاتجاهية (DSP)؟

المطالبة التحفيزية الاتجاهية (DSP) هي منهجية مطالبة جديدة في معالجة اللغة الطبيعية (NLP) حيث يتم تقديم نموذج مع محفِّز توجيهي أو منظَّم لتوليد المخرجات المطلوبة.

على عكس المطالبات القياسية مثل المطالبة بخطوة واحدة أو المطالبة الصفرية أو المطالبة بخطوات قليلة، يتميز هذا النهج بإعطاء تحكُّم مباشر في مخرجات النموذج من خلال وضع معايير أو تقديم تعليمات. في هذا النهج، يعمل المحفِّز التوجيهي كآلية تحكُّم في العملية التوليدية للنموذج على طول الخطوط المحددة بواسطة معيار معين.

تكون المطالبة التحفيزية الاتجاهية مفيدة عندما تستدعي المهمة مجموعة محددة من الاستجابات، وهي حساسة جدًا للسياق، ولكن لا تزال دون بيانات مصنّفة.

على سبيل المثال، في حالة مهام التلخيص، حيث يكون الاحتفاظ بالمعلومات الأساسية أمرًا بالغ الأهمية، توفِّر DSP محفِّزًا توجيهيًا يدفع النموذج إلى الإنتاج بطريقة معينة. وهذا يؤدي إلى التوليد الشامل لملخصات أكثر دقة وملاءمة للسياق.1

فكّر أبعد من المطالبات واحصل على السياق الكامل 

ابقَ مطَّلعًا على أحدث أخبار الصناعة وأدوات الذكاء الاصطناعي والاتجاهات الناشئة في هندسة المطالبات مع رسائل Think الإخبارية. بالإضافة إلى ذلك، احصل على شرح جديد، ودروس تعليمية، ورؤى الخبراء— تصلك مباشرة إلى بريدك الوارد. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! أنت مشترك.

الحاجة إلى المطالبة التحفيزية الاتجاهية

تُعرف النماذج اللغوية الكبيرة (LLMs) مثل GPT-3 وGPT-4 وPaLM عادةً بأنها نماذج "صندوق أسود"؛ لأن المستخدمين لا يمكنهم الوصول إلى تفاصيلها الداخلية مثل المَعلمات أو طرق الضبط أو عمليات اتخاذ القرار.

يتم هذا التفاعل بشكل أساسي من خلال المطالبات النصية التي تستخدم استدعاءات واجهة برمجة التطبيقات (API) كآليات إدخال وإخراج رئيسية. ورغم أن هذه النماذج ممتازة جدًا، فإن قدراتها على إنتاج مخرجات دقيقة خاصة بالمهمة غالبًا ما تعتمد بشكل كبير على جودة المطالبة.2، 3

بناءً على ذلك، أصبحت هندسة المطالبات لتصميم مطالبات مستهدفة لتوجيه سلوك النموذج أمرًا ذا صلة. لقد حققت طُرُق هندسة المطالبات سواء اليدوية أم المؤتمتة نجاحًا بارزًا. ومع ذلك، فإن هذه الأساليب لا تخلو من تحديات صعبة، خاصةً بالنسبة إلى المهام التي تتطلب تحكمًا قويًا أو مخرجات محددة لكل حالة.

على سبيل المثال، تتطلب مهام مثل التلخيص أو توليد الحوارات من النموذج اتِّباع السلوكيات المستهدفة بشكل منهجي، مثل تضمين التفاصيل الأساسية أو الالتزام بنمط تفكير صارم أو بإرشادات أسلوبية محددة. غالبًا ما تكون التقنيات التقليدية غير كافية لضمان الالتزام المستمر بهذه المتطلبات الدقيقة.

تهدف المطالبة التحفيزية الاتجاهية (DSP) إلى سد هذه الفجوة. تُعَد DSP نموذج سياسة مساعدًا صغيرًا، ويولِّد مطالبات تحفيزية اتجاهية مخصصة لكل حالة لتوجيه النموذج اللغوي الكبير نحو قراراته.

تعمل المطالبات الصادرة على توفير سياق محدد لكل حالة، ويُلاحظ أنها تدفع النموذج اللغوي الكبير إلى إنتاج مخرجات أكثر توافقًا وملاءمة. من خلال دمج DSP في العملية، يحصل المستخدمون على أداة قوية لتصحيح سلوك النماذج اللغوية الكبيرة "الصندوق الأسود" لتحقيق مزيد من الاتساق والملاءمة والدقة في الأعمال التي تتطلب الدقة.1

أكاديمية الذكاء الاصطناعي

كن خبيرًا في الذكاء الاصطناعي

اكتسب المعرفة لتحديد أولويات استثمارات الذكاء الاصطناعي التي تدفع نمو الأعمال. ابدأ مع أكاديمية الذكاء الاصطناعي المجانية اليوم وتولَّ زمام المبادرة لتعزيز مستقبل الذكاء الاصطناعي في مؤسستك.

كيفية عمل DSP

تدريب نموذج السياسة باستخدام الضبط الدقيق الخاضع للإشراف (SFT)

تبدأ عملية تدريب نموذج السياسة باستخدام الضبط الدقيق الخاضع للإشراف (SFT) على نموذج مدرَّب مسبقًا مثل T5 أو GPT-2 أو أي نموذج لغوي كبير مناسب آخر. الفكرة الرئيسية هي ضبط نموذج سياسة أصغر على بيانات تدريب تولِّد محفِّزات اتجاهية، بدلًا من تعديل النموذج اللغوي الكبير مباشرةً.

تُعَد هذه العملية فعَّالة؛ لأن ضبط نموذج سياسة أصغر مخصص للمهمة يتجنَّب التحديات وتكاليف الحوسبة المرتبطة بتدريب النماذج الكبيرة والمعقدة مباشرةً.

لتدريب نموذج السياسة هذا، يتم إنشاء مجموعة البيانات صغيرة مصنّفة، حيث يتم إقران كل إدخال بمحفز زائف. تم تصميم هذه المحفزات الزائفة لتوجيه استجابات النموذج اللغوي الكبير في الاتجاه المطلوب بناءً على المهمة المطروحة.

على سبيل المثال، في مهمة التلخيص، يمكن أن يتكون التحفيز الزائف من كلمات رئيسية أو عبارات مأخوذة من ملخص مرجعي. وبالمثل، في مهام إنشاء الحوارات، يمكن استخدام أفعال الحوار مثل الطلبات أو الأسئلة أو العبارات كمحفزات وهمية.

تعمل هذه المحفزات كإشارات يستخدمها نموذج السياسة لتوليد مدخلات مخصصة للمهمة، توجِّه مخرجات النموذج اللغوي الكبير بفاعلية نحو السلوك المستهدف.

قد تكون مجموعة البيانات المصنّفة المستخدمة في الضبط الدقيق الخاضع للإشراف (SFT) صغيرة نسبيًا، إذ يتركز الهدف على تزويد نموذج السياسة اللغوي بالمعرفة اللازمة لتوليد المحفزات، وليس على تدريب نموذج لغوي كبير من الصفر. وهذا يجعل SFT طريقة فعَّالة للموارد لتمهيد نموذج السياسة بالمعرفة الأساسية حول المتطلبات الخاصة بالمهمة.4

التحسين من خلال التعلم المعزز (RL)

بعد الضبط الدقيق الأوَّلي باستخدام SFT، يتم تحسين نموذج السياسة من خلال التعلم المعزز (RL). يتيح التعلم المعزز (RL) لنموذج السياسة استكشاف وتحسين قدرته على توليد المحفزات التي تؤدي إلى مخرجات أفضل للنموذج اللغوي الكبير. الفكرة الأساسية في هذه المرحلة هي استخدام دالة المكافأة لتقييم فاعلية المحفزات التي تم إنشاؤها.

على سبيل المثال، في مهام التلخيص، يمكن أن تستند دالة المكافأة إلى مقاييس مثل ROUGE أو BLEU، التي تقيس جودة الملخص الذي تم إنشاؤه مقارنةً بالمرجع. 

من خلال التركيز على تدريب نموذج السياسة بدلًا من تدريب النموذج اللغوي الكبير مباشرةً، تتجاوز DSP التحديات المرتبطة بضبط نماذج الصندوق الأسود، ما يؤدي إلى طريقة أكثر كفاءة وقابلية للتوسع. 

الشكل 1: بنية إطار عمل DSP 

 

إيجابيات DSP وسلبياتها

تتميز المطالبة التحفيزية الاتجاهية بفوائد ملحوظة وبعض التحديات، ما يجعلها تقنية مثيرة للاهتمام ومعقدة في الوقت ذاته. وفيما يلي نظرة فاحصة على مزاياها وعيوبها.5

الإيجابيات:

آلية الانتباه المستهدف: تؤكِّد آلية الانتباه المستهدف في DSP على الرموز المميزة أو المعلومات ذات الصلة، ما يعزز الدقة والكفاءة عبر تركيز المعالجة على العناصر الأساسية.

الاستخدام الأمثل للموارد: من خلال التركيز على المحفزات ذات الصلة، تقلِّل المطالبة التحفيزية الاتجاهية من متطلبات مجموعة البيانات، ما يؤدي إلى أوقات معالجة أسرع وتكاليف حسابية أقل.

الدقة المحسَّنة: من خلال عزل رموز الإدخال المميزة الأكثر صلة والتأكيد عليها، تعمل المطالبة التحفيزية الاتجاهية على تعزيز دقة استجابات النموذج اللغوي وتفسيراته.

قابلية التكيف: يمكن تخصيص هذا النهج لمختلَف المهام اللغوية، بدءًا من توليد النصوص إلى تحليل المشاعر، ما يوفر تنوعًا في مختلَف تطبيقات معالجة اللغات الطبيعية.

العيوب:

الاعتماد على إشارات دقيقة: يعتمد نجاح المطالبة التحفيزية الاتجاهية بشكل كبير على المحفزات الدقيقة، والتي قد يكون من الصعب تحقيقها في البيئات المعقدة أو الصاخبة. إذا طرأت تغييرات كبيرة على السياق أو المحفزات، فقد تتراجع فاعلية الطريقة، ما يؤدي إلى انخفاض موثوقيتها.

تعقيد التكوين: يحتاج إعداد المحفزات الاتجاهية إلى دقة في التصميم والمعايرة، ما قد يجعل عملية التكوين الأوَّلية أكثر تعقيدًا.

التعميم المحدود: قدرتها على التعميم عبر أنواع مختلفة من الإشارات أو اختلافات الإدخال غير المتوقعة محدودة، ما يَحُدّ من إمكانية تطبيقها في سياقات أوسع.

حالات الاستخدام

تُظهر المطالبة التحفيزية الاتجاهية (DSP) إمكانات كبيرة عبر مختلَف مهام معالجة اللغة الطبيعية، حيث توجِّه النماذج بفاعلية لتحسين أدائها.

التلخيص: يتم استخدام DSP لإنشاء ملخصات مرغوب فيها تتوافق بشكل أكبر مع الملخصات المرجعية. في تجربة عملية، باستخدام مجموعة بيانات صغيرة تتكون من 4,000 عينة فقط من مجموعة CNN/Daily Mail، حسَّنت DSP أداء المؤشرات القياسية مثل ROUGE وBLEU، بالإضافة إلى مقاييس أخرى بما في ذلك درجات تفضيل البشر بنسبة تتراوح بين 4 و13%، متجاوزًا بعض النماذج الخاضعة للإشراف الكامل.6

توليد استجابات الحوارات: في توليد الحوارات الموجَّهة نحو المهام، ساعَدت DSP نموذج ChatGPT على إنتاج استجابات أكثر دقة وملاءمة. على سبيل المثال، باستخدام 80 حوارًا فقط من مجموعة بيانات MultiWOZ، حقَّقت DSP تحسُّنًا في الأداء بنسبة 41.4%، متفوقة على عدة نماذج متقدمة مثل ChatGPT وCodex وInstructGPT التي تم تدريبها على مجموعات بيانات أكبر.7

سلسلة الأفكار: تعزز DSP أيضًا سلسلة الأفكار من خلال توليد محفزات مخصصة لكل حالة، حيث تتجاوز المحفزات المصممة يدويًا والتي يتم إنشاؤها تلقائيًا للمهمة، ما يؤدي إلى تحسين دقة الاستدلال. توضِّح هذه الأمثلة كيف يمكن لتقنية DSP تقديم إرشادات مستهدفة، ما يعزز أداء النموذج عبر مجموعة من تطبيقات معالجة اللغة الطبيعية.8

حلول ذات صلة
®IBM® watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي في وقت قصير وباستخدام جزء بسيط من البيانات.

استكشف watsonx.ai
حلول الذكاء الاصطناعي

استفِد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها التي ستكون بجانبك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات في مجال الذكاء الاصطناعي

تساعد خدمات IBM Consulting AI في إعادة تصور طريقة عمل الشركات باستخدام حلول الذكاء الاصطناعي من أجل النهوض بأعمالها.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

باستخدام الذكاء الاصطناعي، يكشف IBM Concert عن رؤى مهمة حول عملياتك ويقدم توصيات خاصة بالتطبيق من أجل التحسين. اكتشف كيف يمكن لمنصة Concert تعزيز نمو أعمالك.

استكشف Concert® استكشف حلول أتمتة عمليات الأعمال
الحواشي

1 Zekun Li, Baolin Peng, Pengcheng He, Michel Galley, Xifeng Yan, jianfeng gao,(Microsoft, 22nd Feb 2023), Guiding Large Language Models via Directional Simulus Prompting, arXiv:2302.11520.
https://github.com/Leezekun/Directional-Stimulus-Prompting. 

2 Sun, T., et.al, Black-box tuning for language-model as-a-service. In International Conference on Machine Learning, pp. 20841–20855. PMLR, 2022.

3 OpenAI. Gpt-4 technical report, 2023.

4 Wanwei He, et al., Galaxy: A generative pre-trained model for task-oriented dialog with semi-supervised learning and explicit policy injection. In Proceedings of the AAAI Conference on Artificial Intelligence, pp. 10749–10757, 2022.

5 Fei Liu (11th October 2024), A Systematic Survey on Large Language Models for Algorithm Design. arXiv: 2410.14716.

6 Goyal, T., Li, J. J., and Durrett, G. News summarization and evaluation in the era of GPT-3. arXiv preprint arXiv: 2209.12356, 2022.

7 Khattab, O., Santhanam, K., Li, X. L., Hall, D., Liang, P., Potts, C., and Zaharia, M. Demonstrate-search-predict: Composing retrieval and language models for knowledge-intensive nlp. arXiv preprint arXiv: 2212.14024, 2022.

8 Shi, W., Min, S., Yasunaga, M., Seo, M., James, R., Lewis, M., Zettlemoyer, L., and Yih, W.-t. Replug: Retrieval-augmented black-box language models. arXiv preprint arXiv: 2301.12652, 2023.