ما المقصود بالنماذج اللغوية المقنعة؟

جسر Infinity في Stockton on Tee، المملكة المتحدة.

تعمل النمذجة اللغوية المقنعة على تدريب النماذج على التنبؤ بالكلمات المفقودة في النص. وعادةً ما تُدرّب النماذج مسبقًا على مهام معالجة اللغة الطبيعية (NLP) اللاحقة.

النماذج اللغوية المقنعة (MLM) هي نوع من النماذج اللغوية الكبرى (LLM) المستخدمة للمساعدة على التنبؤ بالكلمات المفقودة من النص في مهام معالجة اللغة الطبيعية (NLP). وعليه، تُعد النمذجة اللغوية المقنعة أحد أشكال تدريب نماذج المحولات—ولا سيما تمثيلات التشفير ثنائية الاتجاه من المحولات (BERT) ومشتقاته المحسنة بقوة والمدربة مسبقًا (RoberTA)—على مهام معالجة اللغة الطبيعية من خلال تدريب النموذج على ملء الكلمات المقنعة داخل النص، ومن ثَم التنبؤ بالكلمات الأكثر احتمالية وتماسكًا لإكمال النص.1

تساعد النمذجة اللغوية المقنعة في العديد من المهام—بدءًا من تحليل المشاعر إلى توليد النصوص—من خلال تدريب النموذج على فهم العلاقة السياقية بين الكلمات. في الواقع، غالبًا ما يستخدم المطورون الباحثون النمذجة اللغوية المقنعة لإنشاء نماذج مدربة مسبقًا تخضع لمزيد من الضبط الدقيق الخاضع للإشراف للمهام اللاحقة، مثل تصنيف النصوص أو الترجمة الآلية. ومن ثَم، تدعم النماذج اللغوية المقنعة العديد من خوارزميات النمذجة اللغوية الحديثة. على الرغم من أن النمذجة اللغوية المقنعة هي طريقة للتدريب المسبق للنماذج اللغوية، فإن المصادر الإلكترونية تشير إليها أحيانًا على أنها طريقة تعلم بالنقل. قد يكون هذا مبررًا، حيث بدأت بعض مجموعات البحث في تطبيق النمذجة اللغوية المقنعة كمهمة نهائية بحد ذاتها.

تحتوي محولات HuggingFace ومكتبات Tensorflow النصية على دوال مصممة لتدريب النماذج اللغوية المقنعة في Python واختبارها، سواء كمهام نهائية أو مهام لاحقة.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

كيفية عمل النماذج اللغوية المقنعة

تُعد الإجراءات العامة التي تميز النماذج اللغوية المقنعة واضحة إلى حد ما. ولكونها شكلاً من أشكال التعلم غير الخاضع للإشراف، تبدأ النمذجة اللغوية المقنعة بمجموعة بيانات نصية كبيرة وغير مصنفة. تستبدل الخوارزمية عينة عشوائية من الكلمات من هذا الإدخال النصي برموز مميزة مقنعة، والتي يمكن أن تتكون من الرمز [MASK] أو رموز كلامية أخرى من مفردات نص الإدخال. لكل رمز مقنع، يتنبأ النموذج بعد ذلك بالرموز الكلامية المرجح ظهورها في نص الإدخال الأصلي.2

على سبيل المثال، في الجملة التالية من مسرحية عطيل لشكسبير، جرى استبدال كلمتين برموز مميزة مقنعة بينما جرى استبدال كلمة أخرى برمز مميز مختلف تمامًا:

تصوير مرئي لتقنيع كلمات في مثال مسرحية عطيل

بعد ذلك، سيدرب النموذج وحدة تشفير ثنائية الاتجاه على التنبؤ بالرمز المميز للإدخال الأصلي والذي جرى تقنيعه. كيف يفعل ذلك؟ لا شك أن توضيح الآليات الداخلية للنماذج اللغوية المقنعة يتطلب معرفة أساسية بالجبر المتقدم والتعلم الآلي. ومع ذلك، يمكن إلقاء نظرة عامة سريعة.

لكل رمز كلامي في بيانات النص المدخلة، يولد النموذج تضمينات كلامية مشابهة لنموذج حقيبة الكلمات. يجمع النموذج بين التضمينات الكلامية هذه والترميزات المكانية لإنشاء مدخلات المحول. تمثل الترميزات المكانية، باختصار، موقع رمز كلامي معين في تسلسل باستخدام قيمة متجهة فريدة. من خلال الترميزات المكانية (أو التضمينات المكانية)، يمكن للنموذج تسجيل معلومات دلالية حول الكلمات من خلال علاقاتها المكانية مع الكلمات الأخرى.

 

يستخدم نموذج المحول هذه التضمينات الكلامية والمكانية لإنشاء توزيعات احتمالية على مفردات الإدخال لكل رمز مميز مقنع. الكلمات ذات الاحتمالية الأعلى المتوقعة لكل رمز مميز مقنع هي تنبؤات النموذج الخاصة بالقيمة الحقيقية لكل رمز مميز.3

 

طرق التنبؤ بالرموز المميزة المقنعة

تُعد النمذجة اللغوية المقنعة سمة مميزة للتدريب المسبق للنموذج المحول BERT—بل في الواقع، دُمج الاثنان معًا وقُدما إلى مجتمع التعلم الآلي. قبل BERT، كانت النماذج اللغوية أحادية الاتجاه. وهذا يعني أنهم تعلموا تمثيلات اللغة من خلال التفكير في النص الذي يسبق كلمة معينة. ومع ذلك، فإن نهج BERT في مهمة النمذجة اللغوية المقنعة يأخذ في الحسبان كلاً من النص السابق والنص التالي.4 يعتمد وجه الاختلاف الأساسي بين النُهج أحادية الاتجاه وثنائية الاتجاه على كيفية فك طبقة الاهتمام الذاتي في المحول لتشفير قيم الإخراج.

عند توقع الكلمة التالية في التسلسل—أو في حالتنا هذه، الكلمة المفقودة—يأخذ النموذج أحادي الاتجاه في الحسبان الكلمات التي تسبق القيمة المفقودة فقط. وتسمى وحدات فك تشفير المحولات التي تعمل بهذه الطريقة أيضًا السببية أو الاسترجاعية. عند معالجة تسلسل الإدخال، تأخذ وحدات فك التشفير فقط في الحسبان تلك المدخلات التي تصل إلى وتتضمن رمز الإدخال المعني؛ لا تتمكن وحدات فك التشفير من الوصول إلى مدخلات الرموز المميزة التالية بعد الرمز قيد النظر. على النقيض من ذلك، تولد وحدات التشفير ثنائية الاتجاه، كما هي معتمدة في نموذج BERT، تنبؤات باستخدام جميع رموز الإدخال، لتلك التي تسبق القيمة المقنعة وتلك التي تليها.5

للتوضيح، دعونا نعد إلى اقتباس عطيل المذكور: "But I do think it is their husbands’ faults if wives do fall." تخيل أنه، لسبب ما، لدينا هذا النص كامل باستثناء كلمة wives: "But I do think it is their husbands’ faults if ________ do fall." ونريد تحديد ما يملأ هذا الفراغ. يوضح هذا الشكل الاختلاف في كيفية معالجة كل من وحدات فك التشفير للجملة التي نستخدمها كمثال:

تصور مرئي يقارن بين وحدات تشفير مختلفة في معالجة الرموز المميزة

في هذا الشكل، تشير y إلى المخرج المتوقع للرمز المميز المقنع. لا يستخدم المحول أحادي الاتجاه إلا تلك القيم المدخلة التي تسبق الرمز المميز المقنع للتنبؤ بقيمته. ومع ذلك، يستخدم المحول ثنائي الاتجاه التضمينات المكانية من جميع القيم المدخلة—سواء تلك التي تسبق الرمز المقنع أو التي تليه—للتنبؤ بقيمة الرمز المميز المقنع.

الأبحاث الحديثة

يستخدم المطورون والباحثون نماذج لغوية مقنعة لتشغيل العديد من مهام معالجة اللغة الطبيعية، مثل التعرف على الكيانات المسماة، والإجابة عن الأسئلة، وتصنيف النصوص. وكما هو الحال مع العديد من مجالات معالجة اللغة الطبيعية، غالبًا ما تركز أبحاث النمذجة اللغوية المقنعة على اللغات اللاتينية، وخاصةً اللغة الإنجليزية. وفي الآونة الأخيرة، طوّرت تجارب منشورة مجموعات بيانات للغات غير اللاتينية، مثل اليابانية والروسية، وقيمتها من أجل النمذجة اللغوية المقنعة والمهام اللاحقة.6 بالإضافة إلى ذلك، تقترح إحدى المجموعات البحثية طريقة ضعيفة الإشراف لتدريب النماذج اللغوية المقنعة متعددة اللغات مسبقًا. على وجه التحديد، يقدمون رمزًا مقنعًا خاصًا لتنفيذ تمرير عبر اللغات في أثناء التدريب المسبق على مجموعات البيانات متعددة اللغات. وتُظهر طريقتهم تحسنًا ملحوظًا في التصنيف متعدد اللغات باستخدام نماذج لغوية مقنعة متعددة اللغات.7

أكاديمية الذكاء الاصطناعي

لماذا تعد نماذج الأساس نقلة نوعية في الذكاء الاصطناعي

تعرَّف على فئة جديدة من نماذج الذكاء الاصطناعي المرنة والقابلة لإعادة الاستخدام التي يمكن أن تفتح مصادر جديدة للإيرادات، وتُسهم في تقليل التكاليف، وزيادة الإنتاجية، ثم استخدم دليلنا لمعرفة المزيد من التفاصيل.

حالات الاستخدام

وكما ذكرنا، قد يستخدم الباحثون غالبًا النمذجة اللغوية المقنعة كوسيلة لتحسين أداء النماذج في مهام معالجة اللغة الطبيعية اللاحقة. تتضمن هذه المهام ما يلي:

التعرف على الكيانات المسماة. تستخدم هذه المهمة النماذج والشبكات العصبية لتحديد فئات الكائنات المحددة مسبقًا في النصوص—مثل أسماء الأشخاص، وأسماء المدن، وما إلى ذلك. وكما هو الحال مع العديد من أهداف التعلم الآلي، كان نقص البيانات المناسبة عقبة أمام التعرف على الكيانات المسماة. ولمعالجة هذه المشكلة، استكشف الباحثون النمذجة اللغوية المقنعة كشكل من أشكال زيادة البيانات للتعرف على الكيانات المسماة، وقد حقق ذلك نجاحًا ملحوظًا.8

تحليل المشاعر. تحليل المشاعر يحلل البيانات ويصنفها إلى إيجابية أو سلبية أو محايدة. وغالبًا ما يُستخدم لتصنيف مجموعات كبيرة من تقييمات العملاء عبر الإنترنت. وعلى غرار التعرف على الكيانات المسماة، استكشف الباحثون النمذجة اللغوية المقنعة كتقنية لزيادة البيانات في مهام تحليل المشاعر.9 علاوة على ذلك، تُظهِر النمذجة اللغوية المقنعة أنها واعدة في التكيف مع المجال من أجل مهام تحليل المشاعر. ويشير البحث تحديدًا إلى أنها تساعد على التركيز على التنبؤ بالكلمات ذات الأوزان الكبيرة في مهام تصنيف المشاعر.10

حلول ذات صلة
نماذج الأساس

استكشف مكتبة نماذج الأساس من IBM في محفظة watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

استكشف مكتبة نماذج الأساس من IBM في محفظة IBM watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.

استكشف watsonx.ai استكشف حلول الذكاء الاصطناعي
الحواشي

1 Daniel Jurafsky وJames Martin، معالجة الكلام واللغات: مقدمة في معالجة اللغة الطبيعية، واللغويات الحاسوبية، والتعرف على الكلام، الطبعة الثالثة، عام 2023، https://web.stanford.edu/~jurafsky/slp3.

2 Lewis Tunstall، وLeandro von Werra، وThomas Wolf، معالجة اللغات الطبيعية باستخدام المحولات، الطبعة المنقحة، O’Reilly Media، عام 2022.

3 Daniel Jurafsky وJames Martin، معالجة الكلام واللغات: مقدمة في معالجة اللغة الطبيعية، واللغويات الحاسوبية، والتعرف على الكلام، الطبعة الثالثة، عام 2023، https://web.stanford.edu/~jurafsky/slp3. Denis Rothman، المحولات في معالجة اللغة الطبيعية ورؤية الكمبيوتر، الطبعة الثالثة، Packt Publishing، عام 2024.

4 Jacob Devlin، وMing-Wei Chang، وKenton Lee، وKristina Toutanova، "BERT: التدريب المسبق للمحولات العميقة ثنائية الاتجاه من أجل فهم اللغة،" وقائع مؤتمر 2019 لفرع أمريكا الشمالية لجمعية اللغويات الحاسوبية، عام 2019، https://aclanthology.org/N19-1423.

5 Daniel Jurafsky وJames Martin، معالجة الكلام واللغات: مقدمة في معالجة اللغة الطبيعية، واللغويات الحاسوبية، والتعرف على الكلام، الطبعة الثالثة، عام 2023، https://web.stanford.edu/~jurafsky/slp3.

6 Masahiro Kaneko، وAizhan Imankulova، وDanushka Bollegala، وNaoaki Okazaki، "التحيز الجندري في النماذج اللغوية المقنعة متعددة اللغات"، وقائع مؤتمر 2022 لفرع أمريكا الشمالية لجمعية اللغويات الحاسوبية: تقنيات اللغة البشرية، عام 2022، https://aclanthology.org/2022.naacl-main.197. Sheng Liang، وPhilipp Dufter، وHinrich Schütze، "الحد من التحيز الجنسي أحادي اللغة ومتعدد اللغات في التمثيلات السياقية"، وقائع المؤتمر الدولي الثامن والعشرين حول اللغويات الحاسوبية، عام 2020، https://aclanthology.org/2020.coling-main.446.

7 Xi Ai وBin Fang، "التقنيع السريع متعدد اللغات للتدريب المسبق متعدد اللغات"، وقائع الاجتماع السنوي الحادي والستين لجمعية اللغويات الحاسوبية، عام 2023، https://aclanthology.org/2023.acl-long.49.

8 Ran Zhou، وXin Li، وRuidan He، وLidong Bing، وErik Cambria، وLuo Si، وChunyan Miao، "MELM: زيادة البيانات باستخدام نمذجة لغة الكيانات المقنعة من أجل NER منخفضة الموارد،" وقائع الاجتماع السنوي الستين لجمعية اللغويات الحاسوبية، عام 2022، https://aclanthology.org/2022.acl-long.160.

9 Larisa Kolesnichenko، وErik Velldal، وLilja Øvrelid "استبدال الكلمات بنماذج لغوية مقنعة كوسيلة لزيادة البيانات من أجل تحليل المشاعر،" وقائع ورشة العمل الثانية حول الموارد والتمثيلات للغات والمجالات منخفضة الموارد (RESOURCEFUL-2023)، عام 2023، https://aclanthology.org/2023.resourceful-1.6.

10 Nikolay Arefyev، وDmitrii Kharchev، وArtem Shelmanov، "NB-MLM: تكييف المجال الفعال للنماذج اللغوية المقنعة من أجل تحليل المشاعر"، وقائع مؤتمر 2021 حول الأساليب التجريبية في معالجة اللغة الطبيعية، عام 2021، https://aclanthology.org/2021.emnlp-main.717.