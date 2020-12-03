تقدّر النماذج اللغوية احتمالية ظهور الكلمات في جملة معيّنة، أو احتمالية وجود الجملة نفسها. وبالتالي، فهي تشكّل لبنات أساسية مفيدة في العديد من تطبيقات معالجة اللغة الطبيعية. ولكنها غالبًا ما تتطلّب قدرًا كبيرًا من بيانات التدريب حتى تصبح مفيدة لمهام أو مجالات محدّدة.

صُمِّمت النماذج اللغوية الضخمة المعتمِدة على التعلّم العميق لمعالجة هذه المشكلات الشائعة المرتبطة ببيانات التدريب. يُجرى تدريب هذه النماذج مسبقًا باستخدام كميات هائلة من البيانات غير الموسومة لتوفير نموذج تعلّم عميق عامّ الاستخدام. ومن خلال الضبط الدقيق لهذه النماذج المدرَّبة مسبقًا، يمكن للمستخدمين في المراحل اللاحقة إنشاء نماذج مخصّصة لمهام محدّدة بالاعتماد على مجموعات أصغر من بيانات تدريب موسومة، في إطار تقنية تُعرَف باسم التعلّم بالنقل. تمثل هذه النماذج قفزةً هائلة في معالجة اللغة الطبيعية: فالآن يمكن تحقيق نتائج متقدمة باستخدام مجموعات بيانات تدريبية أصغر.

حتى وقتٍ قريب، كانت الشبكات العصبية المتكررة (RNNs) تمثّل أحدث ما توصّلَت إليه نماذج اللغة في مجال معالجة اللغة الطبيعية (NLP). وتُستخدَم هذه النماذج في مهام تسلسلية مثل التلخيص التوليدي، والترجمة الآلية، وتوليد اللغة الطبيعية بشكل عام. تعالج الشبكات العصبية المتكررة (RNNs) الكلمات بشكل متسلسل، وفق ترتيب ظهورها في السياق، كلمةً تلو أخرى. ونتيجةً لذلك، يصعب تنفيذ موازاة فعّالة لهذه النماذج، كما أن قدرتها محدودة في الحفاظ على العلاقات السياقية عبر المدخلات النصية الطويلة. وكما أشرنا في منشور سابق، يُعَدّ السياق عاملًا حاسمًا في معالجة اللغة الطبيعية.

وقد قدّم نموذج Transformer، الذي طُرح في عام 2017، مقاربةً تتجاوز هذه التحديات. تعتمد نماذج Transformer (مثل BERT وGPT) على آلية الانتباه، التي "تركّز" على الكلمات الأكثر فائدة في التنبؤ بالكلمة التالية في الجملة. وبفضل آليات الانتباه هذه، تستطيع نماذج Transformer معالجة تسلسل الإدخال الكامل دفعةً واحدة، كما ترسم علاقات الاعتماد ذات الصلة بين الكلمات بغضّ النظر عن المسافة التي تفصل بينها في النص. ونتيجةً لذلك، تُعدّ نماذج Transformer عالية القابلية للموازاة، ويمكن تدريب نماذج أضخم عليها بوتيرة أسرع، كما تستفيد من القرائن السياقية لحل قدر كبير من مشكلات الغموض في النصوص.

كما أنّ لكل نموذج من نماذج Transformer مزاياه الفريدة. حتى هذا العام، كان BERT أكثر نماذج التعلّم العميق شيوعًا في مجال معالجة اللغة الطبيعية (NLP)، وحقق نتائج رائدة في العديد من مهام معالجة اللغة.

وبفضل تدريبه على 2.5 مليار كلمة، تتمثل ميزته الأساسية في اعتماده التعلّم ثنائي الاتجاه لاكتساب سياق الكلمات من اليسار إلى اليمين ومن اليمين إلى اليسار في الوقت نفسه. وقد جرى تحسين نهج التدريب ثنائي الاتجاه في BERT للتنبؤ بالكلمات المحجوبة (Masked LM)، ويتفوّق على التدريب من اليسار إلى اليمين بعد عدد قليل من خطوات ما قبل التدريب. أثناء عملية تدريب النموذج، يضيف تدريب تنبؤ الجملة التالية (NSP) قدرة للنموذج على فهم كيفية ترابط الجمل معًا، وما إذا كان ينبغي أن تسبق الجملة B الجملة A أو تأتي بعدها، وبذلك ينجح في رصد سياق أوسع. على سبيل المثال، يمكنه تمييز المعنى الدلالي لكلمة bank في الجملتين التاليتين: "Raise your oars when you get to the river bank" و"The bank is sending a new debit card". ولفهم ذلك، يستخدم النموذج قرائن سياقية من اليسار إلى اليمين حول كلمة river، ومن اليمين إلى اليسار حول عبارة debit card.

وعلى عكس نماذج BERT، فإن نماذج GPT أحادية الاتجاه. وتتمثّل الميزة الرئيسية لنماذج GPT في الحجم الهائل للبيانات التي جرَى تدريبها عليها مسبقًا؛ فقد دُرِّب نموذج GPT-3، وهو الجيل الثالث من هذه النماذج، على 175 مليار مَعْلمة، أي نحو عشرة أضعاف حجم النماذج السابقة. ويعني هذا النموذج الضخم المُدرَّب مسبقًا أنّ بإمكان المستخدمين ضبط مهام معالجة اللغة الطبيعية باستخدام قدر قليل جدًا من البيانات لإنجاز مهام جديدة. وعلى الرغم من أنّ نماذج Transformer عمومًا قلّلت كمية البيانات اللازمة لتدريب النماذج، فإن GPT-3 يتمتّع بأفضلية واضحة على BERT من حيث إنّه يتطلّب بيانات أقل بكثير لتدريب النماذج.

على سبيل المثال، يمكن تدريب النموذج باستخدام ما لا يزيد على 10 جمل لكتابة مقالة عن سبب عدم حاجة البشر إلى الخوف من الذكاء الاصطناعي. ومع ذلك، تُظهِر التفاوتات في جودة هذه المقالات الحرة حدود التقنية الحالية.