ما هي النماذج اللغوية الكبيرة (LLMs)؟

مؤلف

Cole Stryker

Staff Editor, AI Models

IBM Think

ما هي النماذج اللغوية الكبيرة (LLMs)؟

تعد النماذج اللغوية الكبيرة (LLM) فئة من نماذج التعلم العميق المدرَّبة على كميات هائلة من البيانات، مما يجعلها قادرة على فهم وتوليد اللغة الطبيعية وأنواع أخرى من المحتوى لأداء مجموعة كبيرة من المهام. تم بناء النماذج اللغوية الكبيرة (LLM) على نوع من بنية الشبكات العصبية يُسمَّى المحول الذي يتفوق في التعامل مع تسلسل الكلمات والتقاط الأنماط في النص.

تعمل النماذج اللغوية الكبيرة (LLM) كآلات تنبؤ إحصائية عملاقة تتنبأ بشكل متكرر بالكلمة التالية في التسلسل المعين. فهي تتعلم أنماطًا في نصوصها وتقوم بتوليد لغة تتبع تلك الأنماط.

تُمثل أنظمة النماذج اللغوية الكبيرة (LLM) قفزة كبيرة في كيفية تفاعل البشر مع التقنية لأنها أول نظام ذكاء اصطناعي يمكنه التعامل مع اللغة البشرية غير المهيكلة على نطاق واسع، مما سمح بالتواصل الطبيعي مع الآلة. وبينما نرى محركات البحث التقليدية والأنظمة المبرمجة الأخرى قد استخدمت الخوارزميات لمطابقة الكلمات الرئيسية، نرى النماذج اللغوية الكبيرة (LLM) تلتقط سياقًا أشمل وتفاصيل ومنطقًا أعمق. يمكن للنماذج اللغوية الكبيرة (LLM)، بمجرد تدريبها، التكيف مع العديد من التطبيقات التي تنطوي على تفسير النص، مثل تلخيص مقال، أو تصحيح كود أو صياغة بند قانوني. فعندما يتم منحها قدرات فاعلة، يمكن للنماذج اللغوية الكبيرة (LLM) أن تؤدي مهام مختلفة كان يؤديها البشر من قبلُ، على درجات متفاوتة من الاستقلالية.

تعد النماذج اللغوية الكبيرة (LLM) تتويجًا لعقود من التقدم العلمي في معالجة اللغة الطبيعية (NLP) وأبحاث التعلم الآلي، وتطويرها مسؤول إلى حد كبير عن انفجار تطورات الذكاء الاصطناعي خلال أواخر عامي 2010 و2020. وأصبحت النماذج اللغوية الكبيرة (LLM) الشهيرة معروفة ودخلت كل بيت، مما دفع الذكاء الاصطناعي التوليدي إلى صدارة الاهتمام العام. كما تُستخدَم آليات إدارة التعلم الآلي على نطاق كبير في الشركات، حيث تستثمر المؤسسات بشكل كبير في العديد من وظائف الأعمال وحالات الاستخدام.

يمكن للجمهور الوصول بسهولة إلى النماذج اللغوية الكبيرة (LLM) عبر واجهات مثل Claude من Anthropic، وChatGPT من Open AI، وCopilot من Microsoft، ونماذج Llama من Meta، ومساعد Gemini من Google، علاوة على نماذج BERT وPaLM. تحتفظ شركة IBM بسلسلة طرازات Granite على منصة watsonx.ai، والتي أصبحت العمود الفقري للذكاء الاصطناعي التوليدي لمنتجات IBM الأخرى مثل watsonx Assistant وwatsonx Orchestrate

التدريب المسبق للنماذج اللغوية الكبيرة

يبدأ التدريب بكمية هائلة من البيانات؛ مليارات أو تريليونات الكلمات من الكتب والمقالات والمواقع الإلكترونية والتعليمات البرمجية ومصادر النصوص الأخرى. حيث يشرف علماء البيانات على التنظيف والمعالجة المسبقة لإزالة الأخطاء والازدواجية والمحتوى غير المرغوب فيه.

يتم تقسيم هذا النص إلى وحدات أصغر يمكن قراءتها آليًّا تُسمَّى "رمز مميز"، أثناء عملية "ترميز النصوص" الرموز المميزة هي وحدات أصغر مثل الكلمات أو الكلمات الفرعية أو الأحرف. ويؤدي ذلك إلى تقييس اللغة بحيث يمكن التعامل مع الكلمات النادرة والجديدة بشكل متسق.

يتم تدريب النماذج اللغوية الكبيرة (LLM) في البداية باستخدام التعلم الذاتي الإشرافي، وهي تقنية التعلم الآلي التي تستخدم بيانات غير مصنفة للتعلم الخاضع للإشراف. ولا يتطلب التعلّم الخاضع للإشراف الذاتي مجموعات بيانات مصنفة، بل يرتبط ارتباطًا وثيقًا بالتعلّم الخاضع للإشراف من حيث إنه يحسّن الأداء مقابل "حقيقة أساسية" واحدة. في التعلم الخاضع للإشراف الذاتي، يتم تصميم المهام بحيث يمكن استنتاج "الحقيقة الأساسية" من البيانات غير المصنفة. فبدلًا من أن يتم إخباره ما هو "الناتج الصحيح" لكل إدخال، كما هو الحال في التعلّم تحت الإشراف، يحاول النموذج إيجاد الأنماط أو البِنى أو العلاقات في البيانات من تلقاء نفسه.

الانتباه الذاتي

يقوم النموذج بتمرير الرموز المميزة عبر شبكة محول من المحولات. تعد نماذج المحولات، التي ظهرت عام 2017، مفيدة نظرًا لآلية الانتباه الذاتي الخاصة بها، والتي تسمح لها "بالانتباه" إلى الرموز المميزة المختلفة في لحظات مختلفة. هذه التقنية هي محور المحول وابتكاراته الرئيسية. يُعدُّ الانتباه الذاتي مفيدًا جزئيًا لأنه يسمح لنموذج الذكاء الاصطناعي بحساب العلاقات والتبعيات بين الرموز المميزة، خاصة تلك البعيد بعضها عن بعض في النص. وتسمح بنية المحول بالتوازي، مما يجعل العملية أكثر كفاءة من الطرق السابقة. وقد أتاحت هذه الصفات للنماذج اللغوية الكبيرة (LLM) بالتعامل مع مجموعات البيانات التي اتسمت بأنها كبيرة الحجم بشكل لم يسبق له مثيل.

بمجرد تقسيم النص إلى رموز مميزة، يتم تعيين كل رمز مميز إلى متجه من الأرقام يُسمَّى تضمين. وتتكون الشبكات العصبية من طبقات من الخلايا العصبية الاصطناعية، حيث تقوم كل خلية عصبية بإجراء عملية رياضية. وتتكون المحولات من العديد من هذه الطبقات، وفي كل منها يتم تعديل التضمينات بشكل طفيف، لتصبح تمثيلات سياقية أكثر ثراءً من طبقة إلى أخرى.

الهدف من هذه العملية هو أن يتعلم النموذج الارتباطات الدلالية بين الكلمات، بحيث تظهر كلمات مثل "النباح" و"كلب" أقرب بعضها من بعض في فضاء المتجهات في مقالة عن الكلاب أكثر من ظهور الكلمتين "النباح" و"الشجرة"، وذلك بناء على الكلمات المحيطة المتعلقة بالكلاب في المقالة. تضيف المحولات أيضًا ترميزات موضعية، والتي تعطي كل رمز مميز معلومات حول مكانه في التسلسل.

ولحساب الانتباه، يتم إسقاط كل تضمين في ثلاثة متجهات مختلفة باستخدام مصفوفات الوزن المكتسبة: استعلام ومفتاح وقيمة. ويمثل الاستعلام ما "يبحث عنه" رمز مميز معين، ويمثل المفتاح المعلومات التي يحتوي عليها كل رمز مميز، حيث القيمة "تُرجع" المعلومات من كل متجه مفتاح، بعد قياسها بوزن الانتباه الخاص بها.

يتم حساب درجات المحاذاة على أنها التشابه بين الاستعلامات والمفاتيح. وهذه الدرجات، بمجرد تطبيعها إلى أوزان انتباه، تحدد مقدار ما يتدفق من كل متجه قيمة في تمثيل الرمز المميز الحالي. وتسمح هذه العملية للنموذج بالتركيز بمرونة على السياق ذي الصلة مع تجاهل الرموز المميزة الأقل أهمية (مثل "الشجرة").

وهكذا نرى أن الانتباه الذاتي يخلق ارتباطات "مرجحة" بين جميع الرموز المميزة بشكل أكثر كفاءة من البِنى السابقة. ويقوم النموذج بتعيين الأوزان لكل علاقة بين الرموز المميزة. ويمكن أن تحتوي النماذج اللغوية الكبيرة (LLM) على مليارات أو تريليونات من هذه الأوزان، والتي تعد أحد أنواع معلمات LLM، وهي متغيرات التكوين الداخلية لنموذج التعلم الآلي الذي يتحكم في كيفية معالجة البيانات وإجراء التنبؤات. ويشير عدد المعلمات إلى عدد هذه المتغيرات الموجودة في النموذج، علمًا بأن بعض النماذج اللغوية الكبيرة (LLM) تحتوي على مليارات المعلمات. وتعتبر نماذج اللغة الصغيرة أصغر حجمًا ونطاقًا مع عدد قليل نسبيًا من المعلمات، مما يجعلها مناسبة للنشر على أجهزة أصغر أو في بيئات محدودة الموارد.

أثناء التدريب، يقوم النموذج بعمل تنبؤات عبر ملايين الأمثلة المستمدة من بيانات التدريب الخاصة به، وتحدد دالة الخسارة خطأ كل تنبؤ. ومن خلال دورة تكرارية لعمل التنبؤات ثم تحديث أوزان النموذج من خلال الانتشار الخلفي وانحدار التدرج، "يتعلم" النموذج الأوزان في الطبقات التي تنتج متجهات الاستعلام والمفتاح والقيمة.

بمجرد تحسين هذه الأوزان بشكل كافٍ، فإنها تكون قادرة على استيعاب تضمين المتجه الأصلي لأي رمز مميز وإنتاج متجهات الاستعلام والمفتاح والقيمة له، والتي عند التفاعل مع المتجهات المولَّدة لجميع الرموز المميزة الأخرى، ستؤدي إلى درجات محاذاة "أفضل" والتي بدورها تؤدي إلى أوزان انتباه تساعد النموذج على إنتاج مخرجات أفضل. فتكون النتيجة النهائية الحصول على نموذج قد تعلم أنماطًا في قواعد النحو والحقائق وبنية التفكير وأنماط الكتابة والمزيد.

الضبط الدقيق للنماذج اللغوية الكبيرة

بعد التدريب (أو بعد "التدريب المسبق"، في سياق التدريب الإضافي)، يمكن ضبط النماذج اللغوية الكبيرة (LLM) لجعلها أكثر فائدة في سياقات معينة. على سبيل المثال، يمكن ضبط نموذج أساسي تم تدريبه على مجموعة كبيرة من المعارف العامة على مجموعة من الأسئلة والأجوبة القانونية من أجل إنشاء روبوت محادثة للمجال القانوني.

فيما يلي بعض من أشهر أشكال الضبط الدقيق. قد يستخدم الممارسون طريقة واحدة أو مزيجًا من عدة طرق.

الضبط الدقيق الخاضع للإشراف

غالبًا ما يحدث الضبط الدقيق في سياق خاضع للإشراف مع مجموعة بيانات أصغر بكثير ومصنفة. حيث يقوم النموذج بتحديث أوزانه ليتناسب بشكل أفضل مع الحقيقة الأساسية الجديدة (في هذه الحالة، البيانات المصنفة).

بينما نجد أن الهدف من التدريب المسبق هو إعطاء النموذج معارف عامة واسعة، فإن الضبط الدقيق يكيّف نموذجًا للأغراض العامة مع مهام محددة مثل التلخيص أو التصنيف أو دعم العملاء. تمثل هذه التعديلات الوظيفية أنواعًا جديدة من المهام. وينتج عن الضبط الدقيق الخاضع للإشراف مخرجات أقرب إلى الأمثلة التي يقدمها الإنسان، مما يتطلب موارد أقل بكثير من التدريب من الصفر.

يُعدُّ الضبط الدقيق الخاضع للإشراف مفيدًا أيضًا للتخصيص حسب كل مجال، كتدريب نموذج مثلًا على المستندات الطبية حتى تتكون لديه مقدرة على الإجابة عن أسئلة الرعاية الصحية. 

التعلم المعزز من خلال التغذية الراجعة البشرية

لتحسين النماذج بشكل أكبر، يستخدم علماء البيانات غالبًا التعلم المعزز من خلال التغذية الراجعة البشرية (RLHF)، وهو شكل من أشكال الضبط الدقيق يقوم البشر فيه بتصنيف مخرجات النموذج ويتم تدريب النموذج على تفضيل المخرجات المُصنَّفة بدرجة عالية من قِبل البشر. وغالبًا يتم استخدام التعلم المعزز من خلال التغذية الراجعة البشرية (RLHF) في المحاذاة، وهي عملية تتكون من جعل مخرجات النماذج اللغوية الكبيرة (LLM) مفيدة وآمنة ومتسقة باستخدام قيم بشرية.

كما أن التعلم المعزز من خلال التغذية الراجعة البشرية (RLHF) مفيد أيضًا بشكل خاص للمحاذاة الأسلوبية، حيث يمكن تعديل النموذج اللغوي الكبير (LLM) للاستجابة بطريقة أكثر رسمية أو فكاهية أو متناسقة مع العلامة التجارية. وتتضمن المحاذاة الأسلوبية التدريب على نفس أنواع المهام، لكن مع إنتاج المخرجات بأسلوب معين.

نماذج الاستدلال

يقوم الضبط الدقيق الخاضع للإشراف البحت بتعليم النموذج كيفية تقليد الأمثلة، لكنه لا يحفزه بالضرورة على التفكير الأفضل، والذي يتضمن عمليات تجريدية متعددة الخطوات. لا تحتوي مثل هذه المهام دائمًا على بيانات مصنفة وفيرة، ولذلك يتم غالبًا استخدام التعلم المعزز في إنشاء نماذج التفكير، وهي نماذج لغوية كبيرة (LLM) تم ضبطها بدقة لتقسيم المشكلات المعقدة إلى خطوات أصغر، تُسمَّى غالبًا "مسارات التفكير"، قبل توليد المخرج النهائي. كما نجد أن وسائل تدريب النماذج متزايدة التعقيد تمنح هذه النماذج القدرة على التفكير المتسلسل واستراتيجيات أخرى لاتخاذ القرارات متعددة الخطوات.

ضبط التعليمات

هناك شكل آخر من أشكال تخصيص النموذج اللغوي الكبير (LLM) وهو الضبط الدقيق بالتعليمات، وهي عملية مصممة خصيصًا لتحسين قدرة النموذج على اتباع التعليمات البشرية. حيث تتألف عينات الإدخال في مجموعة البيانات بالكامل من مهام تشبه الطلبات التي يطرحها المستخدمون في الموجِّه؛ وتوضح المخرجات الاستجابات المرغوبة لتلك الطلبات. ولأن النماذج اللغوية الكبيرة (LLM) المدرَّبة مسبقًا لم يتم تحسينها بطبيعتها لاتباع التعليمات أو تحقيق الأهداف الحوارية، يتم استخدام الضبط الدقيق بالتعليمات لمحاذاة النموذج بشكل أفضل مع نية المستخدم.

استخدام النماذج اللغوية الكبيرة

بمجرد إتمام التدريب، تعمل النماذج اللغوية الكبيرة من خلال الاستجابة للموجِّهات عن طريق ترميز الموجِّه، وتحويلها إلى تضمين، واستخدام محولها لتوليد نص رمز مميز واحد في كل مرة، وحساب احتمالات جميع الرموز المميزة التالية المحتملة، وإخراج أكثرها احتمالًا. وتتكرر هذه العملية، التي تُسمَّى الاستدلال، حتى يكتمل الإخراج. لكن النموذج لا "يعرف" الإجابة النهائية مقدمًا؛ بل يستخدم جميع العلاقات الإحصائية التي تعلمها في التدريب للتنبؤ برمز مميز واحد في كل مرة، ويقوم بأفضل تخمين في كل خطوة.

أسهل وأسرع طريقة للحصول على معرفة خاصة بالمجال من النموذج اللغوي الكبير (LLM) للأغراض العامة هي من هندسة الأوامر (المُدخلات)، والتي لا تتطلب تدريبًا إضافيًا. حيث يمكن للمستخدمين تعديل الموجِّهات بكل الطرق. على سبيل المثال، يمكن أن يسفر موجّه مثل "أجب بصوت أخصائي رعاية صحية مدرَّب" عن نتائج أكثر ملاءمة (مع العلم أنه لا يُنصح باستخدام النماذج اللغوية الكبيرة (LLM) للحصول على المشورة الطبية!).

لدى النماذج اللغوية الكبيرة (LLM) استراتيجيات أخرى للتحكم في مخرجاتها، مثل درجة حرارة النموذج LLM)، والتي تتحكم في عشوائية النص الذي تولده النماذج اللغوية الكبيرة (LLM) أثناء الاستدلال، أو "أخذ العينات من الأعلى-k/الأعلى-p"، التي تحدّ من مجموعة الرموز التي يتم أخذها في الاعتبار لتقتصر على الرموز الأكثر ترجيحًا، مما يوازن بين الإبداع والاتساق.

نافذة السياق هي الحد الأقصى لعدد الرموز المميزة التي يمكن للنموذج أن "يراها" ويستخدمها في وقت واحد عند توليد النص. ولقد كانت المحاولات الأولى من نماذج اللغات الكبيرة (LLM) قصيرة النوافذ، أما نماذج اللغات الكبيرة الأحدث فصارت لديها مئات آلاف الرموز المميزة في نوافذ السياق الخاصة بها، مما أتاح تلخيص أوراق بحثية كاملة في بعض حالات الاستخدام، وأداء المساعدة البرمجية على قواعد بيانات تحوي تعليمات برمجية ضخمة، وإجراء محادثات متواصلة وطويلة مع المستخدمين.

التوليد المعزز بالاسترجاع (RAG) هو طريقة لربط النموذج المدرَّب مسبقًا بقواعد معارف خارجية، حتى يتيح لها تقديم استجابات أكثر صلة بأعلى مستوى من الدقة. حيث يتم تمرير المعلومات المسترجعة إلى نافذة سياق النموذج، بحيث يمكن للنموذج استخدامها عند إنشاء استجابات، دون حاجة إلى إعادة التدريب. على سبيل المثال، من خلال توصيل النموذج اللغوي الكبير (LLM) بقاعدة بيانات خدمة الطقس الديناميكية، يمكن للنموذج استرجاع معلومات للمستخدم حول تقرير الطقس في ذلك اليوم.

أكاديمية الذكاء الاصطناعي

لماذا تعد نماذج الأساس نقلة نوعية في الذكاء الاصطناعي

تعرَّف على فئة جديدة من نماذج الذكاء الاصطناعي المرنة والقابلة لإعادة الاستخدام التي يمكن أن تفتح مصادر جديدة للإيرادات، وتُسهم في تقليل التكاليف، وزيادة الإنتاجية، ثم استخدم دليلنا لمعرفة المزيد من التفاصيل.

نشر النماذج اللغوية الكبيرة (LLM)

يُعدُّ بناء نموذج لغوي كبير (LLM) من الصفر عملية معقدة وكثيفة الموارد. وأشهر نماذج لغوية كبيرة (LLM) موجودة حاليًا هي نتاج كميات هائلة من البيانات ووحدات معالجة الرسومات (GPU) والطاقة والخبرة البشرية، ولهذا السبب يتم بناء معظمها وصيانتها من قِبل شركات التكنولوجيا الضخمة ذات الموارد الكبيرة.

ومع ذلك، فإن العديد من هذه النماذج متاحة لجميع المطورين من خلال واجهات API. يمكن للمطورين استخدام نماذج مدرَّبة مسبقا لبناء روبوت المحادثة وأنظمة استرجاع المعارف وأدوات الأتمتة والمزيد. ولمزيد من التحكم في البيانات والتخصيص، يمكن نشر العديد من النماذج مفتوحة المصدر محليًا أو في السحابة. وقد جعلت مواقع مثل Github وHugging Face وKaggle وغيرها من المنصات تطوير الذكاء الاصطناعي في متناول الجميع.

يمكن للمطورين استخدام النماذج اللغوية الكبيرة (LLM) كأساس لجميع أنواع تطبيقات الذكاء الاصطناعي. ومن أكثر التطورات إثارة في الذكاء الاصطناعي ظهور النظام الوكيل. ولا يقتصر دور وكيل الذكاء الاصطناعي على التفكير، بل يتجاوز ذلك إلى اتخاذ الإجراءات. في حد ذاتها، تقوم النماذج اللغوية الكبيرة (LLM) ببساطة بإنشاء نص بناء على السياق، ولكن يمكن دمجها مع الذاكرة وواجهات API ومنطق القرار والأنظمة الخارجية الأخرى لأداء مهام محددة، مثل حجز رحلة أو قيادة مركبة ذاتية القيادة.

حالات استخدام نموذج اللغة الكبيرة 

تُعيد الآلات القابلة للتشغيل الآلي تعريف العمليات التجارية وأثبتت تعدد استخداماتها عبر عدد لا يُحصى من حالات الاستخدام في العديد من الصناعات.

  • توليد النصوص: يمكن للنماذج اللغوية الكبيرة (LLM) أداء جميع أنواع مهام إنشاء المحتوى مثل صياغة بريد إلكتروني أو كتابة منشورات المدونات أو المذكرات القانونية استجابةً لسؤال مطروح في الموجه.

  • تلخيص النص: يمكن لباحثي النماذج اللغوية الكبيرة (LLM) تلخيص المقالات الطويلة والقصص الإخبارية والتقارير البحثية ووثائق الشركة وسجل معاملات العملاء في نصوص شاملة مصممة حسب الطول وفق تنسيق الإخراج والأسلوب المطلوبين.

  • توليد التعليمات البرمجية: تساعد الأنظمة الأساسية المساعدة في التعليمات البرمجية المطورين في إنشاء التطبيقات واكتشاف أخطاء التعليمات البرمجية والكشف عن المشكلات الأمنية بلغات برمجة متعددة، بل حتى الترجمة فيما بينها.

  • تحليل المشاعر: يتم تحليل نبرة صوت العميل لفهم مشاعره وتعليقاته بشكل أفضل على نطاق واسع. 

  • الترجمة اللغوية: توفر الترجمة المؤتمتة تغطية أكبر للمجموعة عبر اللغات والمناطق الجغرافية من خلال الترجمة الفصيحة، والقدرات متعددة اللغات.

  • الاستدلال: يمكن للنماذج اللغوية الكبيرة (LLM) حل مسائل الرياضيات وتخطيط العمليات متعددة الخطوات وشرح المفاهيم المعقدة بعبارات أبسط.

تقييم النماذج اللغوية الكبيرة (LLM)

تعد النماذج اللغوية الكبيرة (LLM) أدوات قوية، لكن يصاحبها العديد من القيود. وأحد المخاوف الرئيسية هو الدقة. أثناء الهلوسة، يولد النموذج معلومات خاطئة أو مضللة بينما تبدو معقولة. يمكن أن تعكس النماذج اللغوية الكبيرة (LLM) أيضًا التحيزات الموجودة في بيانات التدريب الخاصة بها وتضخمها، مما ينتج مخرجات غير نزيهة أو مسيئة. بالإضافة إلى ذلك، فإنها تتطلب موارد ضخمة: حيث يتطلب تدريب وتشغيل الآلات ذات الفتحات المنخفضة جدًا كميات كبيرة من الطاقة الحاسوبية والطاقة الكهربائية، مما يثير مخاوف تتعلق بالتكلفة والبيئة.

يمكن للممارسين التخفيف من هذه الجوانب السلبية للنماذج اللغوية الكبيرة (LLM) من خلال حوكمة الذكاء الاصطناعي الشاملة والتي تمثل العمليات والمعايير والضوابط الوقائية التي تساعد على ضمان أن أنظمة وأدوات الذكاء الاصطناعي آمنة وأخلاقية. يتضمن الجزء الرئيسي من الحوكمة تقييم النماذج مقابل المعيار. معايير أداء النماذج اللغوية الكبيرة (LLM) توفر درجات كميّة، مما يسهل مقارنةً النماذج. ولأن النماذج اللغوية الكبيرة (LLM) هي أنظمة ذات أغراض عامة قادرة على القيام بمجموعة واسعة من المهام، فإن تقييمها يتطلب أبعادًا متعددة بدلًا من معيار واحد. وينظر الباحثون والممارسون إلى صفات مثل الدقة والكفاءة والسلامة والنزاهة والمتانة لتحديد مدى جودة أداء النموذج.

كما تُقيّم النماذج منخفضة التكلفة على أساس المواءمة والسلامة، باستخدام أساليب مثل "التنظير الأحمر"، حيث يحاول المقيّمون عمدًا جعل النموذج ينتج استجابات غير آمنة أو متحيزة بهدف كشف نقاط الضعف فيه. وتقييمات النزاهة والتحيز تساعد الممارسين على منع النماذج اللغوية الكبيرة (LLM) من إعادة إنتاج قوالب نمطية ضارة أو معلومات مضللة.

يتم أيضًا تقييم النماذج اللغوية الكبيرة (LLM) بشكل شائع على أساس الكفاءة. تُعد السرعة، واستهلاك الطاقة، وإنتاجية الرمز، وحجم الذاكرة المشغولة، والقدرة على معالجة السياقات الطويلة، من أبرز المعايير المستخدمة لقياس مدى كفاءة النماذج اللغوية الكبيرة (LLM) في توليد المخرجات.

نبذة تاريخية موجزة عن النماذج اللغوية الكبيرة (LLM)

يعود تاريخ علم النماذج اللغوية الكبيرة (LLM) إلى الأيام الأولى للحوسبة ومعالجة اللغات الطبيعية، عندما استخدم الباحثون الأنظمة القائمة على القواعد والأساليب الإحصائية لنمذجة النصوص. حيث كان يمكن لهذه الأساليب المبكرة التقاط أنماط الكلمات المحلية لكنها فشلت في فهم التبعيات بعيدة المدى أو الدلالات الأعمق.

حدث تحول كبير في العُقد الأول من القرن الحادي والعشرين مع ظهور الشبكات العصبية، مع تضمين الكلمات مثل Word2Vec وGloVe، والتي مثلت الكلمات كمتجهات في فضاء متصل، مما مكّن النماذج من تعلم العلاقات الدلالية. وظهرت نماذج متسلسلة مثل الشبكات العصبية المتكررة (RNN) وشبكات الذاكرة طويلة المدى (LSTM) للتعامل بشكل أفضل مع البيانات المتسلسلة.

في عام 2017، قدم Vaswani وآخرون بنية محول التشفير وفك التشفير في الورقة البحثية التاريخية التي كانت بعنوان "الانتباه هو كل ما تحتاجه".[1] حيث أتاحت المحولات إمكانية تدريب النماذج على مجموعات بيانات ضخمة، وكانت هذه بداية عصر النماذج اللغوية الكبيرة (LLM) الحديث. أظهر محول جوجل BERT (2018)، وهو محول مشفر فقط، قوة المحولات لفهم اللغة، بينما أظهرت سلسلة المحولات التوليدية المُدربة مسبقًا (GPT) من OpenAI، القائمة على متغير فك التشفير فقط، كيف يمكن أن ينتج عن التدريب التوليدي المسبق على نص بنطاق الإنترنت توليد لغة بطلاقة ملحوظة. في الفترة الزمنية نفسها تقريبًا، عرضت نماذج المشفِّر والمفكِّك، مثل نموذج T5 من جوجل ونموذج BART من فيسبوك، نقاط قوة تصميم التسلسل الكامل إلى التسلسل لمهام مثل الترجمة والتلخيص. وجذب نموذج GPT-2 (عام 2019) الانتباه لقدرته على توليد فقرات متماسكة، بينما قام نموذج GPT-3 (عام 2020)، بفضل 175 مليار معلمة، بترسيخ مكانة النماذج اللغوية الكبيرة (LLM) كقوة تحويلية في مجال الذكاء الاصطناعي.

وبالإضافة إلى ذلك، تتحدى البِنى الجديدة شهرة المحولات في النماذج اللغوية الكبيرة (LLM). تعمل نماذج Mamba باستخدام نموذج فضاء الحالة مع تحديثات انتقائية تقوم بتصفية المعلومات السابقة ودمجها بكفاءة، مما يسمح لها بالتقاط التبعيات بعيدة المدى. تبدأ نماذج الانتشار بضوضاء عشوائية وتقلل من هذه الضوضاء تدريجيًا خطوة بخطوة، مسترشدة بنموذج مكتسب، حتى يظهر نص متماسك. يمكن أن تكون كلتا البنيتين أكثر كفاءة من المحولات.

حلول ذات صلة
نماذج الأساس

استكشف مكتبة نماذج الأساس من IBM في محفظة watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

استكشف مكتبة نماذج الأساس من IBM في محفظة IBM watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.

استكشف watsonx.ai استكشف حلول الذكاء الاصطناعي
الحواشي

1. “Attention is all you need”, Vaswani et al, arXiv, 12 June 2017