النماذج اللغوية الصغيرة (SLMs) هي نماذج ذكاء اصطناعي (AI) قادرة على معالجة محتوى اللغة الطبيعية وفهمه وتوليده. وكما يوحي اسمها، فإن النماذج اللغوية الصغيرة أصغر حجمًا ونطاقًا من النماذج اللغوية الكبيرة (LLMs).
من حيث الحجم، يتراوح حجم معلمات النماذج اللغوية الصغيرة بين بضعة ملايين وبضعة مليارات، على عكس النماذج اللغوية الكبيرة التي تحتوي على مئات المليارات أو حتى تريليونات من المعلمات. المعلمات هي متغيرات داخلية، مثل الأوزان والتحيزات التي يتعلمها النموذج في أثناء التدريب. وتؤثر هذه المعلمات على سلوك نموذج التعلم الآلي وأدائه.
تُعد النماذج اللغوية الصغيرة أكثر إيجازًا وفعالية من نظيراتها من النماذج الكبيرة. على هذا النحو، تتطلب النماذج اللغوية الصغيرة ذاكرة وقدرة حاسوبية أقل، ما يجعلها مثالية للبيئات ذات الموارد المحدودة مثل الأجهزة المتطورة وتطبيقات الأجهزة المحمولة، أو حتى للسيناريوهات التي يجب أن يُجرى فيها الاستدلال بالذكاء الاصطناعي - عندما يولد النموذج استجابة لاستعلام المستخدم - من دون اتصال بالإنترنت ومن دون شبكة بيانات.
تعمل النماذج اللغوية الكبيرة كأساس للنماذج اللغوية الصغيرة. وعلى غرار النماذج اللغوية الكبيرة، تستخدم النماذج اللغوية الصغيرة بنية قائمة على شبكة عصبية تُعرف باسم نموذج المحولات. وقد أصبحت المحولات أساسية في معالجة اللغات الطبيعية (NLP) وتعمل بمثابة أساس نماذج مثل المحول التوليدي المدرب مسبقًا (GPT).
فيما يأتي لمحة موجزة عن بنية المحولات:
● تحول أدوات التشفير تسلسلات المدخلات إلى تمثيلات رقمية تسمى التضمينات التي تلتقط دلالات الرموز وموقعها في تسلسل المدخلات.
● تسمح آلية الانتباه الذاتي للمحولات "بتركيز انتباهها" على الرموز الأكثر أهمية في تسلسل المدخلات، بغض النظر عن موضعها.
● تستخدم أدوات فك التشفير آلية الانتباه الذاتي هذه وتضمينات أدوات التشفير لتوليد تسلسل النواتج الأكثر احتمالاً من الناحية الإحصائية.
تُطبق تقنيات ضغط النموذج لبناء نموذج أصغر حجمًا من نموذج أكبر. ويستلزم ضغط النموذج تقليل حجمه مع الاحتفاظ بأكبر قدر ممكن من دقته. فيما يأتي بعض أساليب ضغط النماذج الشائعة:
● التقليم
● التكميم
● التحليل إلى عوامل منخفضة الرتبة
● استخلاص المعرفة
يزيل التقليم المعلمات الأقل أهمية أو الزائدة عن الحاجة أو غير الضرورية من الشبكة العصبية. وتتضمن المعلمات التي عادة ما تخضع للتقليم الأوزان العددية المقابلة للوصلات بين الخلايا العصبية (في هذه الحالة، ستُعين الأوزان إلى 0) أو الخلايا العصبية نفسها أو الطبقات في الشبكة العصبية.
غالبًا ما تحتاج النماذج الخاضعة للتقليم إلى الضبط الدقيق بعد التقليم لتعويض أي خسارة في الدقة. ومن الضروري معرفة متى تتوقف عن تقليم المعلمات، حيث يمكن أن يؤدي الإفراط في التقليم إلى تدهور أداء النموذج.
يحول التكميم البيانات عالية الدقة إلى بيانات أقل دقة. على سبيل المثال، يمكن تمثيل أوزان النماذج وقيم التنشيط (رقم بين 0 و1 مخصص للخلايا العصبية في الشبكة العصبية) كأعداد صحيحة 8 بت بدلاً من 32 بت من أرقام الفاصلة العائمة. يمكن أن يؤدي التكميم إلى تخفيف الحمل الحسابي وتسريع عملية الاستدلال.
يمكن دمج التكميم في تدريب النموذج (المعروف باسم التدريب الواعي بالتكميم أو اختصارًا QAT) أو إجراءه بعد التدريب (يسمى التكميم بعد التدريب أو اختصارًا PTQ). لا تتطلب عملية التكميم بعد التدريب القدر نفسه من الطاقة الحسابية وبيانات التدريب مثل عملية التدريب الواعي بالتكميم، ولكن يمكن أن تنتج عملية التدريب الواعي بالتكميم نموذجًا أكثر دقة.
يفكك التحليل إلى عوامل منخفضة الرتبة مصفوفة كبيرة من الأوزان إلى مصفوفة أصغر ذات رتبة أقل. ويمكن أن يؤدي هذا التقريب الأكثر إحكامًا إلى تقليل عدد المعلمات وتقليل عدد العمليات الحسابية وتبسيط عمليات المصفوفة المعقدة.
ومع ذلك، يمكن أن يكون التحليل إلى عوامل منخفضة الرتبة مكلفًا حاسوبيًا وأكثر صعوبة في التنفيذ. مثل التقليم، ستتطلب الشبكة المحللة إلى عوامل ضبطًا دقيقًا لاسترداد أي خسارة في الدقة.
يتضمن استخلاص المعرفة نقل ما تعلمه "نموذج المعلم" الذي دُرب مسبقًا إلى "نموذج الطالب". ولا يُدرب نموذج الطالب على مطابقة تنبؤات نموذج المعلم فحسب، بل يحاكي أيضًا عملية التفكير الاستدلالي الأساسية الخاصة به. وعلى هذا النحو، "تُستخلص" معرفة النموذج الأكبر بشكل أساسي إلى نموذج أصغر.
يُعد استخلاص المعرفة نهجًا شائعًا للعديد من النماذج اللغوية الصغيرة. وعادةً ما يُستخدم مخطط التقطير غير المتصل بالإنترنت، حيث تُجمد أوزان النموذج المعلم ولا يمكن تغييرها في أثناء عملية الاستخلاص.
بينما تظل النماذج الأكبر حجمًا هي التقنية المفضلة لدى العديد من الشركات، فإن النماذج الأصغر حجمًا تكتسب شعبية بسرعة. فيما يأتي بعض الأمثلة على النماذج اللغوية الصغيرة الشائعة:
● DistilBERT
● Gemma
● GPT-4o mini
● Granite
● Llama
● Ministral
● Phi
DistilBERT هو إصدار أخف من نموذج BERT الأساسي الرائد من Google. ويستخدم استخلاص المعرفة لجعله أصغر بنسبة 40% وأسرع بنسبة 60% من سابقه، مع الاحتفاظ بنسبة 97% من قدرات BERT في فهم اللغة الطبيعية.1
توجد إصدارات أخرى مصغرة من BERT، بما في ذلك tiny الذي يبلغ 4.4 مليون معلمة وmini الذي يبلغ 11.3 مليون معلمة وsmall الذي يبلغ 29.1 مليون معلمة وmedium الذي يبلغ 41.7 مليون معلمة.2 وفي الوقت نفسه، صُمم MobileBERT للأجهزة المحمولة.3
صُمم Gemma وخضع للاستخلاص من تقنية نموذج Gemini اللغوي الكبير من Google نفسها وهو متاح بأحجام 2 و7 و9 مليار معلمة.4 ويتوفر Gemma من خلال Google AI Studio ومنصتي Kaggle وHugging Face.
يحتوي Gemini أيضًا على متغيرات أخف وزنًا في شكل Gemini 1.5 Flash-8B و Gemini 1.0 Nanoالمصممة للعمل على الأجهزة المحمولة.5
GPT-4o mini هو جزء من مجموعة GPT-4 لنماذج الذكاء الاصطناعي من OpenAI التي تشغل روبوت المحادثة بالذكاء الاصطناعي التوليدي ChatGPT. GPT-4o mini هو إصدار أصغر حجمًا وأقل تكلفة من GPT-4o. ولديه إمكانات متعددة الوسائط، حيث يقبل كلاً من المدخلات النصية والصور وينتج نواتج نصية.
يمكن ChatGPT Free و Plusو Teamو Enterprise الوصول إلى GPT-4o mini الذي يحل محل GPT-3.5. ويمكن للمطورين الوصول إلى GPT-4o mini من خلال واجهات برمجة تطبيقات مختلفة (APIs).
GraniteTM هي سلسلة IBM® الرائدة من النماذج اللغوية الكبيرة الأساسية. وتشتمل مجموعة Granite 3.0 على نماذج أساسية مُدربة مسبقًا ومضبوطة التعليمات مع 2 و8 مليار معلمة. يحتوي Granite 3.0 أيضًا على نماذج لغوية صغيرة بمزيج من الخبراء (MoE) لتحقيق أدنى زمن انتقال وتوفير متغير محسّن لتسريع سرعة استدلال النماذج.
تتفوق هذه النماذج مفتوحة المصدر ليس فقط في المهام الخاصة باللغة ولكن أيضًا في المجالات المتعلقة بالمؤسسات مثل الأمن الإلكتروني، كوكلاء ذكاء اصطناعي يستخدمون أداة أو وظيفة استدعاء لأداء المهام بشكل مستقل، وفي مهام التوليد المعزز للاسترجاع (RAG) التي تتضمن استرجاع الحقائق من قاعدة معرفية خارجية لتأسيس النماذج على أدق وأحدث المعلومات.
تتوفر نماذج Granite 3.0 للاستخدام التجاري على المنتجات في محفظة IBM watsonx™ ومن خلال Google Vertex AI وHugging Face وNVIDIA (كخدمات NIM المصغرة) وOllama وReplicate.
Llama هو خط Meta لنماذج اللغات مفتوحة المصدر. يأتي Llama 3.2 بحجم 1 و3 مليار معلمة،6 وهو أصغر حتى من الإصدار السابق من Llama 2 الذي يحتوي على 7 مليار معلمة.7
وقد قُلصت الإصدارات الكمومية لهذه النماذج النصية متعددة اللغات فقط إلى أكثر من نصف حجمها وهي أسرع بمرتين إلى ثلاث مرات.6 يمكن الوصول إلى النماذج اللغوية الصغيرة هذه من خلال Meta وHugging Face وKaggle.
Les Ministraux هي مجموعة من النماذج اللغوية الصغيرة من Mistral AI. Ministral 3B هو أصغر نموذج للشركة يحتوي على 3 مليار معلمة، في حين أن Ministral 8B الذي يحتوي على 8 مليار معلمة هو خليفة Mistral 7B، وهو أحد نماذج الذكاء الاصطناعي الأولى التي أصدرتها Mistral AI. يمكن الوصول إلى كلا النموذجين من خلال Mistral.8
يتفوق Ministral 8B على Mistral 7B في معايير تقييم المعرفة والمنطق والرياضيات والمهارات متعددة اللغات. وللاستدلال السريع، يستخدم Ministral 8B نافذة انتباه منزلقة، وهي آلية ديناميكية للتركيز على "نوافذ" محددة الحجم من تسلسلات المدخلات، ما يسمح للنماذج بالتركيز على بضع كلمات فقط في كل مرة.8
Phi هو مجموعة من النماذج اللغوية الصغيرة من Microsoft. يحتوي Phi-2 على 2.7 مليار معلمة، بينما يحتوي Phi-3-mini على 3.8 مليار معلمة.9
يمكن لنموذج Phi-3-mini تحليل محتوى نصي كبير والاستدلال عليه بسبب نافذة السياق الطويلة، وهي الحد الأقصى للنص الذي يمكن للنموذج معالجته. ووفقًا لشركة Microsoft، سيتوفر Phi-3-small، وهو نموذجها الذي يحتوي على 7 مليارات معلمة في المستقبل. يمكن الوصول إلى Phi-3-mini على Microsoft Azure AI Studio وHugging Face وOllama.9
أدى التقدم في تطوير الذكاء الاصطناعي إلى أساليب تحسينية تزيد من القوة المشتركة بين النماذج اللغوية الكبيرة والنماذج اللغوية الصغيرة:
نمط الذكاء الاصطناعي الهجين: يمكن أن يحتوي نموذج الذكاء الاصطناعي الهجين على نماذج أصغر تعمل محليًا والوصول إلى النماذج اللغوية الكبيرة في السحابة العامة عندما تكون هناك حاجة إلى مجموعة أكبر من البيانات للاستجابة لمطلب ما.
التوجيه الذكي: يمكن تطبيق التوجيه الذكي لتوزيع أحمال تشغيل الذكاء الاصطناعي بكفاءة أكبر. ويمكن إنشاء وحدة توجيه لقبول الاستفسارات وتقييمها واختيار النموذج الأنسب لتوجيه الاستفسارات إليه. يمكن للنماذج اللغوية الصغيرة التعامل مع الطلبات الأساسية، بينما يمكن للنماذج اللغوية الكبيرة التعامل مع الطلبات الأكثر تعقيدًا.
الأكبر ليس دائمًا أفضل، وما تفتقر إليه النماذج اللغوية الصغيرة من حيث الحجم، تعوضه النماذج اللغوية الصغيرة من خلال هذه المزايا:
سهولة الوصول إليها: يمكن للباحثين ومطوري الذكاء الاصطناعي وغيرهم من الأفراد استكشاف النماذج اللغوية وتجربتها من دون الحاجة إلى الاستثمار في وحدات معالجة رسومات (GPUs) متعددة أو غيرها من المعدات المتخصصة.
الكفاءة: إن صغر حجم النماذج اللغوية الصغيرة يجعلها أقل استهلاكًا للموارد، ما يسمح بالتدريب والنشر السريع.
الأداء الفعال: لا تأتي هذه الكفاءة على حساب الأداء. يمكن أن تتمتع النماذج الصغيرة بأداء مماثل أو حتى أفضل من مثيلاتها من النماذج الكبيرة. على سبيل المثال، يتفوق GPT-4o mini على GPT-3.5 Turbo في معايير تقييم النماذج اللغوية الكبيرة في مجالات فهم اللغة والإجابة على الأسئلة والاستدلال المنطقي والاستدلال الرياضي وتوليد الأكواد.10 كما أن أداء GPT-4o mini قريب من أداء شقيقه الأكبر GPT-4o.10
مزيد من الخصوصية والتحكم الأمني: بسبب حجمها الأصغر، يمكن نشر النماذج اللغوية الصغيرة في بيئات الحوسبة على السحابة الخاصة أو محليًا، ما يسمح بتحسين حماية البيانات وتحسين إدارة تهديدات الأمن الإلكتروني والتخفيف من حدتها. ويمكن أن يكون هذا الأمر ذا قيمة خاصة لقطاعات مثل الشؤون المالية أو الرعاية الصحية حيث الخصوصية والأمان أمران أساسيان.
زمن انتقال أقل: تجعل قلة المعلمات أوقات المعالجة أقل، ما يسمح للنماذج اللغوية الصغيرة بالاستجابة بسرعة. على سبيل المثال، يحتوي كل من Granite 3.0 1B-A400M و Granite 3.0 3B-A800Mعلى إجمالي عدد معلمات يبلغ مليار و3 مليارات على التوالي، في حين أن عدد المعلمات النشطة عند الاستدلال يبلغ 400 مليون للنموذج 1B و800 مليون للنموذج 3B. وهذا يسمح لكلا النموذجين بتقليل زمن الانتقال مع تقديم أداء استدلالي عالٍ.
أكثر استدامة من الناحية البيئية: نظرًا لأنها تتطلب موارد حاسوبية أقل، تستهلك النماذج اللغوية الصغيرة طاقة أقل، ما يقلل من بصمتها الكربونية.
انخفاض التكلفة: يمكن للمؤسسات توفير نفقات التطوير والبنية التحتية والنفقات التشغيلية - مثل الحصول على كميات هائلة من بيانات التدريب عالية الجودة واستخدام أجهزة متطورة - التي كانت ستحتاجها لتشغيل نماذج ضخمة.
مثل النماذج اللغوية الكبيرة، لا يزال يتعين على النماذج اللغوية الصغيرة التعامل مع مخاطر الذكاء الاصطناعي. وهذا أمر يجب أخذه في الحسبان بالنسبة إلى الشركات التي تتطلع إلى دمج النماذج اللغوية الصغيرة في مهام سير عملها الداخلي أو تطبيقها تجاريًا لتطبيقات محددة.
التحيز: يمكن أن تتعلم النماذج الأصغر حجمًا من التحيز الموجود في نظيراتها الأكبر حجمًا، ويمكن أن يتجلى هذا التأثير المضاعف في نواتجها.
انخفاض الأداء في المهام المعقدة: نظرًا لأن النماذج اللغوية الصغيرة عادةً ما تُضبط بدقة على مهام محددة، فقد تكون أقل كفاءة في المهام المعقدة التي تتطلب معرفة عبر مجموعة شاملة من الموضوعات. على سبيل المثال، تشير Microsoft إلى أن "نماذج Phi-3 لا تؤدي أداءً جيدًا في معايير المعرفة الواقعية لأن حجم النموذج الأصغر يؤدي إلى قدرة أقل على الاحتفاظ بالحقائق".9
التعميم المحدود: تفتقر النماذج اللغوية الصغيرة إلى القاعدة المعرفية الواسعة لمثيلاتها الموسعة، لذا قد تكون أكثر ملاءمة للمهام اللغوية المستهدفة.
الهلوسات: يعد التحقق من صحة نتائج النماذج اللغوية الصغيرة أمرًا حيويًا للتأكد من صحة ما تنتجه من حقائق.
يمكن للمؤسسات ضبط النماذج اللغوية الصغيرة على مجموعات بيانات خاصة بالمجال لتخصيصها لتلبية احتياجاتها الخاصة. وتعني هذه القدرة على التكيف أنه يمكن استخدام النماذج اللغوية الصغيرة في مجموعة متنوعة من التطبيقات الواقعية:
روبوتات المحادثة: نظرًا لانخفاض زمن الانتقال وقدرات الذكاء الاصطناعي الحواري، يمكن للنماذج اللغوية الصغيرة تشغيل روبوتات المحادثة الخاصة بخدمة العملاء، حيث يمكنها الاستجابة بسرعة للاستفسارات في الوقت الفعلي. ويمكنها أيضًا أن تكون بمثابة الأساس لروبوتات المحادثة ذاتية التوجيه القائمة على الذكاء الاصطناعي التي تتجاوز مجرد تقديم الردود إلى إكمال المهام نيابةً عن المستخدم.
تلخيص المحتوى: يمكن استخدام نماذج Llama 3.2 1B و3B، على سبيل المثال، لتلخيص المناقشات على الهاتف الذكي وإنشاء عناصر عمل مثل أحداث التقويم.6 وبالمثل، يمكن لنموذج Gemini Nano تلخيص التسجيلات الصوتية ونصوص المحادثات.11
الذكاء الاصطناعي التوليدي: يمكن تنفيذ النماذج المدمجة لإكمال النص والرمز البرمجي وتوليده. على سبيل المثال، يمكن استخدام نموذجي granite-3b-code-instruct وgranite-8b-code-instruct لتوليد التعليمات البرمجية وشرحها وترجمتها من خلال مدخلات لغوية طبيعية.
ترجمة اللغات: العديد من النماذج اللغوية الصغيرة متعددة اللغات ودُربت على لغات أخرى غير الإنجليزية، لذا يمكنها الترجمة بين اللغات بسرعة. وبسبب قدرتها على فهم السياق، يمكنها إنتاج ترجمات شبه دقيقة تحافظ على الفوارق الدقيقة للنص الأصلي ومعناه.
الصيانة التنبئية: النماذج البسيطة صغيرة بما يكفي لنشرها مباشرة على أجهزة الحافة المحلية مثل أجهزة الاستشعار أو أجهزة إنترنت الأشياء (IoT) . هذا يعني أنه يمكن للمصنعين التعامل مع النماذج اللغوية الصغيرة كأدوات تجمع البيانات من أجهزة الاستشعار المثبتة في الآلات والمعدات وتحلل تلك البيانات في الوقت الفعلي للتنبؤ باحتياجات الصيانة.
تحليل المشاعر: بالإضافة إلى معالجة اللغة وفهمها، فإن أدوات تحليل المشاعر هي أيضًا ماهرة في فرز كميات هائلة من النصوص وتصنيفها بطريقة موضوعية. وهذا يجعلها مناسبة لتحليل النصوص وقياس المشاعر الكامنة وراءها، ما يساعد على فهم ملاحظات العملاء.
المساعدة على التنقل في المركبات: يمكن تشغيل نموذج سريع وصغير الحجم مثل النموذج اللغوي الصغير على أجهزة الكمبيوتر الموجودة في السيارات. ونظرًا لقدراتها المتعددة الوسائط، يمكن للنماذج اللغوية الصغيرة أن تجمع بين الأوامر الصوتية وتصنيف الصور، على سبيل المثال، لتحديد العوائق حول السيارة. ويمكنها حتى الاستفادة من قدرات التوليد المعزز للاسترجاع واسترجاع التفاصيل من رموز الطرق السريعة أو قواعد الطريق لمساعدة السائقين على اتخاذ قرارات قيادة أكثر أمانًا واستنارة.
كل الروابط تنقلك خارج موقع ibm.com
1 DistilBERT، نسخة خاضعة للاستخلاص من BERT: أصغر وأسرع وأرخص وأخف وزنًا، arXiv، 1 مارس 2020
2 الطلاب واسعي القراءة يتعلمون بشكل أفضل: حول أهمية التدريب المسبق للنماذج المدمجة، arXiv، 25 سبتمبر 2019
3 MobileBERT: نموذج BERT المدمج متعدد المهام للأجهزة محدودة الموارد، arXiv، 14 أبريل 2020
4 شرح Gemma: نظرة عامة على بنيات مجموعة نموذج Gemma، Google for Developers، 15 أغسطس 2024
5 نماذج Gemini، Google DeepMind، تم الوصول إليه في 17 أكتوبر 2024
6 طرح Llama 3.2، Meta، تم الوصول إليه في 17 أكتوبر 2024
7 Meta و Microsoftتقدمان الجيل التالي من Llama، Meta، 18 يوليو 2023
8 Un Ministral، des Ministraux، Mistral AI، 16 أكتوبر 2024
9 طرح Phi-3: إعادة تعريف الممكن مع النماذج اللغوية الصغيرة، Microsoft، 23 أبريل 2024
10 GPT-4o mini: تطوير الذكاء الفعال من حيث التكلفة، OpenAI، 18 يوليو 2024
11 Gemini Nano، Google DeepMind، تم الوصول إليه في 21 أكتوبر 2024