ما المقصود بالنماذج اللغوية الصغيرة؟

المؤلفين

Rina Diane Caballar

Staff Writer

IBM Think

ما المقصود بالنماذج اللغوية الصغيرة؟

النماذج اللغوية الصغيرة (SLMs) هي نماذج ذكاء اصطناعي (AI) قادرة على معالجة محتوى اللغة الطبيعية وفهمه وتوليده. وكما يوحي اسمها، فإن النماذج اللغوية الصغيرة أصغر حجمًا ونطاقًا من النماذج اللغوية الكبيرة (LLMs).

من حيث الحجم، يتراوح حجم معلمات النماذج اللغوية الصغيرة بين بضعة ملايين وبضعة مليارات، على عكس النماذج اللغوية الكبيرة التي تحتوي على مئات المليارات أو حتى تريليونات من المعلمات. المعلمات هي متغيرات داخلية، مثل الأوزان والتحيزات التي يتعلمها النموذج في أثناء التدريب. وتؤثر هذه المعلمات على سلوك نموذج التعلم الآلي وأدائه.

تُعد النماذج اللغوية الصغيرة أكثر إيجازًا وفعالية من نظيراتها من النماذج الكبيرة. على هذا النحو، تتطلب النماذج اللغوية الصغيرة ذاكرة وقدرة حاسوبية أقل، ما يجعلها مثالية للبيئات ذات الموارد المحدودة مثل الأجهزة المتطورة وتطبيقات الأجهزة المحمولة، أو حتى للسيناريوهات التي يجب أن يُجرى فيها الاستدلال بالذكاء الاصطناعي - عندما يولد النموذج استجابة لاستعلام المستخدم - من دون اتصال بالإنترنت ومن دون شبكة بيانات.

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

كيف تعمل النماذج اللغوية الصغيرة؟

تعمل النماذج اللغوية الكبيرة كأساس للنماذج اللغوية الصغيرة. وعلى غرار النماذج اللغوية الكبيرة، تستخدم النماذج اللغوية الصغيرة بنية قائمة على شبكة عصبية تُعرف باسم نموذج المحولات. وقد أصبحت المحولات أساسية في معالجة اللغات الطبيعية (NLP) وتعمل بمثابة أساس نماذج مثل المحول التوليدي المدرب مسبقًا (GPT).

فيما يأتي لمحة موجزة عن بنية المحولات:

  • تحوِّل أدوات التشفير تسلسلات المدخلات إلى تمثيلات رقمية تُسمَّى التضمينات التي تلتقط دلالات الرموز ومواقعها في تسلسل المدخلات.

  • تُتيح آلية الانتباه الذاتي تركيز الانتباه على الرموز الأكثر أهمية في تسلسل المدخلات في بعض الحالات، بغض النظر عن موقعها.

  • تستخدم أدوات فك التشفير آلية الانتباه الذاتي وتضمينات أجهزة التشفير لإنشاء تسلسل المخرجات الأكثر احتمالاً من الناحية الإحصائية.

ضغط النموذج

تُطبق تقنيات ضغط النموذج لبناء نموذج أصغر حجمًا من نموذج أكبر. ويستلزم ضغط النموذج تقليل حجمه مع الاحتفاظ بأكبر قدر ممكن من دقته. فيما يأتي بعض أساليب ضغط النماذج الشائعة:

  • التقليم

  • التكميم

  • التحليل إلى عوامل منخفضة الرتبة

  • تقطير المعرفة

التقليم

يزيل التقليم المعلمات الأقل أهمية أو الزائدة عن الحاجة أو غير الضرورية من الشبكة العصبية. وتتضمن المعلمات التي عادة ما تخضع للتقليم الأوزان العددية المقابلة للوصلات بين الخلايا العصبية (في هذه الحالة، ستُعين الأوزان إلى 0) أو الخلايا العصبية نفسها أو الطبقات في الشبكة العصبية.

غالبًا ما تحتاج النماذج الخاضعة للتقليم إلى الضبط الدقيق بعد التقليم لتعويض أي خسارة في الدقة. ومن الضروري معرفة متى تتوقف عن تقليم المعلمات، حيث يمكن أن يؤدي الإفراط في التقليم إلى تدهور أداء النموذج.

التكميم

يحول التكميم البيانات عالية الدقة إلى بيانات أقل دقة. على سبيل المثال، يمكن تمثيل أوزان النماذج وقيم التنشيط (رقم بين 0 و1 مخصص للخلايا العصبية في الشبكة العصبية) كأعداد صحيحة 8 بت بدلاً من 32 بت من أرقام الفاصلة العائمة. يمكن أن يؤدي التكميم إلى تخفيف الحمل الحسابي وتسريع عملية الاستدلال.

يمكن دمج التكميم في تدريب النموذج (المعروف باسم التدريب الواعي بالتكميم أو اختصارًا QAT) أو إجراءه بعد التدريب (يسمى التكميم بعد التدريب أو اختصارًا PTQ). لا تتطلب عملية التكميم بعد التدريب القدر نفسه من الطاقة الحسابية وبيانات التدريب مثل عملية التدريب الواعي بالتكميم، ولكن يمكن أن تنتج عملية التدريب الواعي بالتكميم نموذجًا أكثر دقة.

التفكيك منخفض الرتبة

يفكك التحليل إلى عوامل منخفضة الرتبة مصفوفة كبيرة من الأوزان إلى مصفوفة أصغر ذات رتبة أقل. ويمكن أن يؤدي هذا التقريب الأكثر إحكامًا إلى تقليل عدد المعلمات وتقليل عدد العمليات الحسابية وتبسيط عمليات المصفوفة المعقدة.

ومع ذلك، يمكن أن يكون التحليل إلى عوامل منخفضة الرتبة مكلفًا حاسوبيًا وأكثر صعوبة في التنفيذ. مثل التقليم، ستتطلب الشبكة المحللة إلى عوامل ضبطًا دقيقًا لاسترداد أي خسارة في الدقة.

استخلاص المعرفة

يتضمن استخلاص المعرفة نقل ما تعلمه "نموذج المعلم" الذي دُرب مسبقًا إلى "نموذج الطالب". ولا يُدرب نموذج الطالب على مطابقة تنبؤات نموذج المعلم فحسب، بل يحاكي أيضًا عملية التفكير الاستدلالي الأساسية الخاصة به. وعلى هذا النحو، "تُستخلص" معرفة النموذج الأكبر بشكل أساسي إلى نموذج أصغر.

يُعد استخلاص المعرفة نهجًا شائعًا للعديد من النماذج اللغوية الصغيرة. وعادةً ما يُستخدم مخطط التقطير غير المتصل بالإنترنت، حيث تُجمد أوزان النموذج المعلم ولا يمكن تغييرها في أثناء عملية الاستخلاص.

أكاديمية الذكاء الاصطناعي

اختر نموذج الذكاء الاصطناعي المناسب لحالة الاستخدام لديك

الكفاءة في نماذج الذكاء الاصطناعي لا تتناسب طرديًا مع حجمها. تعرّف على طريقة العثور على الخيار المناسب لتلبية احتياجات أعمالك. ثم احصل على الدليل الإرشادي لمساعدتك على اتخاذ الإجراءات اللازمة.

أمثلة على النماذج اللغوية الصغيرة

بينما تظل النماذج الأكبر حجمًا هي التقنية المفضلة لدى العديد من الشركات، فإن النماذج الأصغر حجمًا تكتسب شعبية بسرعة. فيما يأتي بعض الأمثلة على النماذج اللغوية الصغيرة الشائعة:

  • DistilBERT

  • Gemma

  • GPT-4o mini

  • Granite

  • Llama

  • Ministral

  • Phi

DistilBERT

DistilBERT هو إصدار أخف من نموذج BERT الأساسي الرائد من Google. ويستخدم استخلاص المعرفة لجعله أصغر بنسبة 40% وأسرع بنسبة 60% من سابقه، مع الاحتفاظ بنسبة 97% من قدرات BERT في فهم اللغة الطبيعية.1

توجد إصدارات أخرى مصغرة من BERT، بما في ذلك tiny الذي يبلغ 4.4 مليون معلمة وmini الذي يبلغ 11.3 مليون معلمة وsmall الذي يبلغ 29.1 مليون معلمة وmedium الذي يبلغ 41.7 مليون معلمة.2 وفي الوقت نفسه، صُمم MobileBERT للأجهزة المحمولة.3

Gemma

صُمم Gemma وخضع للاستخلاص من تقنية نموذج Gemini اللغوي الكبير من Google نفسها وهو متاح بأحجام 2 و7 و9 مليار معلمة.4 ويتوفر Gemma من خلال Google AI Studio ومنصتي Kaggle وHugging Face.

يحتوي Gemini أيضًا على متغيرات أخف وزنًا في شكل Gemini 1.5 Flash-8B و Gemini 1.0 Nanoالمصممة للعمل على الأجهزة المحمولة.5

GPT-4o mini

GPT-4o mini هو جزء من مجموعة GPT-4 لنماذج الذكاء الاصطناعي من OpenAI التي تشغل روبوت المحادثة بالذكاء الاصطناعي التوليدي ChatGPT. GPT-4o mini هو إصدار أصغر حجمًا وأقل تكلفة من GPT-4o. ولديه إمكانات متعددة الوسائط، حيث يقبل كلاً من المدخلات النصية والصور وينتج نواتج نصية.

يمكن ChatGPT Free و Plusو Teamو Enterprise الوصول إلى GPT-4o mini الذي يحل محل GPT-3.5. ويمكن للمطورين الوصول إلى GPT-4o mini من خلال واجهات برمجة تطبيقات مختلفة (APIs).

Granite

GraniteTM هي سلسلة ®IBM الرائدة من النماذج اللغوية الكبيرة الأساسية. وتشتمل مجموعة Granite 3.0 على نماذج أساسية مُدربة مسبقًا ومضبوطة التعليمات مع 2 و8 مليار معلمة. يحتوي Granite 3.0 أيضًا على نماذج لغوية صغيرة بمزيج من الخبراء (MoE) لتحقيق أدنى زمن انتقال وتوفير متغير محسّن لتسريع سرعة استدلال النماذج.

تتفوق هذه النماذج مفتوحة المصدر ليس فقط في المهام الخاصة باللغة ولكن أيضًا في المجالات المتعلقة بالمؤسسات مثل الأمن الإلكتروني، كوكلاء ذكاء اصطناعي يستخدمون أداة أو وظيفة استدعاء لأداء المهام بشكل مستقل، وفي مهام التوليد المعزز للاسترجاع (RAG) التي تتضمن استرجاع الحقائق من قاعدة معرفية خارجية لتأسيس النماذج على أدق وأحدث المعلومات.

تتوفر نماذج Granite 3.0 للاستخدام التجاري على المنتجات في محفظة ™IBM watsonx ومن خلال Google Vertex AI وHugging Face وNVIDIA (كخدمات NIM المصغرة) وOllama وReplicate.

Llama

Llama هو خط Meta لنماذج اللغات مفتوحة المصدر. يأتي Llama 3.2 بحجم 1 و3 مليار معلمة،6 وهو أصغر حتى من الإصدار السابق من Llama 2 الذي يحتوي على 7 مليار معلمة.7

وقد قُلصت الإصدارات الكمومية لهذه النماذج النصية متعددة اللغات فقط إلى أكثر من نصف حجمها وهي أسرع بمرتين إلى ثلاث مرات.6 يمكن الوصول إلى النماذج اللغوية الصغيرة هذه من خلال Meta وHugging Face وKaggle.

Ministral

Les Ministraux هي مجموعة من النماذج اللغوية الصغيرة من Mistral AI. Ministral 3B هو أصغر نموذج للشركة يحتوي على 3 مليار معلمة، في حين أن Ministral 8B الذي يحتوي على 8 مليار معلمة هو خليفة Mistral 7B، وهو أحد نماذج الذكاء الاصطناعي الأولى التي أصدرتها Mistral AI. يمكن الوصول إلى كلا النموذجين من خلال Mistral.8

يتفوق Ministral 8B على Mistral 7B في معايير تقييم المعرفة والمنطق والرياضيات والمهارات متعددة اللغات. وللاستدلال السريع، يستخدم Ministral 8B نافذة انتباه منزلقة، وهي آلية ديناميكية للتركيز على "نوافذ" محددة الحجم من تسلسلات المدخلات، ما يسمح للنماذج بالتركيز على بضع كلمات فقط في كل مرة.8

Phi

Phi هو مجموعة من النماذج اللغوية الصغيرة من Microsoft. يحتوي Phi-2 على 2.7 مليار معلمة، بينما يحتوي Phi-3-mini على 3.8 مليار معلمة.9

يمكن لنموذج Phi-3-mini تحليل محتوى نصي كبير والاستدلال عليه بسبب نافذة السياق الطويلة، وهي الحد الأقصى للنص الذي يمكن للنموذج معالجته. ووفقًا لشركة Microsoft، سيتوفر Phi-3-small، وهو نموذجها الذي يحتوي على 7 مليارات معلمة في المستقبل. يمكن الوصول إلى Phi-3-mini على Microsoft Azure AI Studio وHugging Face وOllama.9

الجمع بين النماذج اللغوية الكبيرة والنماذج اللغوية الصغيرة

أدى التقدم في تطوير الذكاء الاصطناعي إلى أساليب تحسينية تزيد من القوة المشتركة بين النماذج اللغوية الكبيرة والنماذج اللغوية الصغيرة:

نمط الذكاء الاصطناعي الهجين: يمكن أن يحتوي نموذج الذكاء الاصطناعي الهجين على نماذج أصغر تعمل محليًا والوصول إلى النماذج اللغوية الكبيرة في السحابة العامة عندما تكون هناك حاجة إلى مجموعة أكبر من البيانات للاستجابة لمطلب ما.

التوجيه الذكي: يمكن تطبيق التوجيه الذكي لتوزيع أحمال تشغيل الذكاء الاصطناعي بكفاءة أكبر. ويمكن إنشاء وحدة توجيه لقبول الاستفسارات وتقييمها واختيار النموذج الأنسب لتوجيه الاستفسارات إليه. يمكن للنماذج اللغوية الصغيرة التعامل مع الطلبات الأساسية، بينما يمكن للنماذج اللغوية الكبيرة التعامل مع الطلبات الأكثر تعقيدًا.

فائدة النماذج اللغوية الصغيرة

الأكبر ليس دائمًا أفضل، وما تفتقر إليه النماذج اللغوية الصغيرة من حيث الحجم، تعوضه النماذج اللغوية الصغيرة من خلال هذه المزايا:

سهولة الوصول إليها: يمكن للباحثين ومطوري الذكاء الاصطناعي وغيرهم من الأفراد استكشاف النماذج اللغوية وتجربتها من دون الحاجة إلى الاستثمار في وحدات معالجة رسومات (GPUs) متعددة أو غيرها من المعدات المتخصصة.

الكفاءة: إن صغر حجم النماذج اللغوية الصغيرة يجعلها أقل استهلاكًا للموارد، ما يسمح بالتدريب والنشر السريع.

الأداء الفعال: لا تأتي هذه الكفاءة على حساب الأداء. يمكن أن تتمتع النماذج الصغيرة بأداء مماثل أو حتى أفضل من مثيلاتها من النماذج الكبيرة. على سبيل المثال، يتفوق GPT-4o mini على GPT-3.5 Turbo في معايير تقييم النماذج اللغوية الكبيرة في مجالات فهم اللغة والإجابة على الأسئلة والاستدلال المنطقي والاستدلال الرياضي وتوليد الأكواد.10 كما أن أداء GPT-4o mini قريب من أداء شقيقه الأكبر GPT-4o.10

مزيد من الخصوصية والتحكم الأمني: بسبب حجمها الأصغر، يمكن نشر النماذج اللغوية الصغيرة في بيئات الحوسبة على السحابة الخاصة أو محليًا، ما يسمح بتحسين حماية البيانات وتحسين إدارة تهديدات الأمن الإلكتروني والتخفيف من حدتها. ويمكن أن يكون هذا الأمر ذا قيمة خاصة لقطاعات مثل الشؤون المالية أو الرعاية الصحية حيث الخصوصية والأمان أمران أساسيان.

زمن انتقال أقل: تجعل قلة المعلمات أوقات المعالجة أقل، ما يسمح للنماذج اللغوية الصغيرة بالاستجابة بسرعة. على سبيل المثال، يحتوي كل من Granite 3.0 1B-A400M و Granite 3.0 3B-A800Mعلى إجمالي عدد معلمات يبلغ مليار و3 مليارات على التوالي، في حين أن عدد المعلمات النشطة عند الاستدلال يبلغ 400 مليون للنموذج 1B و800 مليون للنموذج 3B. وهذا يسمح لكلا النموذجين بتقليل زمن الانتقال مع تقديم أداء استدلالي عالٍ.

أكثر استدامة من الناحية البيئية: نظرًا لأنها تتطلب موارد حاسوبية أقل، تستهلك النماذج اللغوية الصغيرة طاقة أقل، ما يقلل من بصمتها الكربونية.

انخفاض التكلفة: يمكن للمؤسسات توفير نفقات التطوير والبنية التحتية والنفقات التشغيلية - مثل الحصول على كميات هائلة من بيانات التدريب عالية الجودة واستخدام أجهزة متطورة - التي كانت ستحتاجها لتشغيل نماذج ضخمة.

حدود النماذج اللغوية الصغيرة

مثل النماذج اللغوية الكبيرة، لا يزال يتعين على النماذج اللغوية الصغيرة التعامل مع مخاطر الذكاء الاصطناعي. وهذا أمر يجب أخذه في الحسبان بالنسبة إلى الشركات التي تتطلع إلى دمج النماذج اللغوية الصغيرة في مهام سير عملها الداخلي أو تطبيقها تجاريًا لتطبيقات محددة.

الانحياز: يمكن للنماذج الصغيرة أن تتعلم من الانحياز الموجود في نظيراتها الكُبرى، وقد يظهر هذا التأثير المتسلسل في مخرجاتها.

انخفاض الأداء في المهام المعقدة: نظرًا لأن النماذج اللغوية الصغيرة عادةً ما تُضبط بدقة على مهام محددة، فقد تكون أقل كفاءة في المهام المعقدة التي تتطلب معرفة عبر مجموعة شاملة من الموضوعات. على سبيل المثال، تشير Microsoft إلى أن "نماذج Phi-3 لا تؤدي أداءً جيدًا في معايير المعرفة الواقعية لأن حجم النموذج الأصغر يؤدي إلى قدرة أقل على الاحتفاظ بالحقائق".9

التعميم المحدود: تفتقر النماذج اللغوية الصغيرة إلى القاعدة المعرفية الواسعة لمثيلاتها الموسعة، لذا قد تكون أكثر ملاءمة للمهام اللغوية المستهدفة.

الهلوسات: يعد التحقق من صحة نتائج النماذج اللغوية الصغيرة أمرًا حيويًا للتأكد من صحة ما تنتجه من حقائق.

حالات استخدام النماذج اللغوية الصغيرة

يمكن للمؤسسات ضبط النماذج اللغوية الصغيرة على مجموعات بيانات خاصة بالمجال لتخصيصها لتلبية احتياجاتها الخاصة. وتعني هذه القدرة على التكيف أنه يمكن استخدام النماذج اللغوية الصغيرة في مجموعة متنوعة من التطبيقات الواقعية:

روبوتات المحادثة: بفضل زمن الانتقال المنخفض وقدرات الذكاء الاصطناعي الحواري، يمكن للنماذج اللغوية الصغيرة تشغيل روبوتات المحادثة لخدمة العملاء، والاستجابة السريعة للاستفسارات في الوقت الفعلي. كما يمكن أن تشكِّل هذه النماذج العمود الفقري لروبوتات المحادثة المدعومة بالذكاء الاصطناعي الوكيل التي تتجاوز تقديم الإجابات لتُنجز المهام نيابةً عن المستخدم.

تلخيص المحتوى: يمكن استخدام نماذج Llama 3.2 1B و3B، على سبيل المثال، لتلخيص المناقشات على الهاتف الذكي وإنشاء عناصر عمل مثل أحداث التقويم.6 وبالمثل، يمكن لنموذج Gemini Nano تلخيص التسجيلات الصوتية ونصوص المحادثات.11

الذكاء الاصطناعي التوليدي: يمكن تنفيذ النماذج المدمجة لإكمال النصوص وتوليدها وكذلك كتابة التعليمات البرمجية. على سبيل المثال، يمكن استخدام نماذج granite-3b-code-instruct وgranite-8b-code-instruct لتوليد التعليمات البرمجية وشرحها وترجمتها من تعليمات مكتوبة بلغة طبيعية.

ترجمة اللغات: العديد من النماذج اللغوية الصغيرة متعددة اللغات وتم تدريبها على لغات أخرى غير الإنجليزية، لذا يمكنها الترجمة بين اللغات بسرعة. ونظرًا لقدرتها على فهم السياق، يمكنها إنتاج ترجمات شبه دقيقة تحتفظ بالفروق الدقيقة والمعنى في النص الأصلي.

الصيانة التنبؤية: النماذج الخفيفة صغيرة بما يكفي للتمكُّن من نشرها مباشرةً على أجهزة الحافة المحلية مثل المستشعرات أو أجهزة إنترنت الأشياء. هذا يعني أنه يمكن للمصنِّعين التعامل مع النماذج اللغوية الصغيرة كأدوات تجمع البيانات من أجهزة الاستشعار المثبَّتة في الآلات والمعدات وتحلِّل تلك البيانات في الوقت الفعلي للتنبؤ باحتياجات الصيانة.

تحليل المشاعر: بالإضافة إلى معالجة اللغة وفهمها، فإن أدوات تحليل المشاعر هي أيضًا ماهرة في فرز كميات هائلة من النصوص وتصنيفها بطريقة موضوعية. وهذا يجعلها مناسبة لتحليل النصوص وقياس المشاعر الكامنة وراءها، ما يساعد على فهم ملاحظات العملاء.

مساعدة ملاحة المركبات: يمكن لنموذج سريع وصغير مثل SLM أن يعمل على أجهزة الكمبيوتر المدمجة في المركبة. وبفضل قدراتها متعددة الوسائط، يمكن للنماذج اللغوية الصغيرة أن تجمع بين الأوامر الصوتية وتصنيف الصور، على سبيل المثال، لتحديد العوائق حول السيارة. ويمكنها أيضًا الاستفادة من قدرات التوليد المعزز بالاسترجاع واسترجاع التفاصيل من رموز الطرق السريعة أو قواعد الطريق لمساعدة السائقين على اتخاذ قرارات قيادة أكثر أمانًا واستنارة.

حلول ذات صلة
نماذج الأساس

استكشف مكتبة نماذج الأساس من IBM في محفظة watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

استكشف مكتبة نماذج الأساس من IBM في محفظة IBM watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.

اكتشف watsonx.ai استكشف نماذج الذكاء الاصطناعي من IBM Granite
الحواشي

كل الروابط تنقلك خارج موقع ibm.com

1 DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter, arXiv, 1 March 2020

2 Well-Read Students Learn Better: On the Importance of Pre-training Compact Models, arXiv, 25 September 2019

3 MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices, arXiv, 14 Apr 2020

4 Gemma explained: An overview of Gemma model family architectures, Google for Developers, 15 August 2024

5 Gemini Models, Google DeepMind, Accessed 17 October 2024

6 Introducing Llama 3.2, Meta, Accessed 17 October 2024

7 Meta and Microsoft Introduce the Next Generation of Llama, Meta, 18 July 2023

8 Un Ministral, des Ministraux, Mistral AI, 16 October 2024

9 Introducing Phi-3: Redefining what’s possible with SLMs, Microsoft, 23 April 2024

10 GPT-4o mini: advancing cost-efficient intelligence, OpenAI, 18 July 2024

11 Gemini Nano, Google DeepMind, Accessed 21 October 2024