تُعَد Gemma مجموعة Google من النماذج اللغوية الصغيرة المجانية والمفتوحة (SLMs). إذ تم تصميمها باستخدام التقنية نفسها المستخدمة في مجموعة نماذج Gemini من النماذج اللغوية الكبيرة (LLMs) وتُعَدُّ إصدارات ”خفيفة الوزن“ من Gemini.
ولأنها أصغر حجمًا من نماذج Gemini، يمكن نشر نماذج Gemma على أجهزة الكمبيوتر المحمول والأجهزة المحمولة، ولكنها محسَّنة أيضًا لتعمل مع وحدات المعالجة الرسومية (GPUs) من NVIDIA ووحدات المعالجة التنسورية (TPUs) من Google Cloud. ولكن على عكس Gemini، فإن Gemma ليست متعددة اللغات ولا متعددة الوسائط.
تستمد نماذج الذكاء الاصطناعي لتحويل النصوص إلى نصوص (الذكاء الاصطناعي) هذه اسمها من الكلمة اللاتينية نفسها، والتي تعني ”الحجر الكريم“. Gemma هي مجموعة من النماذج المفتوحة، حيث توفير Google إمكانية الوصول المجاني إلى أوزان النماذج، وتتوفر النماذج مجانًا للاستخدام الفردي والتجاري وإعادة التوزيع.1
تم طرح نماذج الجيل الأول من Gemma في 1 فبراير 2024،1 بينما تم الإعلان عن نماذج الجيل الثاني في 2 يونيو 2024.2
تتضمن مجموعة Gemma من نماذج الذكاء الاصطناعي Gemma وGemma 2 في جوهرها، إلى جانب بعض النماذج المتخصصة الأخرى التي تم تحسينها لمهام محددة ولها بنية مختلفة تدعمها. تحتوي النماذج في خط Gemma على متغيرات أساسية أو مدربة مسبقًا ومتغيرات مضبوطة حسب التعليمات.
Gemma هو الجيل الأول من طرز Gemma. Gemma 2B هي الأصغر بـ 2 مليار معلمة، بينما تحتوي Gemma 7B على 7 مليارات معلمة. وقد تم تدريب هذه النماذج على مجموعات بيانات التعليمات البرمجية والرياضيات ومعظمها عبارة عن محتوى باللغة الإنجليزية من وثائق الويب.3
Gemma 2 هو الجيل الثاني من عائلة جيما. وفقًا لـ Google، تتمتع Gemma 2 بأداء أفضل وأكثر كفاءة في استنتاج الذكاء الاصطناعي (عندما ينشئ النموذج استجابة لاستعلام المستخدم) مقارنة بسابقه.2
النموذج متاح في أحجام 2 و9 و27 مليار معلمة. تشمل مجموعات بيانات التدريب الخاصة بهم مستندات الويب باللغة الإنجليزية والتعليمات البرمجية والمقالات العلمية.4
تم ضبط نموذج تحويل النص إلى تعليمات برمجية بدقة من أجل مهام التعليمات البرمجية. وهو يدعم العديد من لغات البرمجة، بما في ذلك C++، وC#، وC#، وGo، وJava، وJava، وJava، وJava JavaScript، وKotlin، وPython، وRust.5
يشتمل CodeGemma على متغير 7B مُدرب مسبقًا لاستكمال التعليمات البرمجية وإنشاءها، ومتغير 7B المضبوط بالتعليمات من أجل المحادثة البرمجية باللغة الطبيعية واتباع التعليمات، ومتغير 2B مُدرب مسبقًا من أجل استكمال التعليمات البرمجية السريعة.5
يتألف DataGemma من نموذجي Gemma وGemma 2 المضبوطين بدقة والتي تستكمل استجاباتها ببيانات من Google Data Commons، وهو مستودع للبيانات الإحصائية العامة. تطبّق نماذج التوليد المعزز بالاسترجاع من DataGemma توليد الاسترجاع المتداخل لإنشاء استعلامات لغة طبيعية للحصول على البيانات من Data Commons. وفي الوقت نفسه، تستخدم نماذج التوليد المعزز بالاسترجاع من DataGemma توليدًا معززًا بالاسترجاع لجمع البيانات من Data Commons التي يمكن أن تزيد من مطالبات النماذج.6
يقبل نموذج لغة الرؤية هذا كلاً من الصور والنصوص كمدخلات وينتج نصًا كمخرجات. وعلى هذا النحو، فهو مثالي للإجابة عن الأسئلة المتعلقة بالصور واكتشاف الأجسام داخل الصور وإنشاء تعليقات على الصور وقراءة النصوص المضمنة في الصور. تتألف بنيته الأساسية من مشفر صورة محول الرؤية ومشفر نص محول تمت تهيئته من Gemma 2B.7
يشتمل PaliGemma على مجموعة للأغراض العامة من النماذج المُعدّة مسبقًا ومجموعة من النماذج الموجهة للأبحاث والمضبوطة بدقة على مجموعات بيانات بحثية معينة. تشير Google إلى أن معظم نماذج PaliGemma تتطلب ضبطًا دقيقًا، ويجب اختبار المخرجات قبل نشرها للمستخدمين.8
يستخدم RecurrentGemma بنية شبكة عصبية متكررة طورها باحثو Google. وهذا يجعله أسرع في الاستدلال — خصوصًا عند إنشاء تسلسلات طويلة — ويتطلب ذاكرة أقل من Gemma. ويتوافر في نماذج 2B و9B المضبوطة مسبقًا والمضبوطة بالتعليمات.9
لدى CodeGemma وPaliGemma حالات استخدام خاصة بهما. لكن بشكل عام، يمكن للأشخاص استخدام Gemma لمهام معالجة اللغة الطبيعية (NLP) وفهم اللغة الطبيعية، بما في ذلك:
يعتمد Gemma على نموذج المحول، وهو بنية شبكة عصبية نشأت من Google في عام 2017.10
فيما يلي نظرة عامة موجزة على كيفية عمل نماذج المحولات:
تحوِّل أدوات التشفير تسلسلات المدخلات إلى تمثيلات رقمية تُسمَّى التضمينات التي تلتقط دلالات الرموز ومواقعها في تسلسل المدخلات.
تُتيح آلية الانتباه الذاتي تركيز الانتباه على الرموز الأكثر أهمية في تسلسل المدخلات في بعض الحالات، بغض النظر عن موقعها.
تستخدم أدوات فك التشفير آلية الانتباه الذاتي وتضمينات أجهزة التشفير لإنشاء تسلسل المخرجات الأكثر احتمالاً من الناحية الإحصائية.
ومع ذلك، تستخدم Gemma نوعًا مختلفًا من بنية المحول يُعرف باسم محول فك التشفير فقط.11 في هذا النموذج، تتم تغذية تسلسلات الإدخال مباشرة إلى وحدة فك التشفير، والتي لا تزال تستخدم آليات التضمين والانتباه لتوليد تسلسل الإخراج.
تعمل نماذج الجيل الأول من Gemma على تحسين المحولات من خلال بعض العناصر المعمارية:
تطبق كل طبقة من الشبكة العصبية عمليات تضمين موضعية دوارة بدلاً من عمليات التضمين الموضعية المطلقة. تتم مشاركة عمليات التضمين أيضًا عبر الإدخالات والمخرجات لضغط النموذج.3
يستخدِم Gemma 7B آلية الانتباه متعدد الرؤوس؛ إذ يمتلك كل "رأس انتباه" مفاتيح وقيمًا خاصة به لالتقاط أنواع مختلفة من العلاقات بين الرموز المميزة. وعلى النقيض، يعتمد Gemma 2B على آلية الانتباه متعدد الاستعلامات، حيث تشترك جميع رؤوس الانتباه في مجموعة واحدة من المفاتيح والقيم، ما يعزز السرعة ويقلِّل من استهلاك الذاكرة.11
يستخدم Gemma 2 شبكات عصبية أعمق من Gemma. وفيما يلي بعض الاختلافات المعمارية البارزة الأخرى:4
في كل طبقة أخرى من شبكتها العصبية، يتناوب Gemma 2 بين آلية الانتباه ضمن نافذة انزلاقية محلية والانتباه الشامل. يُعَد الانتباه ضمن نافذة انزلاقية محلية آلية ديناميكية تركِّز على "نوافذ" ذات حجم ثابت ضمن تسلسلات المدخلات، ما يُتيح للنماذج التركيز على عدد محدود من الكلمات في كل مرة. أما الانتباه الشامل، فيغطي كل الرموز في التسلسل.
يستخدم Gemma 2 أيضًا آلية الانتباه باستعلامات مجمَّعة، وهي نهج يعتمد على التقسيم والتغلب، حيث يتم تقسيم الاستعلامات إلى مجموعات أصغر وحساب الانتباه داخل كل مجموعة على حدة.
كما أن نماذج Gemma 2 2B و9B تطبق تقنية استخلاص المعرفة، والتي تعني "استخلاص" المعرفة من نموذج أكبر إلى نموذج أصغر عن طريق تدريب النموذج الأصغر على تقليد عملية الاستدلال في النموذج الأكبر ومطابقة توقعاته.
فيما يتعلق بضبط التعليمات، الذي يهيئ النموذج لاتباع التعليمات بشكل أفضل، يطبق كل من Gemma وGemma 2 الضبط الدقيق الخاضع للإشراف والتعلم المعزز من التغذية الراجعة البشرية (RLHF). 4 يستخدم الضبط الدقيق الخاضع للإشراف أمثلة مصنفة للمهام الموجهة نحو التعليمات لتعليم النموذج كيفية هيكلة استجاباته. وفي الوقت نفسه، يستخدم RLHF نموذج مكافأة لترجمة تصنيفات الجودة من المقيمين البشريين إلى إشارات مكافأة رقمية، مما يساعد النماذج على معرفة الاستجابات التي ستحصل على ردود فعل إيجابية.
تشير تقييمات أداء Gemma 7B في معايير LLM التي تشمل إنشاء التعليمات البرمجية، والتفكير المنطقي، وفهم اللغة، والتفكير الرياضي، والإجابة عن الأسئلة إلى أنها قابلة للمقارنة مع SLMs ذات مقياس مماثل مثل Llama 3 8B وMistral 7B. كان أداء Gemma 2 9B و27B أفضل، حيث تفوّق على كل من Llama 3 8B وMistral 7B في معظم المعيار.12
ومع ذلك، فقد تفوقت Llama 3.2 3B وMinistral 3B، أحدث SLMs من Meta وMistral على التوالي، على Gemma 2 2B في معايير مختلفة.13 كما حقق Phi-3-mini من Microsoft، وهو نموذج لغوي يحتوي على 3.8 مليارات معلمة، الأداء أعلى من Gemma 7B.14
يمكن الوصول إلى نماذج Gemma من خلال هذه المنصات:
Google AI Studio
Hugging Face (المتضمن أيضًا في Hugging Face Transformers)
Kaggle
Vertex AI Model Garden
يمكن للمطورين أيضًا تنفيذ النماذج باستخدام أطر عمل مفتوحة المصدر للتعلم الآلي مثل JAX وLangChain وPyTorch وTensorFlow، ومن خلال واجهات برمجة التطبيقات (APIs) مثل Keras 3.0. بالإضافة إلى ذلك، ونظرًا لأن Gemma تتضمن تحسينات عبر وحدات معالجة الرسومية (GPUs) من NVIDIA، يمكن للمطورين استخدام أدوات NVIDIA، بما في ذلك إطار عمل NeMo لتعديل النماذج وتطبيق TensorRT-LLM لتحسين الاستدلال بكفاءة على وحدات معالجة الرسوميات من NVIDIA.
لتطوير الذكاء الاصطناعي على مستوى المؤسسات، يمكن نشر نماذج Gemma على Google Cloud Vertex AI وGoogle Kubernetes Engine (GKE). أما بالنسبة لأولئك الذين لديهم قدرات حوسبة محدودة، يوفر Google Colab وصولًا مجانيًا إلى موارد حوسبة سحابية مثل وحدات المعالجة الرسومية (GPUs) ووحدات معالجة التينسور (TPUs).
كما هو الحال مع نماذج الذكاء الاصطناعي الأخرى، لا يزال نموذج Google Gemma يواجه مخاطر الذكاء الاصطناعي، بما في ذلك:
التحيز: يمكن للنماذج الصغيرة أن تتعلم من التحيز الموجود في النماذج الكبيرة، ويمكن لهذا التأثير المتسلسل أن ينعكس على نتائجها.
الهلوسة: يُعَد التحقق من مخرجات النماذج اللغوية الصغيرة ومراقبتها مثل Gemma أمرًا ضروريًا للتأكد من دقة مخرجاتها وصحتها من الناحية الواقعية.
انتهاكات الخصوصية: تشير Google إلى أن مجموعات البيانات المستخدمة في تدريب نماذج Gemma وGemma 2 قد تمَّت تصفيتها لإزالة بعض المعلومات الشخصية والبيانات الحساسة الأخرى.4 ومع ذلك، يجب على المستخدمين الأفراد والشركات توخي الحذر بشأن البيانات التي يستخدمونها لتعديل نماذج Gemma لتجنب تسريب أي بيانات شخصية أو ملكية.
فيما يتعلق بالسلامة والأمن، قامت Google بتقييم Gemma على عدة مقاييس، بما في ذلك الأمن الإلكتروني الهجومي، والمعرفة CBRN (الكيميائية والبيولوجية والإشعاعية والنووية)، والانتشار الذاتي (القدرة على التكرار الذاتي) والإقناع. معرفة Gemma في المجالات الكيميائية والبيولوجية والإشعاعية والنووية منخفضة. وبالمثل، يتمتع النموذج بقدرات منخفضة في مجال الأمن الإلكتروني الهجومي والانتشار الذاتي والإقناع.4
أطلقت Google أيضًا مجموعة أدوات الذكاء الاصطناعي التوليدي المسؤول لمساعدة الباحثين والمطورين في مجال الذكاء الاصطناعي على بناء تطبيقات ذكاء اصطناعي مسؤولة وآمنة.1
كل الروابط تنقلك خارج موقع ibm.com
1 Gemma: تقديم أحدث النماذج المفتوحة الجديدة، Google، بتاريخ 21 فبراير 2024
2 Gemma 2 متاح الآن للباحثين والمطورين، Google، بتاريخ 27 يونيو 2024
3 Gemma: النماذج المفتوحة القائمة على أبحاث وتقنيات ، Google DeepMind، بتاريخ 21 فبراير 2024
4 Gemma 2: تحسين النماذج اللغوية المفتوحة بحجم عملي، Google DeepMind، بتاريخ 27 يونيو 2024
5 بطاقة نموذج CodeGemma، Google AI for developers، بتاريخ 5 أغسطس 2024
6 معرفة متى تسأل - الربط بين النماذج اللغوية الكبيرة والبيانات، arXiv، بتاريخ 10 سبتمبر 2024
7 بطاقة نموذج PaliGemma، GoogleAI for developers، بتاريخ 5 أغسطس 2024
8 PaliGemma، Google AI for developers، بتاريخ 5 أغسطس 2024
9 بطاقة نموذج RecurrentGemma، Google AI for developers، بتاريخ 5 أغسطس 2024
10 Transformer: بنية جديدة للشبكة العصبية لفهم اللغة، Google Research، بتاريخ 31 أغسطس 2017
11 شرح Gemma: نظرة عامة على بنية مجموعة نماذج Gemma، Google for Developers، بتاريخ 15 أغسطس 2024
12 نماذج Gemma المفتوحة، Google AI for Developers، تاريخ الوصول 5 نوفمبر 2024
13 Un Ministral، des Ministraux، Mistral AI، بتاريخ 16 أكتوبر 2024
14 تقديم Phi-3: إعادة تعريف ما هو ممكن باستخدام النماذج اللغوية الصغيرة، Microsoft، بتاريخ 23 أبريل 2024
استكشف مكتبة نماذج الأساس من IBM في محفظة watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.
استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.