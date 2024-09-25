Artificial Intelligence Open source AI for the Enterprise Technology

نماذج Meta Llama 3.2 متاحة الآن على watsonx.ai، بما في ذلك نماذج متعددة الوسائط بأحجام 11B و90B.

منظر جوي لفريق يتعاون

تعلن IBM عن إتاحة عدة نماذج Llama 3.2 على منصة watsonx.ai، وهي استوديو من فئة المؤسسات لمطوري الذكاء الاصطناعي، وذلك عقب إطلاق مجموعة Llama 3.2 من النماذج اللغوية الكبيرة متعددة اللغات (LLMs) المُدرَّبة مسبقًا والمضبوطة بالتعليمات خلال فعالية MetaConnect في وقت سابق اليوم.

ومن أبرز ما يميّز Llama 3.2 أنه يمثّل أول دخول لشركة Meta إلى عالم الذكاء الاصطناعي متعدد الوسائط؛ إذ يتضمّن الإصدار نموذجين بحجمي 11B و90B يمكنهما استخدام الصور كمدخلات. كما أصبحت النماذج المضبوطة بالتعليمات Llama 3.2 90B Vision وLlama 3.2 11B Vision متاحة فورًا على watsonx.ai عبر نموذج البرمجيات كخدمة (SaaS).

ووصلت أيضًا إلى watsonx.ai أصغر نماذج Llama حتى الآن: نموذجان لغويان كبيران (LLMs) بإدخال نصي وإخراج نصي، بحجمي 1B و3B. وتدعم جميع نماذج Llama 3.2 سياقًا طويلًا يصل إلى 128 ألف رمز مميز، كما جرى تحسينها للاستدلال السريع والفعّال باستخدام الانتباه بالاستعلامات المجمَّعة (GQA). وتوضّح Meta أن اللغات الإنجليزية والألمانية والفرنسية والإيطالية والبرتغالية والهندية والإسبانية والتايلاندية مدعومة رسميًا، لكنها تشير أيضًا إلى أن Llama 3.2 جرى تدريبها على لغات إضافية، ويمكن للمطوّرين ضبط نماذج Llama 3.2 بدقّة لدعم لغات أخرى إلى جانب هذه اللغات الثماني.

تنضم هذه الإضافات الأخيرة من Meta إلى مكتبة نماذج الأساس الواسعة المتاحة على watsonx.ai، بما يرسّخ استراتيجية IBM المنفتحة والمتعدّدة النماذج في مجال الذكاء الاصطناعي التوليدي.

يقول Ahmad Al-Dahle، رئيس قسم الذكاء الاصطناعي التوليدي في Meta: "من خلال إتاحة أحدث نماذج Llama 3.2 على watsonx، نُمكِّن قاعدةً أوسع بكثير من المؤسسات من الاستفادة من هذه الابتكارات ونشر أحدث نماذجنا بسهولة، وبالشكل الذي يناسبها، وعبر بيئات سحابية هجينة." "في Meta نؤمن بأن تكييف حلول الذكاء الاصطناعي مع احتياجات كل مؤسسة على حدة أمرٌ أساسي، وبأن تمكين هذه المؤسسات من توسيع نطاق استخدام Llama بسهولة جزءٌ من هذا الالتزام. وشراكتنا مع IBM، المؤسسة التي تشاركنا الالتزام بالانفتاح والسلامة والأمن والثقة والشفافية، هي ما يتيح لنا تحقيق ذلك على أرض الواقع."

تابع القراءة للتعرّف بمزيد من التفصيل على مجموعة Llama 3.2، بما في ذلك القدرات متعددة الوسائط الجديدة، وفرص النشر على الأجهزة المحمولة وأجهزة الحافة، وميزات الأمان المحدَّثة وغير ذلك.

 

أول نماذج Llama متعددة الوسائط

وعلى عكس النماذج اللغوية الكبيرة (LLMs) السابقة المعتمدة على النص فقط ضمن سلسلة Llama، وسّعت نماذج Llama 3.2 11B وLlama 3.2 90B قدراتها لتشمل حالات استخدام تعتمد على إدخال الصور وإخراج النصوص، مثل فهم المستندات، وتفسير المخططات والرسوم البيانية، وإنشاء الأوصاف والعناوين النصية للصور. وبات لدى المطوّرين الآن نماذج قوية للاستدلال البصري تقترب في قدراتها المتقدّمة من النماذج المغلقة، مع الاحتفاظ في الوقت نفسه بمرونة النماذج المفتوحة وإمكانات تخصيصها الكاملة.

وتستطيع نماذج Llama 3.2 Vision متعددة الوسائط الجديدة من فئة النماذج اللغوية الكبيرة إجراء استدلال بصري على صور عالية الدقة تصل إلى 1120×1120 بكسل، مما يتيح استخدامها في مهام رؤية الكمبيوتر، مثل التصنيف، واكتشاف الكائنات وتحديدها، وتحويل الصور إلى نصوص (بما في ذلك الكتابة اليدوية) عبر التعرف البصري على الحروف (OCR)، إلى جانب الأسئلة والأجوبة السياقية، واستخراج البيانات ومعالجتها، ومقارنة الصور، وتقديم مساعدة بصرية شخصية.

إعطاء نموذج Llama على watsonx مُوجِّهات تمكّنه من استنتاج الرياضة التي تمارسها فتاة؛ بالاستناد إلى صورتها التي تحمل فيها كرة سلة وترتدي تنّورة باليه (tutu).

يوفّر هذا النهج في النماذج متعددة الوسائط ثلاث مزايا رئيسية.

  • الضبط الدقيق المبسَّط: يُبقي مَعْلمات النموذج اللغوي الكبير (LLM) الأساسي كما هي، محافظًا على المعرفة العامة للنموذج، ويضمن استمرار التحسينات اللافتة التي تحقّقت مع إصدار Llama 3.1؛ فقد أظهرت نماذج Llama 3.2 11B وLlama 3.2 90B تحسّنًا طفيفًا في اختبارات الرياضيات والاستدلال والمعرفة العامة مقارنةً بنظيرتيها Llama 3.1 8B وLlama 3.1 70B. ومن المرجّح أيضًا أن يُبسِّط هذا النهج عملية الضبط الدقيق لنماذج Llama 3.2 متعددة الوسائط، مما يتيح تخصيص أداء اللغة من دون الخوف من حدوث تأثيرات غير مقصودة في قدرات الاستدلال على الصور.

  • تدريب عالي الكفاءة: يتميّز هذا النهج بكفاءة لافتة مقارنة بنُهُج التدريب المتعدد الوسائط الشائعة، التي تتطلّب عادةً تحديث عدد هائل من مَعْلمات النموذج. فعلى سبيل المثال، يشير الباحثون وراء LLaMa-Adapter V2 إلى أن المَعْلمات المخصَّصة للصور لديهم لا تمثّل سوى 0.04% من إجمالي مَعْلمات النموذج. وقد تطلّب التدريب المسبق لنموذج Llama 3.2-Vision على مجموعة بيانات تضم 6 مليارات زوج من الصور والنصوص ما مجموعه 2.02 مليون ساعة معالجة على وحدات معالجة الرسوميات (GPU) للنموذجين معًا — وهي تكلفة حوسبية أقل بكثير من 7.0 ملايين ساعة معالجة GPU التي استُخدمت لتدريب Llama 3.1 70B مسبقًا بمفرده.

  • الكفاءة في السرعة والتكلفة: يتيح هذا النهج لنماذج Llama 3.2 الاستفادة من موارد حوسبة إضافية للاستدلال على الصور فقط عندما تتضمّن المدخلات صورًا تحتاج إلى ذلك. ويؤكّد هذا التوجّه التزام Meta بتحقيق سرعة مخرجات رائدة وكفاءة عالية في التكلفة، بما يمكّن من عمليات نشر واسعة النطاق بكفاءة، وتطبيقات آنية لحالات الاستخدام الحسّاسة للوقت، مثل روبوتات المحادثة وتوليد المحتوى الديناميكي.

ويُظهِر النموذجان أداءً قويًا في معايير التقييم الشائعة للنماذج اللغوية للرؤية (VLMs) متعددة الوسائط، مقتربَيْن من أعلى النتائج التي تحقّقها النماذج المفتوحة، وغالبًا ما ينافسان أحدث النماذج المغلقة. على سبيل المثال، يقدّم النموذج المضبوط بالتعليمات Llama 3.2 90B-Vision أداءً موازِيًا لنموذج GPT-4o من OpenAI في فهم المخططات (ChartQA)، ويتفوّق على كلٍّ من Claude 3 Opus من Anthropic وGemini 1.5 Pro من Google في تفسير المخططات العلمية (AI2D).1

وبالمثل، حقق Llama 3.2 11B-Vision نتائج معيارية تنافسية ضمن فئته، متفوِّقًا على Gemini 1.5 Flash 8B في الأسئلة والأجوبة البصرية على مستوى المستندات (DocVQA)، ومتقدِّمًا على Claude 3 Haiku وClaude 3 Sonnet في اختبارات AI2D وChartQA والتفكير الرياضي البصري (MathVista)، كما حافظ على مستوى أداء مماثل لكل من Pixtral 12B وQwen2-VL 7B في الأسئلة والأجوبة البصرية العامة (VQAv2).2
 

نماذج Llama خفيفة يمكن تشغيلها تقريبًا على أي بيئة أو جهاز
 

كما تتضمّن مجموعة Llama 3.2 نُسخًا بعدد مَعْلمات 1B و3B، وهي أصغر نماذج Llama حتى الآن.

وبفضل صِغر حجم هذه النماذج ومتطلبات الحوسبة والذاكرة المحدودة نسبيًا، يمكن تشغيل Llama محليًا على معظم العتاد، بما في ذلك الهواتف المحمولة وأجهزة الحافة الأخرى. وهذا يمنح Llama 3.2 1B وLlama 3.2 3B القدرة على إطلاق موجة جديدة من الابتكار في التطبيقات المحلية وفي حلول الذكاء الاصطناعي الوكيل.  ورغم تعدّد مزايا هذه النماذج المدمجة عالية الأداء، يمكن تلخيص أهم ميزتين فيما يلي:

  • إمكانية التشغيل محليًا بزمن انتقال قصير للغاية حتى على الأجهزة ذات الموارد المحدودة، بما في ذلك الهواتف الذكية.

  • والقدرة المصاحِبة على حماية خصوصية المستخدم وتجنّب مخاوف الأمن السيبراني من خلال الاستغناء عن إرسال البيانات الشخصية، سواء كانت شخصية أو مملوكة للمؤسسة، إلى خوادم خارجية.

وعند تشغيلها محليًا، يمكن أن تعمل هذه النماذج الخفيفة من Llama 3.2 كوكلاء فعّالين من حيث التكلفة لتنسيق التطبيقات على الجهاز نفسه، بما في ذلك التوليد المعزّز بالاسترجاع (RAG)، والتلخيص متعدد اللغات، وتفويض المهام الفرعية. كما يمكن الاستفادة منها في خفض تكلفة تطبيق نماذج السلامة مثل Llama Guard — الذي يتوفر منه إصدار جديد متعدد الوسائط ضمن طرح Meta الحالي — والمُتاح على منصة watsonx.

يتجاوز النموذجان الجديدان خفيفا الوزن من Llama ما يوحي به حجمهما في اختبارات الأداء، لا سيّما في المهام المحورية للذكاء الاصطناعي الوكيل. فعلى سبيل المثال، يقدّم Llama 3.2 3B أداءً مماثلًا لنموذج Llama 3.1 8B الأكبر حجمًا في استخدام الأدوات (BFCL v2)، ويتفوّق عليه في التلخيص (TLDR9+)، فيما يقدّم نموذج 1B أداءً منافسًا لهما في مهام التلخيص وإعادة الصياغة. وفي مؤشر لافت على مدى التقدّم الذي حققته النماذج اللغوية الكبيرة المفتوحة (LLMs) في فترة وجيزة، تفوّق Llama 3.2 3B بشكل ملحوظ على الإصدار الأصلي من GPT-4 في معيار MATH.
 

فوائد استخدام نماذج Llama على IBM watsonx

ومع تزايد توفر نماذج ذكاء اصطناعي قوية على نحو مستمر، سيغدو بناء ميزة تنافسية اعتمادًا على الحلول الجاهزة فقط أمرًا أصعب فأصعب. فنماذج Llama المفتوحة تنافس حتى أقوى النماذج في معايير الأداء، مع تقديم مستوى من التخصيص والشفافية والمرونة لا يمكن تحقيقه في النماذج المغلقة.

  • التخصيص: من خلال توفير وصول مباشر إلى أوزان النموذج وبنيته، تُمكِّن Llama المطوّرين من مواءمة النماذج مع الاحتياجات والقطاعات وحالات استخدام كل مؤسسة على حِدة. وستكون نماذج Llama 3.2 المُدرَّبة مسبقًا متاحة للضبط الدقيق أو مواصلة التدريب المسبق في Tuning Studio على منصة watsonx خلال الأسابيع المقبلة.

  • المرونة: شأنها شأن نماذج الأساس الأخرى المتاحة في IBM watsonx، يمكن نشر نماذج Llama في أي بيئة تشغيل، سواء في السحابة أو محليًا في مراكز البيانات أو في بيئات هجينة. وعلى عكس بعض المزوّدين الذين يقيّدون العملاء بسحابة عامة بعينها، تتيح watsonx للمطوّرين الاستفادة الكاملة من مرونة Llama 3.2 في اختيار بيئة النشر الأنسب.

  • السلامة والأمن: يواصل نهج Meta المسؤول في ابتكار حلول الذكاء الاصطناعي تقديم مجموعة واسعة من آليات الحماية المهمة. وتتضمّن مجموعة Llama 3.2 نموذج الحماية المحدَّث Llama Guard 3، المسمّى Llama-Guard-3-11B-Vision، الذي يوفّر مجموعة من ضوابط الاستدلال على مستوى المدخلات والمخرجات، متوافقة مع القدرات متعددة الوسائط الجديدة في Llama. تعزّز IBM watsonx ممارسات الذكاء الاصطناعي المسؤول والقابل للمساءلة، عبر ضوابط ديناميكية للذكاء الاصطناعي وتدابير قوية للأمن والخصوصية والسلامة.

  • الشفافية: على عكس الصندوق الأسود الذي تمثّله النماذج مغلقة المصدر، توفّر منظومة Llama البيئية شفافية كاملة وتحكّمًا عاليًا وقابلية للشَّرح، ولا سيما عند اقترانها بحل حوكمة الذكاء الاصطناعي القوي من IBM لإدارة ومراقبة حلول الذكاء الاصطناعي على مستوى المؤسسة بأكملها.
     

ابدأ باستخدام Llama 3.2

يأتي دعم Llama 3.2 في إطار التزام IBM بدفع الابتكار مفتوح المصدر في مجال الذكاء الاصطناعي، وإتاحة أفضل النماذج المفتوحة على منصة watsonx لعملائنا، بما في ذلك نماذج الأطراف الثالثة وعائلة نماذج IBM Granite.

وتساعد IBM watsonx العملاء على تخصيص تطبيق النماذج مفتوحة المصدر مثل Llama 3.2 بصورة عملية، بدءًا من المرونة الكاملة في اختيار بيئات النشر، ووصولًا إلى مهام سير العمل البديهية الخاصة بالضبط الدقيق، وهندسة الموجِّهات، والتكامل مع تطبيقات المؤسسات. تمكّن من بناء تطبيقات الذكاء الاصطناعي المخصصة لعملك بسهولة، وإدارة جميع مصادر البيانات، وتسريع سير عمل الذكاء الاصطناعي المسؤول — وكل ذلك من خلال منصة واحدة.

النماذج التالية متاحة اليوم على IBM watsonx.ai:

  • Llama-3.2-90B-Vision-Instruct (مدخلات نصوص وصور)
  • Llama-3.2-11B-Vision-Instruct (مدخلات نصوص وصور)
  • Llama-3.2-3B-Instruct (نصوص فقط)
  • Llama-3.2-1B-Instruct (نصوص فقط)
  • Llama Guard-3-11B-Vision (مدخلات نصوص وصور)

وستنضم إليها نماذج Llama 3.2 المُدرَّبة مسبقًا خلال الأسابيع المقبلة. خضعت جميع نماذج "-Instruct" لعملية ضبط دقيق خاضع للإشراف (SFT)، إضافةً إلى التعلُّم المعزَّز المستند إلى التعليقات البشرية (RLHF)، لضمان مواءمة أفضل مع حالات الاستخدام الشائعة ومع تفضيلات البشر من حيث الفائدة ومتطلبات الأمان على الترتيب.
 

جرِّب Llama 3.2 على watsonx.ai →

 

الحواشي

Cited benchmark evaluations for proprietary models are drawn from self-reported figures from Anthropic on 20 June, 2024 (for Claude 3.5 Sonnet and Claude 3 Opus) and 4 March, 2024 (for Claude 3 Sonnet and Haiku), from OpenAI on 13 May, 2024 (for GPT models) and Google Deepmind in May and September 2024 (for Gemini models). AI2D testing for Gemini 1.5 Pro was reported by Anthropic.

2 Cited benchmark evaluations for Pixtral and Qwen-VL are drawn from numbers reported by Mistral AI.

برامج وموارد Llama 3.2

ذكاء اصطناعي متعدد الوسائط مع Llama 3.2 على watsonx
تعليمي

البدء
أهم اتجاهات الذكاء الاصطناعي في عام 2024
المقال

اقرأ الآن
™IBM watsonx.ai عرض توضيحي تفاعلي
عرض توضيحي

استكشف المنصة
الذكاء الاصطناعي التوليدي والتعلم الآلي للمؤسسات
دليل

سجِّل وقم بالتنزيل
اتخِذ الخطوة التالية

يمكنك تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئ الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي في وقت قصير وباستخدام جزء بسيط من البيانات.

 استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا