ما هو نموذج Llama 2؟

19 ديسمبر 2023

المؤلفين

Dave Bergmann

Senior Writer, AI Models, IBM

ما هو نموذج Llama 2؟

Llama 2 عبارة عن عائلة من النماذج اللغوية الكبيرة (LLMs) المدربة مسبقًا والمضبوطة بدقة، طورتها Meta AI في عام 2023. تم إصدار نماذج الذكاء الاصطناعي Llama 2 مجانًا للاستخدام البحثي والتجاري، وهي قادرة على تنفيذ مجموعة متنوعة من مهام معالجة اللغة الطبيعية (NLP)، بدءًا من توليد النصوص وصولًا إلى كتابة الأكواد البرمجية.

تُعد عائلة Llama 2، التي تتضمن نماذج أساس ونماذج "دردشة" مضبوطة بدقة، الجيل الجديد الذي يخلف نماذج LLaMa 1 التي أُصدرت في عام 2022 بموجب ترخيص غير تجاري يتيح الوصول إليها بشكل حصري للمؤسسات البحثية وفقًا لكل حالة على حدة. على عكس سابقاتها، تتوفر نماذج Llama مجانًا لكل من أبحاث الذكاء الاصطناعي والاستخدام التجاري.

على عكس النماذج السابقة، تتوفر نماذج Llama 2 مجانًا لكل من الباحثين ومطوري التطبيقات التجارية، مما يجعلها تسهم بدور مهم في إتاحة الذكاء الاصطناعي التوليدي للجميع. كما هو مذكور في دراسة Llama 2 (الرابط موجود خارج ibm.com)، على الرغم من أن منهجية تدريب النماذج اللغوية الكبيرة (LLMs) المسبقة على الانحدار الذاتي من خلال التعلم الذاتي الخاضع للإشراف أصبحت الآن واضحة نسبيًا ومفهومة جيدًا، إلا أن المتطلبات الحاسوبية الهائلة تحد بشكل كبير من تطوير هذه النماذج المتقدمة على نطاق واسع، مما يحصر تطويرها في عدد قليل من الجهات الفاعلة الرئيسية. نظرًا لأن معظم النماذج الرائدة غير مفتوحة المصدر مثل GPT من OpenAI، وClaude من Anthropic، وBARD من Google، هي نماذج مملوكة وغير مفتوحة المصدر، فإن الوصول البحثي العام الذي يمكن أن يساعد في فهم آلية عمل هذه النماذج وتحسين توافقها مع المصالح البشرية ظل محدودًا إلى حد كبير.

بالإضافة إلى جعل التعليمات البرمجية وأوزان النماذج الخاصة به متاحة مجانًا، ركز مشروع Llama على تطوير قدرات أداء النماذج الأصغر، بدلاً من زيادة عدد المعلمات. رغم أن أبرز النماذج غير مفتوحة المصدر تحتوي على مئات المليارات من المعلمات، يتم تقديم نماذج Llama 2 إما بسبعة مليارات معلمة (7B)، أو 13 مليار معلمة (13B)، أو 70 مليار معلمة (70B).

وهذا يمكّن المؤسسات الأصغر حجماً، مثل الشركات الناشئة وأعضاء المجتمعات البحثية، من نشر النماذج المحلية لنماذج Llama 2 - أو النماذج المبنية على Llama التي طورها مجتمع الذكاء الاصطناعي - دون الحاجة إلى بنية تحتية مكلفة أو وقت حوسبة باهظ التكلفة.

LLaMa 2 مقابل Llama 1

توضح الدراسة الخاصة بنموذج Llama 2 العديد من المزايا التي توفرها نماذج الذكاء الاصطناعي من الجيل الأحدث مقارنة بنماذج LLaMa من الجيل الأول.

  • زيادة طول السياق: تقدم نماذج Llama 2 سياقًا يبلغ طوله 4,096 رمزًا، أي ضعف طول سياق نموذج LLaMa 1. يشير طول السياق (أو نافذة السياق) إلى عدد الرموز المميزة التي يمكن للنموذج "تذكرها" أثناء الاستدلال (أي توليد النصوص أو المحادثات). وهذا يسمح بمزيد من التعقيد وتبادل أوسع نطاقًا للغة الطبيعية.
  • تحسين الوصول: بينما كانت LLaMa 1 متاحة فقط للأغراض البحثية، تتوفر Llama 2 لأي منظمة (يقل عدد مستخدميها النشطين عن 700 مليون مستخدم).
  • تدريب أكثر تقدمًا: تم تدريب Llama 2 على بيانات أكثر بنسبة 40% مما يزيد من قاعدة معارفها وفهمها للسياقات. وعلى عكس LLaMa 1، تم تحسين نماذج الحوار باستخدام التعلم المعزَّز المستند إلى التعليقات البشرية (RLHF)، مما يجعل ردود النموذج أكثر توافقًا مع توقعات المستخدمين.
تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

هل نموذج Llama 2 مفتوح المصدر؟

على الرغم من أن شركة Meta قد أتاحت الأكواد المصدرية لنماذج Llama 2 وأوزان النماذج مجانًا لأغراض البحث والاستخدام التجاري، إلا أن بعض القيود في اتفاقية الترخيص الخاصة بها أثارت جدلًا حول ما إذا كان يمكن اعتبارها "مفتوحة المصدر" على نحو ملائم.

الجدل حول مصطلح "مفتوح المصدر" ذو طابع تقني ودلاليّ: فعلى الرغم من أن مصطلح "مفتوح المصدر" يُستخدم بشكل شائع للإشارة إلى أي برنامج (أو أدوات برمجية أخرى) يتم توزيع الكود المصدري الخاص به مجانًا، إلا أنه في الواقع يُعتبر تصنيفًا رسميًا تُديره مبادرة المصدر المفتوح (OSI). لا تُصادق مبادرة OSI على أي ترخيص باعتباره "معتمدًا من مبادرة المصدر المفتوح" إلا إذا رأت أن هذا الترخيص يفي بالمتطلبات العشرة الواردة في التعريف الرسمي للمصدر المفتوح (OSD). (الرابط موجود خارج موقع ibm.com).

في تصريح للمدير التنفيذي لمبادرة OSI Stefano، Maffulli، "تُثني مبادرة OSI على جهود Meta في تقليل الحواجز للوصول إلى أنظمة ذكاء اصطناعي قوية. لكن للأسف، تسببت عملاقة التكنولوجيا في سوء فهم حيث صرحت بأن Llama 2 هو نموذج مفتوح المصدر، لكنه ليس كذلك. 1

يرجع الجدل إلى نقطتين رئيسيتين في اتفاقية ترخيص Llama 2:

  • أي منظمة تضم أكثر من 700 مليون مستخدم نشط شهريًا يجب أن تحصل على ترخيص من Meta، والذي يتم منحه بناءً على تقدير Meta وحدها). 2
  • تنص سياسة الاستخدام المقبول (Acceptable Use Policy) على حظر استخدام النماذج في أنشطة مثل العنف، أو الأنشطة الإجرامية، أو انتحال شخصية البشر، إلى جانب قيود قانونية وأخلاقية أخرى.

هذه القيود تتعارض مع نقطتين أساسيتين من تعريف المصدر المفتوح (OSD):

  • النقطة 5: "يجب ألا يميز الترخيص ضد أي شخص أو مجموعة من الأشخاص." 3
  • النقطة 6: "يجب ألا يقيد الترخيص أي شخص من استخدام البرنامج في مجال معين". 3

للوفيق بين الروح المفتوحة التي يتسم بها Llama 2 وعجزه عن تلبية التعريف الفني لمصطلح "مفتوح المصدر"، تبنى بعض أفراد المجتمع التقني مصطلح "النهج المفتوح (Open Approach)". 4

أكاديمية الذكاء الاصطناعي

لماذا تعد نماذج الأساس نقلة نوعية في الذكاء الاصطناعي

تعرَّف على فئة جديدة من نماذج الذكاء الاصطناعي المرنة والقابلة لإعادة الاستخدام التي يمكن أن تفتح مصادر جديدة للإيرادات، وتُسهم في تقليل التكاليف، وزيادة الإنتاجية، ثم استخدم دليلنا لمعرفة المزيد من التفاصيل.

كيف يعمل Llama 2؟

نماذج الأساس Llama 2 هي نماذج أساس مُدرّبة مسبقًا يمكن ضبطها لحالات استخدام محددة، في حين أن نماذج الدردشة Llama 2 هي نماذج حوارية مُحسَّنة بالفعل لتقديم أداء متميز في مهام الحوار.

النماذج الأساسية في Llama 2:

Llama 2 هي عائلة من النماذج اللغوية السببية ذاتية الانحدار المستندة إلى المحوّلات. تعمل هذه النماذج عبر استقبال تسلسل من الكلمات كمدخلات وتتنبأ تكراريًا بالكلمات التالية.

أثناء التدريب المسبق الخاضع للإشراف الذاتي، يتم تزويد النموذج اللغوي الكبير ببداية جمل مأخوذة من مجموعة بيانات ضخمة وغير معنونة، ويُطلب منه التنبؤ بالكلمة التالية. يتم تدريب النموذج لتقليل الانحرافات بين الحقيقة الأساسية (الكلمة الفعلية التالية) والتنبؤات الخاصة به، مما يمكّنه من تعلم الأنماط اللغوية والمنطقية المكررة في بيانات التدريب. على الرغم من أن الدراسة البحثية لم توضح بالتفصيل مصادر البيانات، إلا أنها ذكرت أن Llama 2 تم تدريبه على 2 تريليون رمز مميز —تتضمن كلمات ممثلة عدديًا وأجزاء كلمات وعبارات وأجزاء دلالية أخرى تستخدمها الشبكات العصبية لمعالجة اللغة - وكلها مأخوذة من مصادر متاحة للجمهور.

على المستوى الأساسي، لا يتم تدريب نماذج الأساس الأساسية مسبقًا للإجابة على الموجِّهات بشكل مباشر: بل تضيف نصًا إلى هذه الموجِّهات بطريقة متسقة نحويًا. قد يرد نموذج الأساس مباشرة لموجِّه مثل "علمني كيفية خبز البسكويت" مع "لأجل حفلة عطلة". يتطلب تدريب نماذج الأساسي لتلبية تطبيق معين، مثل الحوار أو اتباع التعليمات أو الكتابة الإبداعية، ضبطًا دقيقًا إضافيًا من خلال تقنيات مثل التعلم الخاضع للإشراف والتعلم المعزز.

وبالتالي، فإن نماذج Llama 2 الأساسية مصممة لتكون بمثابة أساس لبناء نماذج موجهة لغرض معين. حتى الآن، خدمت نماذج Llama 2 (ونماذج LLaMa من الجيل الأول) العديد من النماذج اللغوية الكبيرة (LLM) مفتوحة المصدر، أبرزها:

  • Alpaca: نسخة من LLaMa 7B مضبوطة بدقة لمتابعة التعليمات بواسطة باحثين من جامعة ستانفورد. والجدير بالذكر أن هذه النسخة حققت نتائج تنافسية مع GPT-3.5، على الرغم أن تكلفة تدريبه كانت 600 دولار أمريكي فقط من الموارد الحوسبية.5
  • Vicuna: نموذج مساعد محادثة طوره LMSYS Org، وتم تدريبه من خلال ضبط نموذج Llama 2 13B على محادثات المستخدمين من ShareGPT (الرابط موجود خارج موقع ibm.com). وقد تفوق هذا النموذج على Alpaca في أكثر من 90% من الحالات بتكلفة تدريب بلغت 300 دولار فقط.6
  • Orca: نسخة مضبوطة بدقة من Llama 2، طوَّرتها Microsoft باستخدام نهج "المعلم والطالب"، حيث يتم استخدام نموذج لغوي كبير (LLM) وأكثر قوة لتوليد أمثلة على سلوك منطقي يستفيد منه النموذج الأصغر.7
  • WizardLM: تم ضبطه باستخدام Evol-Instruct، وهي طريقة لتوليد كميات كبيرة من بيانات التعليمات الاصطناعية باستخدام النماذج اللغوية الكبيرة (LLMs). حقق WizardLM أداءً تجاوز 90% من أداء ChatGPT في 17 من أصل 29 مهارة تم تقييمها.8

نماذج دردشة Llama 2

تم ضبط نماذج الدردشة Llama-2-chat بشكل دقيق لحالات الاستخدام القائمة على الحوار، وهي مشابهة للإصدارات المخصصة من نموذج GPT المستخدمة في ChatGPT.

تم استخدام الضبط الدقيق الخاضع للإشراف (SFT) لتأهيل نموذج Llama 2 الأساسي المدرب مسبقًا لتوليد ردود تتوافق مع توقعات المستخدمين في بيئة روبوت المحادثة أو الوكيل الافتراضي. في سلسلة من مهام التعلم الخاضع للإشراف، يتم استخدام أزواج معنونة من الحوارات مثل (الموجِّه، والردود)، لتدريب النموذج لتقليل الانحراف بين ردّه لموجِّه معين والرد المرجعي الذي توفره البيانات المعنونة. على سبيل المثال، يتعلم النموذج أن الرد المناسب على موجه "علمني كيفية خبز البسكويت" هو تقديم تعليمات فعلية حول طريقة خبز البسكويت، بدلاً من مجرد إكمال الجملة.

وبدلاً من استخدام الملايين من الأمثلة المعنونة، تشير الدراسة البحثية إلى أن الأداء تحسّن باستخدام "عدد أقل من الأمثلة عالية الجودة"، مشيرةً إلى أن الذكاء الاصطناعي الوصفي جمع 27,540 عينة معنونة.

بعد استخدام التعلم الخاضع للإشراف (SFT)، استعانت Meta بالتعلّم المعزَّز المستند إلى التعليقات البشرية (RLHF) لمواءمة سلوك نماذج المحادثة مع تفضيلات وتعليمات المستخدمين. في التعلّم المعزَّز المستند إلى التعليقات البشرية (RLHF)، يتم استخدام التعليقات البشرية المباشرة لتدريب "نموذج المكافأة" لتعلم أنماط نوع الردود التي يفضلها البشر. من خلال ترجمة تنبؤات نموذج المكافأة (التي تحدد ما إذا كان الرد مفضلة للبشر) إلى إشارة مكافأة رقمية، يتم بعد ذلك استخدام نموذج المكافأة لزيادة تدريب Llama-2-chat باستخدام التعلم المعزز.

هناك العديد من الأساليب لجمع التعليقات البشرية. اعتمدت Meta AI طريقة بسيطة للمقارنة الثنائية: حيث طلبت من المُقيّمين البشريين كتابة موجِّه، ثم اختيار رد واحد من بين ردّين لنموذجي Llama 2 بناءً على معايير مقدمة من Meta. لمساعدة نموذج المكافأة على وزن هذه الخيارات بشكل صحيح، طُلب من المُقيّمين تقييم مدى تفضيلهم للردود المختارة، باستخدام تصنيفات مثل "أفضل بشكل كبير"، "أفضل قليلاً"، أو "أفضل بشكل طفيف/غير متأكد".

تم استخدام التفضيلات البشرية لتدريب نموذجين منفصلين من نماذج المكافأة: الأول مُحسَّن لتعزيز الردود المفيدة، والثاني مُحسَّن لتعزيز الأمان (مثل تجنب الردود السامة والكراهية أو الردود التي قد تستخدم في أعمال العنف أو الأنشطة الإجرامية). إلى جانب التحسين الاستراتيجي للسياسات (PPO)، وهو الخوارزمية المستخدمة عادةً لتحديث أوزان النماذج اللغوية الكبيرة (LLM) في التعلّم المعزَّز المستند إلى التعليقات البشرية (RLHF)، استخدمت Meta أيضًا جمع العينات بالرفض (الرابط موجود خارج موقع ibm.com) لتحديث نموذج Llama-2-chat-70B.

Code Llama

Code Llama، المبني على Llama 2، هو نموذج محسّن لتوليد الأكواد البرمجية (واللغة الطبيعية المتعلقة بالأكواد) استنادًا إلى موجِّهات تعتمد على الأكواد أو اللغة الطبيعية. تم إطلاقه بعد فترة وجيزة من إصدار نماذج Llama 2 الأساسية والمخصصة للمحادثة، وهو متاح مجانًا للاستخدام البحثي والتجاري.

يدعم Code Llama معظم لغات البرمجة الشهيرة، مثل Python وC++ وJava وPHP وJavascript (من بين لغات أخرى)، وهو متوفر بأحجام نماذج مختلفة من المعلمات: وهي 7B و13B و34B، ويتميز بطول سياق يصل إلى 100000 رمز مميز. يوجد إصداران إضافيان تم ضبطهما بدقة وهما Code Llama - Python للغات Python وPyTorch. وCode Llama - Instruct لتتبع التعليمات.

مقارنة بين Llama 2 والنماذج غير مفتوحة المصدر:

على عكس النماذج غير مفتوحة المصدر، تتفوق Llama 2 في مجالات مثل الأمان والدقة الواقعية. على الرغم من أن Llama 2 قد لا تضاهي القدرات الكاملة للنماذج الأكبر حجماً، إلا أن توفرها مفتوح المصدر وكفاءتها الأكبر يوفران ميزات فريدة.

عند مقارنة Llama 2 بالنماذج الرئيسية غير مفتوحة المصدر من المنافسين مثل OpenAI، Anthropic وGoogle، يبرز الفرق في الحجم. فعلى الرغم من أن النماذج غير مفتوحة المصدر لا تكشف دائمًا عن التفاصيل الكاملة لبنيتها، إلا أن المعلومات المتاحة تشير بقوة إلى أنها جميعها تتجاوز إلى حد كبير أكبر نماذج Llama 2 التي تبلغ معلماتها 70 مليار معلمة:

  • GPT-3 يحتوي على 175 مليار معلمة.
  • يُقدّر أن GPT-4 يحتوي على 1 تريليون معلمة.9
  • تفيد التقارير أن Google’s PaLM 2 يحتوي على 345 مليار معلمة يحتوي الإصدار السابق له، Google PaLM، على 540 مليار معلمة.11
  • لم تُعلن Anthropic عن عدد معلمات نماذج Claude، لكن دراسة بحثية حديثة أشارت إلى وجود إصدار يحتوي على 175 مليار معلمة من Claude 2.

التقييم البشري

وفقًا للدراسة البحثية الخاصة بنموذج Llama 2، فضّل المقيّمون البشريون ردود نموذج Llama-2-chat 70B على ردود نموذج GPT-3.5-turbo-0301، الذي يُعد النموذج القياسي لنموذج ChatGPT، حيث حققت ردود Llama 2 معدل فوز بنسبة 36% ومعدل تعادل بنسبة 31.5%. بالمقارنة مع PaLM Bison، وهو ثاني أكبر نموذج ضمن عائلة PaLM، حقق نموذج Llama-2-70B معدل فوز يزيد عن 50%.

السلامة

في اختبارات Meta، أظهرت نماذج Llama 2 (7B، و13B، و70B) معدلات انتهاك أمان أقل بشكل ملحوظ مقارنة بنموذج PaLM Bison (3% و4% مقارنة بنسبة 27% لنموذج PaLM)، كما أنها سجلت معدلات انتهاك أقل من ChatGPT بنسبة (7%). هذا يُعد ميزة رئيسية لحالات استخدام المؤسسات، حيث يمكن أن تنطوي اللغة السامة أو لغة الكراهية أو اللغة التحريضية من تطبيقات الدردشة على آثار سلبية كبيرة.

الخصوصية والكفاءة

من أبرز مزايا النماذج مفتوحة المصدر الأصغر مقارنة بالنماذج غير مفتوحة المصدر الأكبر هو حرية الشركات في تشغيل مثيلات النماذج محليًا وتوفير التكاليف دون الحاجة إلى استثمارات ضخمة في البنية التحتية أو الحوسبة السحابية. يضمن تشغيل نموذج محلي إمكانية استخدام التعليمات البرمجية الخاصة وتعديلات التدريب والبيانات الخاصة لضبط أداء النموذج ضبطًا دقيقًا دون الحاجة لتحميلها على خادم تجاري أو استخدامها في تدريب نماذج غير مفتوحة المصدر مستقبلًا. علاوة على ذلك، فإن أحجام النماذج الأصغر، مثل الإصدارات 7B و13 B، توفر أداءً أكثر سلاسة في البيئات ذات الموارد المحدودة، مثل تطبيقات الهاتف المحمول حيث تكون قوة المعالجة محدودة.

كيفية استخدام Llama 2

لا يحتوي Llama 2 على واجهة برمجة تطبيقات مخصصة، ولكن يمكن الوصول إليه من خلال العديد من المزودين.

  • تتوفر نماذج Llama-2-13B-chat وLlama-2-70B-chat ضمن العديد من نماذج الأساس المتاحة في watsonx، من خلال شراكة IBM مع Hugging Face.

  • يمكن تنزيل أوزان النموذج والكود الأولي لنموذج Llama 2 مباشرة من موقع Github، حيث توفر Meta أيضًا تعليمات وعروض توضيحية و"وصفات" لاستخدام Llama 2 (الرابط موجود خارج موقع ibm.com). يمكن تنفيذ النماذج في أُطُر عمل التعلم الآلي مفتوح المصدر مثل PyTorch أو LangChain.

  • يتوفر Llama 2 أيضًا من خلال كل من مزودي الخدمات مفتوحة المصدر مثل Hugging Face ومزودي خدمات المؤسسات مثل Microsoft Azure وAmazon Sagemaker وBedrock، بالإضافة إلى عدد من الشركات الناشئة القائمة على السحابة.
حلول ذات صلة
نماذج الأساس

استكشف مكتبة نماذج الأساس من IBM في محفظة watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

استكشف مكتبة نماذج الأساس من IBM في محفظة IBM watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.

استكشف watsonx.ai استكشف حلول الذكاء الاصطناعي
الحواشي

جميع الروابط موجودة خارج موقع ibm.com.
1
 "Meta's LLaMa 2 license is not Open Source", Voices of Open Source, 20 July 2023
2 "Llama 2 Community License Agreement", Meta, 18 July 2023
3 "The Open Source Definition", Open Source Initiative, last modified 22 Feb 2023
4 "Statement of Support for Meta’s Open Approach to Today’s AI", Meta, 18 July 2023
5 "Alpaca: A Strong, Replicable Instruction-Following Model", Stanford CRFM, 13 Mar 2023
6 "Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality", LMSYS Org, 30 Mar 2023
7 "Orca-2: Teaching Small Language Models How to Reason", Microsoft, Nov 2023
8 "WizardLM: Empowering Large Language Models to Follow Complex Instructions", arXiv, 10 June 2023
9 "The secret history of Elon Musk, Sam Altman, and OpenAI", Semafor, 24 Mar 2023
10
 "Google’s newest A.I. model uses nearly five times more text data for training than its predecessor", CNBC, 16 May 2023
11 "Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance", Google, 4 Apr 2023
12 "The Capacity for Moral Self-Correction in Large Language Models", arXiv, 18 Feb 2023