العلامات

النماذج اللغوية الكبيرة مفتوحة المصدر: الفوائد والمخاطر والأنواع

فريق يناقش مشروعًا جديدًا في غرفة الاستراحة

النماذج اللغوية الكبيرة (LLMs) هي نماذج الأساس التي تستخدم الذكاء الاصطناعي (AI)، والتعلم العميق ومجموعات البيانات الضخمة، بما في ذلك مواقع الويب والمقالات والكتب، لإنشاء النصوص والترجمة بين اللغات وكتابة أنواع كثيرة من المحتوى. هناك نوعان من نماذج الذكاء الاصطناعي التوليدي هذه: النماذج اللغوية الكبيرة المملوكة والنماذج اللغوية الكبيرة مفتوحة المصدر.

في هذا الفيديو، يشرح Martin Keen بإيجاز النماذج اللغوية الكبيرة، وكيفية ارتباطها بنماذج الأساس، وكيفية عملها وكيف يمكن استخدامها لمعالجة مشكلات الأعمال المختلفة.

النماذج اللغوية الكبيرة المملوكة هي نماذج مملوكة لشركات ولا يمكن استخدامها إلا من قِبل العملاء الذين يشترون ترخيصًا. قد يقيد الترخيص كيفية استخدام النموذج اللغوي الكبير. من ناحية أخرى، فإن النماذج اللغوية الكبيرة مفتوحة المصدر هي نماذج مجانية ومتاح لأي شخص الوصول إليها واستخدامها لأي غرض وتعديلها وتوزيعها.

يشير مصطلح "مصدر مفتوح" إلى أن كود النماذج اللغوية الكبيرة والبنية الأساسية متاح للجمهور، ما يعني أن المطورين والباحثين لهم الحرية في استخدام النموذج أو تحسينه أو تعديله.

ما فوائد النماذج اللغوية الكبيرة مفتوحة المصدر؟

في السابق، كان يبدو أنه كلما كان النموذج اللغوي الكبير أكبر، كان ذلك أفضل، ولكن الآن أدركت الشركات أنها قد تكون باهظة التكلفة من حيث البحث والابتكار. استجابة لذلك، بدأ النظام البنائي لنموذج مفتوح المصدر يظهر بوادر واعدة ويشكل تحديًا لنموذج أعمال النموذج اللغوي الكبير.

الشفافية والمرونة

يمكن للمؤسسات التي ليس لديها مواهب داخلية في مجال التعلم الآلي استخدام النماذج اللغوية الكبيرة مفتوحة المصدر، التي توفر الشفافية والمرونة، ضمن بنيتها التحتية الخاصة، سواء في السحابة أو محليًا. يمنحهم ذلك تحكمًا كاملاً في بياناتهم؛ ويعني ذلك بقاء المعلومات الحساسة داخل شبكتهم. كل هذا يقلل من خطر تسرب البيانات أو الوصول غير المصرح به.

يوفر النموذج اللغوي الكبير مفتوح المصدر الشفافية فيما يتعلق بكيفية عمله، وبنيته وبيانات التدريب ومنهجياته، وكيفية استخدامه. تتيح القدرة على فحص التعليمات البرمجية والاطلاع على الخوارزميات للمؤسسة مستوى أعلى من الثقة، وتساعد فيما يتعلق بعمليات التدقيق وتساعد على ضمان الامتثال الأخلاقي والقانوني. بالإضافة إلى ذلك، يمكن أن يؤدي تحسين النموذج اللغوي الكبير مفتوح المصدر بكفاءة إلى تقليل زمن الانتقال وتحسين الأداء.

وفورات التكاليف

وهي عمومًا أقل تكلفة على المدى الطويل من النماذج اللغوية الكبيرة المملوكة نظرًا إلى عدم وجود رسوم ترخيص. ومع ذلك، فإن تكلفة تشغيل النموذج اللغوي الكبير تشمل تكاليف البنية التحتية المحلية أو السحابية، وعادةً ما تنطوي على تكلفة طرح أولية كبيرة.

الميزات المضافة وإسهامات المجتمع

تسمح النماذج اللغوية الكبيرة مفتوحة المصدر والمدربة سلفًا بإجراء الضبط الدقيق. يمكن للمؤسسات أن تضيف ميزة إلى النموذج اللغوي الكبير بما يخدم احتياجاتهم المحددة، كما يمكن تدريب النماذج اللغوية الكبيرة على مجموعة بيانات محددة. يستلزم إجراء هذه التغييرات أو المواصفات على النماذج اللغوية الكبيرة المملوكة العمل مع المورّدين ويكلف الوقت والمال.

في حين أن النماذج اللغوية الكبيرة المملوكة تعني أن المؤسسة يجب أن تعتمد على مزود واحد، تتيح النماذج مفتوحة المصدر للمؤسسة الاستفادة من إسهامات المجتمع ومزودي الخدمات المتعددين وربما الفرق الداخلية للتعامل مع التحديثات والتطوير والصيانة والدعم. تتيح النماذج مفتوحة المصدر للمؤسسات تجربة إسهامات الأشخاص ذوي وجهات النظر المختلفة واستخدامها. يمكن أن يؤدي ذلك إلى النتائج التي تسمح للمؤسسات بمواكبة أحدث التقنيات. كما أنه يمنح الشركات التي تستخدم النماذج اللغوية الكبيرة مفتوحة المصدر مزيدًا من التحكم في تقنياتها وقراراتها المتعلقة بكيفية استخدامها.

الرسالة الإخبارية الخاصة بالمجال

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

ما أنواع المشروعات التي يمكن أن تتيحها النماذج اللغوية الكبيرة مفتوحة المصدر؟

يمكن للمؤسسات استخدام النماذج اللغوية الكبيرة مفتوحة المصدر لإنشاء أي مشروع مفيد لموظفيها، أو عندما تسمح رخصة النموذج مفتوح المصدر بذلك، يمكن تقديمها كمنتج تجاري. ويشمل ذلك ما يلي:

توليد النص

تسمح لك النماذج اللغوية الكبيرة مفتوحة المصدر بإنشاء تطبيق بقدرات توليد اللغات، مثل كتابة البريد الإلكتروني، أو منشورات مدونة أو القصص الإبداعية. يمكن لنموذج لغوي كبير مثل Falcon-40B، المقدم بموجب رخصة Apache 2.0، أن يستجيب لموجِّه باقتراحات نصية عالية الجودة يمكنك بعد ذلك تنقيحها وتحريرها.

إنشاء التعليمات البرمجية

يمكن للنماذج اللغوية الكبيرة مفتوحة المصدر المدربة على التعليمات البرمجية ولغات البرمجة الحالية مساعدة المطورين في إنشاء تطبيقات والعثور على الأخطاء والثغرات الأمنية.

الدروس الافتراضية

تتيح لك النماذج اللغوية الكبيرة مفتوحة المصدر إنشاء تطبيقات تقدم تجارب تعليمية مخصصة، والتي يمكن تخصيصها وضبطها حسب أنماط تعليمية معينة.

تلخيص المحتوى

يمكن لأداة LLM مفتوحة المصدر التي تلخص المقالات الطويلة والقصص الإخبارية والتقارير البحثية وغيرها أن تسهل استخراج البيانات الأساسية.

روبوتات المحادثة المستندة إلى الذكاء الاصطناعي

يمكن لهؤلاء فهم الأسئلة والإجابة عنها وتقديم الاقتراحات والمشاركة في محادثة باللغة الطبيعية.

ترجمة اللغة

يمكن للنماذج اللغوية الكبيرة مفتوحة المصدر التي تتدرب على مجموعات البيانات متعددة اللغات توفير ترجمات دقيقة وطليقة في العديد من اللغات.

تحليل المشاعر

يمكن للنماذج اللغوية الكبيرة تحليل النص لتحديد النبرة العاطفية أو المشاعر، وهو أمر ذو قيمة في إدارة سمعة العلامة التجارية وتحليل التعليقات.

تصفية المحتوى والإشراف عليه

يمكن أن تكون النماذج اللغوية الكبيرة ذات قيمة في تحديد المحتوى الإلكتروني غير المناسب أو الضار وتصفيته، وهو ما يساعد بصورة كبيرة على الحفاظ على بيئة إلكترونية أكثر أمانًا.

أكاديمية الذكاء الاصطناعي

لماذا تعد نماذج الأساس نقلة نوعية في الذكاء الاصطناعي

تعرَّف على فئة جديدة من نماذج الذكاء الاصطناعي المرنة والقابلة لإعادة الاستخدام التي يمكن أن تفتح مصادر جديدة للإيرادات، وتُسهم في تقليل التكاليف، وزيادة الإنتاجية، ثم استخدم دليلنا لمعرفة المزيد من التفاصيل.

انتقل إلى الحلقة

ما أنواع المؤسسات التي تستخدم نماذج لغوية كبيرة مفتوحة المصدر؟

تستخدم مجموعة واسعة من المؤسسات النماذج اللغوية الكبيرة مفتوحة المصدر. على سبيل المثال، طورت شركة IBM ووكالة NASA نموذجًا لغويًا كبيرًا مفتوح المصدر متخصصًا في البيانات الجغرافية المكانية لمساعدة العلماء ومؤسساتهم في مواجهة تغير المناخ.

الناشرون والصحفيون يستخدمون النماذج اللغوية الكبيرة مفتوحة المصدر داخليًا لتحليل المعلومات وتحديدها وتلخيصها من دون مشاركة البيانات الخاصة خارج غرفة الأخبار.

بعض منظمات الرعاية الصحية تستخدم النماذج اللغوية الكبيرة مفتوحة المصدر في برامج الرعاية الصحية، بما في ذلك أدوات التشخيص وتحسينات العلاج والأدوات التي تتعامل مع معلومات المرضى والصحة العامة وغيرها.

طُوّر النموذج اللغوي الكبير مفتوح المصدر FinGPT خصوصًا للقطاع المالي.

بعض من أفضل النماذج اللغوية الكبيرة مفتوحة المصدر والمختارة بعناية

تهدف لوحة صدارة النماذج اللغوية الكبيرة مفتوحة المصدر إلى تتبع النماذج اللغوية الكبيرة مفتوحة المصدر وروبوتات المحادثة وتصنيفها وتقييمها وفقًا لمعايير مختلفة.

LLaMa 2 من Meta AI هو نموذج لغوي كبير مفتوح المصدر ذو أداء جيد مع ترخيص يسمح بالاتفاقيات للاستخدام التجاري، وهو يشمل نماذج نصية توليدية مدربة مسبقًا ومضبوطة بدقة مع 7 إلى 70 مليار معلمة ومتوفر في استوديو Watsonx.ai. كما يتوفر من خلال النظام البنائي Hugging Face ومكتبة المحولات.
أنشئت Vicuna وAlpaca استنادًا إلى نموذج LLaMa، ومثلهما مثل Bard من Google وChatGPT من OpenAI، تم ضبطهما بدقة لاتباع التعليمات. Vicuna، الذي يتفوق على Alpaca، يطابق أداء GPT-4.
Bloom (محتوى الرابط موجود خارج موقع ibm.com) من BigScience هو نموذج لغوي متعدد اللغات أنشأه أكثر من 1000 باحث في مجال الذكاء الاصطناعي. وهو أول نموذج لغوي كبير متعدد اللغات مُدرب بشفافية كاملة.
The Falcon (محتوى الرابط موجود خارج موقع ibm.com) يمكن استخدام النماذج اللغوية الكبيرة من معهد Technology Innovation Institute (TII) مع روبوتات المحادثة لإنشاء نصوص إبداعية وحل المشكلات المعقدة وتقليل المهام المتكررة وأتمتتها. يتوفر كل من Falcon 6B و40B كنماذج أولية للضبط الدقيق أو كنماذج مضبوطة التعليمات بالفعل يمكن استخدامها كما هي. يستخدم Falcon حوالي 75% فقط من ميزانية حوسبة التدريب الخاصة بنموذج GPT-3 ويتفوق عليه تفوقًا ملحوظًا.
MPT-7B وMPT-30B (محتوى الرابط موجود خارج موقع ibm.com) عبارة عن نماذج لغوية كبيرة مفتوحة المصدر مرخصة للاستخدام التجاري من MosaicML (التي استحوذت عليها Databricks مؤخرًا). يتوافق أداء MPT-7B مع أداء LlaMA. يتفوق MPT-30B على GPT-3. كلاهما مدربان على تريليون رمز مميز.
FLAN-T5، الذي أطلقته Google AI، يمكنه التعامل مع أكثر من 1800 مهمة متنوعة.
StarCoder (محتوى الرابط موجود خارج موقع ibm.com) من Hugging Face هو مساعد برمجة مفتوح المصدر يعتمد على نموذج لغوي كبير مدرب على كود بترخيص مفتوح من GitHub.
RedPajama-INCITE (محتوى الرابط موجود خارج موقع ibm.com)، المرخص بموجب Apache-2، هو نموذج لغوي مدرب مسبقًا يحتوي على 6.9 مليارات معلمة، تم تطويره بواسطة Together وقادة من مؤسسات مختلفة، بما في ذلك جامعة مونتريال ومركز ستانفورد للبحوث حول نماذج الأساس.
Cerebras-GPT (محتوى الرابط موجود خارج موقع ibm.com) من Cerebras عبارة عن عائلة مكونة من سبعة نماذج GPT تتراوح من 111 مليون إلى 13 مليار معلمة.
StableLM هو نموذج لغوي كبير مفتوح المصدر من Stability AI، والتي طورت مولد الصور بالذكاء الاصطناعي Stable Diffusion. مُدرب على مجموعة بيانات تحتوي على 1.5 تريليون رمز مميز يُطلق عليها اسم "The Pile" وتم ضبطها باستخدام مجموعة من مجموعات البيانات مفتوحة المصدر من Alpaca وGPT4All (التي تقدم مجموعة من النماذج القائمة على GPT-J وMPT وLlaMa) وDolly وShareGPT وHH.

المخاطر المرتبطة بالنماذج اللغوية الكبيرة

على الرغم من أن مخرجات النماذج اللغوية الكبيرة تبدو طليقة وموثوقة، فإنه يمكن أن تكون هناك مخاطر تشمل تقديم معلومات مبنية على "الهلوسة" بالإضافة إلى مشكلات التحيز أو الموافقة أو الأمان. التوعية بهذه المخاطر هي إحدى الإجابات على هذه القضايا المتعلقة بالبيانات والذكاء الاصطناعي.

الهلوسة، أو الأكاذيب، يمكن أن تنتج عن تدريب النموذج اللغوي الكبير على بيانات غير مكتملة أو متناقضة أو غير دقيقة أو عن توقع الكلمة الدقيقة التالية بناءً على السياق من دون فهم المعنى.
يحدث التحيز عندما لا يكون مصدر البيانات متنوعًا أو شاملاً.
تشير الموافقة إلى ما إذا كانت بيانات التدريب قد جمعت بمسؤولية، ما يعني أنها تتبع عمليات حوكمة الذكاء الاصطناعي التي تجعلها متوافقة مع القوانين واللوائح وتوفر طرقًا للأشخاص لدمج التعليقات.
يمكن أن تشمل مشكلات الأمان تسريب معلومات التعريف الشخصية، ومجرمي الإنترنت الذين يستخدمون النماذج اللغوية الكبيرة في المهام الضارة مثل التصيد الاحتيالي والبريد العشوائي، والمخترقين الذين يغيرون البرمجة الأصلية.

النماذج اللغوية الكبيرة مفتوحة المصدر وIBM

ستكون نماذج الذكاء الاصطناعي، وخاصة النماذج اللغوية الكبيرة، واحدة من أكثر التقنيات تحولاً في العقد المقبل. ومع فرض لوائح الذكاء الاصطناعي الجديدة إرشادات حول استخدام الذكاء الاصطناعي، فمن الضروري ألا يقتصر الأمر على إدارة وحوكمة نماذج الذكاء الاصطناعي، بل ومن المهم أيضًا حوكمة البيانات المدخلة في الذكاء الاصطناعي.

لمساعدة المؤسسات على تلبية تلك الاحتياجات ومضاعفة تأثير الذكاء الاصطناعي، تقدم IBM منصة watsonx، وهي منصة جاهزة للمؤسسات للذكاء الاصطناعي والبيانات. من خلال هذا التعاون، يوفر watsonx للمؤسسات القدرة على:

تدريب الذكاء الاصطناعي وضبطه ونشره عبر جميع جوانب عملك باستخدام watsonx.ai
توسيع نطاق أحمال تشغيل الذكاء الاصطناعي لجميع بيانات مؤسستك في أي مكان، باستخدام watsonx.data
تمكين سير عمل البيانات والذكاء الاصطناعي بشكل مسؤول وشفاف وقابل للتفسير باستخدام watsonx.governance

تعتمد وظيفة البحث الحواري في IBM watsonx Assistant على أساس عمليات التكامل المنشأة مسبقًا وإطار عمل التكامل منخفض التعليمات البرمجية (محتوى الرابط موجود خارج موقع ibm.com) وتجربة التأليف بدون تعليمات برمجية. يمكن للمطورين ومستخدمي الأعمال على حد سواء أتمتة الإجابة عن الأسئلة باستخدام البحث الحواري، ما يتيح لهم إنشاء تدفقات معاملات ذات قيمة أعلى وتجارب رقمية متكاملة مع مساعديهم الافتراضيين.

بالإضافة إلى البحث الحواري، يواصل مساعد ®watsonx Assistant التعاون مع IBM Research وwatsonx لتطوير نماذج لغوية كبيرة على منصة watsonx تتخصص في التصنيف والاستدلال واستخراج المعلومات والتلخيص وغيرها من حالات الاستخدام الحوارية. لقد حقق Watsonx Assistant بالفعل تقدمًا كبيرًا في قدرته على فهم العملاء بمجهود أقل باستخدام النماذج اللغوية الكبيرة.

مؤلف

IBM Data and AI Team

كيفية اختيار نموذج الأساس المناسب

تعرف على كيفية اختيار النهج الصحيح في إعداد مجموعات البيانات واستخدام نماذج الأساس.

الموارد

استكشف IBM Granite

استكشف IBM® Granite™، مجموعة نماذج الذكاء الاصطناعي المفتوحة عالية الأداء والموثوق بها، والمصممة خصوصًا للأعمال التجارية والمُحسَّنة لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. استكشف خيارات اللغة والتعليمات البرمجية والسلاسل الزمنية وضوابط الحماية.

كيفية اختيار نموذج الأساس المناسب

تعرّف على كيفية اختيار نموذج أساس الذكاء الاصطناعي الأكثر ملاءمة لحالة الاستخدام الخاصة بك.

اكتشف إمكانات النماذج اللغوية الكبيرة

استكشف مقالات ومدونات وبرامج IBM Developer التعليمية لتعزيز معرفتك بالنماذج اللغوية الكبيرة.

دليل الرئيس التنفيذي لتحسين النماذج

تعرَّف على كيفية دفع الفِرَق باستمرار نحو تحسين أداء النماذج وتحقيق التفوق على المنافسين باستخدام أحدث تقنيات الذكاء الاصطناعي والبنية التحتية.

نهج متميز لنماذج أساس الذكاء الاصطناعي

استكشف قيمة نماذج الأساس على مستوى المؤسسة التي توفر مزايا الثقة والأداء والتكلفة المنخفضة لكل المجالات.

أطلق العنان لقوة الذكاء الاصطناعي التوليدي والتعلم الآلي (ML)

تعرَّف على كيفية دمج الذكاء الاصطناعي التوليدي، والتعلم الآلي، ونماذج الأساس في عمليات أعمالك لتحسين الأداء.

AI in Action 2024

اقرأ عن 2,000 مؤسسة أجرينا معها استبيانًا بشأن مبادرات الذكاء الاصطناعي لديها لمعرفة نقاط القوة ونقاط الضعف وكيف يمكن المضي قدمًا.

حلول ذات صلة

نماذج الأساس

استكشف مكتبة نماذج الأساس من IBM في محفظة watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.

اكتشف watsonx.ai

حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي

الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي

اتخِذ الخطوة التالية

استكشف مكتبة نماذج الأساس من IBM في محفظة IBM watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.

استكشف watsonx.ai