16 أبريل 2025
إليك المعلومات الرئيسية بإيجاز:
يمثِّل إطلاق اليوم توسيعًا آخر لبصمة IBM Granite متعدد الوسائط. بقيادة Granite Speech 8B، أول نموذج رسمي لنا لتحويل الصوت إلى نص، يمثِّل إصدار Granite 3.3 بداية استكشافنا للقدرات الصوتية. إلى جانب الإضافة الأخيرة لقدرات الرؤية والتفكير، تواصِل IBM توسيع مرونة سلسلة Granite لتلبية احتياجات المؤسسات والمجتمع مفتوح المصدر في أهم حالات الاستخدام.
انضم إلى Granite Speech 3.3 8B نموذج Granite 3.3 8B Instruct، الذي يُعَد الأساس له، ونظيره الأصغر (2B). إن التطور المحسن في عملية التفكير للنماذج النصية مقارنةً بنماذجها السابقة، بالإضافة إلى إضافة قدرات "ملء الفراغات في المنتصف" (FIM)، يسهل مجموعة واسعة من حالات الاستخدام الممكنة، خصوصًا في مجال البرمجة.
نحن أيضًا بصدد إصدار سلسلة محدثة وواسعة من المحولات المعززة للأداء (التي تركِّز بشكل أساسي على RAG) لنموذج Granite 3.2 8B Instruct الذي تم إصداره سابقًا عبر تجارب Granite، وهي ساحة اختبار من IBM Research لتجربة الأفكار مفتوحة المصدر. ستُطلق المزيد من ابتكارات LoRA، بما في ذلك مجموعة من المحولات لنموذج Granite 3.3 Instruct، في الأسابيع المقبلة.
يُعَد Granite Speech 3.3 8B نموذجًا لتحويل الصوت إلى نص (STT) مضغوطًا وفعَّالًا من حيث التكلفة، وهو مصمم للاستخدام في التطبيقات المؤسسية التي تعالج المدخلات الصوتية، ومُحسَّن للتعرف التلقائي على الصوت (ASR) والترجمة التلقائية للصوت (AST).
في مهام النسخ، يحقِّق Granite Speech 3.3 دقة أعلى باستمرار من النماذج الرائدة المفتوحة والمغلقة في الاختبارات عبر العديد من مجموعات البيانات العامة البارزة.
يقدِّم النموذج أيضًا ترجمة تلقائية من الإنجليزية إلى مجموعة متنوعة من اللغات، بما في ذلك الفرنسية، والإسبانية، والإيطالية، والألمانية، والبرتغالية، واليابانية، والماندرين. في اختبارات IBM لأداء الترجمة الصوتية (AST)، حافَظ Granite Speech 3.3 8B على وتيرته مع النماذج المملوكة الرائدة مثل GPT-4o من OpenAI وGemini 2.0 Flash من Google على اللغات المدعومة من Granite في مجموعة بيانات CoVost. يتوفر المزيد من المعلومات حول أداء الترجمة في بطاقة النموذج على Hugging Face.
من الناحية المعمارية، يتكون Granite Speech 3.3 من:
بخلاف النماذج المدمجة التي تجمع بين معالجة الصوت والنص في خطوة واحدة، يستخدِم Granite Speech 3.3 تصميمًا من مرحلتين. فعلى سبيل المثال، لطرح أسئلة على النموذج حول ملف صوتي، يتطلب الأمر أولًا استدعاء لنسخ الصوت، يتبعه إرسال مطالبة ثانية للاستعلام عن النص المنسوخ. إذا احتوت المطالبة على الرمز "
تضمن هذه الطريقة ذات المسارَين أن أداء Granite Speech 3.3 8B في الاستفسارات النصية يعكس أداء النموذج اللغوي الكبير (LLM) الأساسي له (Granite 3.3 8B Instruct)، والذي سيُسهم في تجنُّب التدهور في الأداء النصي الذي يُعَد سمة نموذجية للعديد من النماذج متعددة الوسائط. وبالاعتماد على منصة استدلال تم تكوينها بشكل صحيح لخدمة النماذج النصية والصوتية، يمكن للمطورين أن يفهموا Granite Speech 3.3 8B ببساطة على أنه إصدار من Granite 3.3 8B Instruct مع قدرات إضافية للصوت.
وعلى عكس النماذج التقليدية المعتمدة على Whisper لأنظمة التعرف على الصوت، يستطيع Granite Speech 3.3 قبول المدخلات ذات الأطوال العشوائية -في الاختبارات، تمكَّن النموذج بسهولة من معالجة ملف صوتي مدته 20 دقيقة على معالج H100 80GB GPU- بدلًا من أن يكون محدودًا بنطاق زمني لا يتجاوز 30 ثانية. في النماذج المعتمدة على Whisper، يجب تقسيم ملفات الصوت التي تتجاوز هذا الحد الأقصى إلى مقاطع مدتها 30 ثانية، ما يؤدي غالبًا إلى حدوث أخطاء بالقرب من اللحظات التي يتم فيها فرض هذه القطع البالغة 30 ثانية. كقاعدة عامة، كلما قلَّت القطع الاصطناعية التي تضطر لإجراءها، قلَّت الأخطاء التي قد تُدخلها.
على الرغم من أن Granite Speech 3.3 يمكنه استيعاب مدخلات صوتية طويلة نسبيًا، إلا أنه من المهم ملاحظة أن النموذج لم يتم ضبطه بشكل دقيق على بيانات صوتية طويلة. للحفاظ على دقة ثابتة، نوصي بحد أقصى قدره دقيقة واحدة لكل وحدة صوتية منفصلة.
يُمثل Granite Speech 3.3 البداية فقط في استكشاف IBM لقدرات الصوت في سلسلة Granite. تشمل الأبحاث المستمرة لتحسين Granite Speech للإصدارات المستقبلية -لا سيما في Granite 4- ما يلي:
أحدث إصدارات نماذجنا المدربة على التعليمات النصية فقط، Granite 3.3 8B Instruct وGranite 3.3 2B Instruct، تضيف قدرات "ملء الفراغات في المنتصف" (FIM) وتستمر في تحسين قدرات التفكير التي تم تقديمها في Granite 3.2.
نحن أيضًا بصدد إصدار النماذج الأساسية المقابلة لها -Granite 3.3 8B Base وGranite 3.3 2B Base، التي تحل الآن محل سابقتها من Granite 3.1- لتوفير إمكانية وصول المطورين إلى نماذجنا القادرة على "ملء الفراغات في المنتصف" (FIM) لتدريبها بشكل دقيق وفقًا لاحتياجاتهم.
النماذج اللغوية الكبيرة التلقائية (Autoregressive LLMs) -النماذج التي تُستخدم عادةً في توليد النصوص- صُممت أساسًا للتحرك إلى الأمام، من اليسار إلى اليمين. يتم تدريبها من خلال التعلم ذاتي الإشراف للتنبؤ بشكل تكراري بالرمز التالي في التسلسل، بناءً على المعلومات من الرموز السابقة، حتى يتم اعتبار التسلسل مكتملًا. وعلى الرغم من أن هذا التصميم يُتيح لها أداء مجموعة رائعة من المهام التوليدية، إلا أنه يفشل بشكل طبيعي في نوع مختلف من المهام: التنبؤ بالرموز الصحيحة بناءً على الرموز التي تأتي قبل وبعد. بمعنى آخر، لا يمكن للنماذج التلقائية التقليدية ملء الفراغات في المنتصف.
يتطلب تكييف النماذج التلقائية لملء الفراغات إعادة تصميم مهام التدريب بشكل أساسي "لخداع" النموذج اللغوي الكبير للتنبؤ بالرموز في المنتصف باستخدام قدرته الذاتية على التنبؤ من اليسار إلى اليمين. عادةً ما يتطلب هذا تقسيم النص إلى مقدم (الرموز السابقة)، ولاحق (الرموز التي تأتي بعد)، ومنتصف (الرموز التي سيتم التنبؤ بها من خلال الملء)، ثم إعادة ترتيب النص بحيث يتم توفير كل من المقدم واللاحق للنموذج قبل أن يُطلب منه التنبؤ بالرموز في المنتصف. يستخدِم Granite 3.3 رموزًا مخصصة لتمكين النموذج من توليد المحتوى بناءً على كل من المقدم واللاحق.
في حين أن FIM لديها مجموعة واسعة من حالات الاستخدام، إلا أنها تنطبق بشكل خاص على مهام البرمجة، بدءًا من إصلاح الشيفرة وتصحيح الأخطاء ووصولًا إلى إعادة هيكلة التعليمات البرمجية وتوليد التعليمات البرمجية الجاهزة بسرعة وتمكين إدراج معطيات الدوال أو سلاسل التوثيق (docstrings).
كان تركيزنا في Granite 3.2 على تعزيز قدرات التفكير في نماذج Instruct من خلال تحسين تفضيل التفكير (TPO) لتحسين قدرتها على اتباع التعليمات المعقدة دون التأثير في الأداء العام. أما في Granite 3.3 Instruct، فقد كان تركيزنا على الحفاظ على تلك التحسينات مع تعزيز أداء النماذج في التفكير الرياضي المعقد.
تم بناء Granite 3.3 Instruct على نموذج Granite 3.3 الأساسي المحدث وتم تحسينه من خلال التعلم المعزز متعدد المراحل باستخدام تحسين تفضيل التفكير (TPO) وتحسين السياسة النسبية الجماعية (GRPO)، وقد أظهرت النماذج تحسينًا كبيرًا على المعايير التقنية المتقدمة التي ترتبط تقليديًا بقدرات "التفكير".
أداء Granite 3.3 8B في معيار MATH500 يجعله يتفوق بشكل مريح على Claude 3.5 Haiku من Anthropic (بنسبة 64.2%) وLlama 3.1 8B Instruct من Meta (بنسبة 44.4%)، ويضعه تقريبًا في المستوى نفسه مع Mistral Small 3 ذي 24 مليار معلمة (بنسبة 70.6%)، وأقل قليلًا من Claude 3.5 Sonnet (بنسبة 72.4%) وGPT-4o Mini من OpenAI (بنسبة 72.6%).1
كما هو الحال مع نماذج Granite 3.2 Instruct، يمكن تفعيل أو تعطيل "التفكير" بسهولة، ما يُتيح للمطورين إعطاء الأولوية للتفكير المعزز عبر سلسلة الأفكار (CoT) عندما يحتاجون إليه، وأولوية الكفاءة من حيث التكلفة والانخفاض في زمن الانتقال عندما لا يحتاجون إليه.
لتعزيز التطبيقات الحالية المعتمدة على Granite وتوجيه تطوير الجيل القادم من محولات LoRA التي تعزز الأداء، تعمل IBM أيضًا على إصدار مجموعة من 5 محولات LoRA مخصصة في الغالب للتوليد المعزز بالاسترجاع (RAG) لنموذج Granite 3.2 8B Instruct من خلال Granite Experiments، وهي منصة اختبار أفكار مفتوحة المصدر من IBM Research. كل من هذه المحولات يعتمد على المعرفة الجوهرية للنموذج لتمكين مهمة محددة، مثل إعادة كتابة استعلامات الاسترجاع أو اكتشاف الهلاوس.
طوَّرت IBM Research محولات LoRA "التقليدية" هذه جنبًا إلى جنب مع النظائر الخاصة بها التي تستخدِم نوعًا جديدًا من التكيف منخفض الرتبة الذي نطلق عليه محولات LoRAs النشطة (aLoRAs). التبديل بين محولات LoRA القياسية غالبًا ما يؤدي إلى تباطؤ في الأداء لأن النموذج يجب أن يعيد حساب سياق المحادثة الجارية باستخدام المحول الجديد. ولكن على عكس LoRAs القياسية، تقوم aLoRAs من IBM ببساطة بإعادة استخدام ذاكرة المفتاح والقيمة (KV) الموجودة، ما يساعد على تجنُّب الحاجة إلى إعادة حساب السياق (أو "التعبئة المبدئية") مرة أخرى. تطابق LoRAs النشطة جودة التوليد الخاصة بمحولات LoRAs القياسية مع توفير مزايا كبيرة من حيث وقت التشغيل والمعالجة. مصدر الرمز لتشغيل aLoRAs متاح هنا.
كشف الهلوسة في نموذج RAG
حتى مع RAG، يمكن للنموذج اللغوي الكبير أحيانًا أن يختلق معلومات غير صحيحة. عندما يكون مجهزًا بمحولات RAG لاكتشاف الهلاوس، سيقدم النموذج "درجة الأمانة" بين 0 و1 (بزيادات قدرها 0.1)، ما يعكس مدى قرب مخرجاته من المعلومات الواردة في الوثائق التي تم استرجاعها. تشير درجة الأمانة المنخفضة إلى زيادة خطر الهلاوس. سيعرض النموذج "غير قابل للإجابة" عندما لا يمكن الإجابة عن السؤال باستخدام المعلومات المتوفرة من المصادر المتاحة.
إعادة كتابة استعلام RAG
تُعطي محركات الاسترجاع نتائج أفضل بكثير استجابةً للاستفسارات المستقلة التي تحتوي على كافة المعلومات الضرورية مقارنةً بتلك التي تتطلب سياقًا من المحادثة السابقة لتكون قابلة للعمل. مع تجهيز محول Query Rewrite LoRA، سيُعيد النموذج تلقائيًا كتابة أي استفسار من أي مستخدم غير مستقل إلى استفسار مكتمل يحتوي على جميع المعلومات. على سبيل المثال، انظر إلى هذا التبادل:
. المستخدم: "من الرئيس التنفيذي CEO لشركة Apple؟" النموذج: "Tim Cook هو الرئيس التنفيذي لشركة Apple". المستخدم: "ماذا عن Microsoft؟".
سيقوم النموذج بتمرير الاستفسار الأول للمستخدم كما هو، ولكن سيُعيد كتابة الاستفسار الثاني ليصبح: "من هو الرئيس التنفيذي لشركة Microsoft؟". في الاختبارات، زادت هذه الكتابة من صلة استجابات النموذج بنسبة تصل إلى 21 نقطة مئوية.
على الرغم من أنه تم تصميمه مع وضع RAG في الاعتبار، إلا أن "إعادة كتابة الاستفسار" لا تتطلب وجود مستندات RAG: يمكن أيضًا استخدامها لإعادة كتابة استفسارات المستخدم لحالات استخدام أخرى، مثل استدعاء الأدوات.
إنشاء اقتباس RAG
عند تزويد النموذج بمحولات RAG Citation Generation LoRA، سيقوم النموذج بتوليد استشهاد لكل جملة في مخرجاته (إذا كانت تلك الجملة مستندة إلى أي مصادر خارجية). لا يقتصر كل استشهاد على مستوى الجمل على الإشارة إلى المصدر أو المصادر المذكورة، بل يحتوي أيضًا على مجموعة من الجمل من المصدر أو المصادر المُستشهَد بها التي تدعم جملة الإخراج المقابلة للنموذج.
التنبؤ بقابلية استجابة RAG
عند تزويد النموذج بمحولات RAG Answerability Prediction LoRA، سيُحدِّد النموذج إذا ما كان يمكن الإجابة عن استفسار المستخدم باستخدام المعلومات المتوفرة في الوثائق المتصلة. يمكن استخدام هذا التصنيف الثنائي -"قابل للإجابة" أو "غير قابل للإجابة"- لأغراض متعددة، منها تصفية الأسئلة غير القابلة للإجابة (وبالتالي التقليل من الهلاوس) أو دفع النموذج لإعادة استعلام المُسترجِع بطريقة مختلفة.
التنبؤ بعدم اليقين
لكل مخرجات النموذج، يُمكِّن Uncertainty LoRA -الذي نشأ من أبحاث معمل MIT-IBM Watson AI في معايرة النماذج الذكية- النموذج من توليد "درجة اليقين" الكمية التي تتراوح من 0 إلى 9 (ما يمثل 5% إلى 95% من اليقين على التوالي). تعكس الدرجة بشكل أساسي مدى دعم استجابة النموذج بالمعلومات الواردة في بيانات التدريب الخاصة به.
على عكس RAG التقليدي الذي يتطلب استنتاجًا واحدًا -وهو طلب محدد يعتمد على سياق معين- ويؤدي إلى مخرج واحد من النموذج، نقترح استخدام محولات LoRAs هذه في سير عمل يعتمد على محولات LoRA متعددة عبر عدة استنتاجات للوصول إلى استجابة نهائية من النموذج.
على سبيل المثال، يمكنك أولًا تطبيق إعادة كتابة الاستعلام (عند الضرورة) لإعادة كتابة المطالبات الأولية بسرعة من أجل تحقيق أفضل دقة لاسترجاع المعلومات. بعد أن يتم توليد استجابة النموذج المعزز بالاسترجاع باستخدام المطالبة المُعاد كتابتها، يمكنك بعد ذلك تطبيق كشف الهلاوس في الاسترجاع للتحقق من مستوى مناسب من الإخلاص للمعلومات في الوثائق التي تم استرجاعها. إذا انخفضت درجة الإخلاص تحت الحد المقبول، يمكن أن يوجِّه سير العمل النموذج لإعادة عينات الاستجابة حتى تتجاوز درجة الإخلاص ذلك الحد. بمجرد عدم الكشف عن الهلاوس، يمكنك بعد ذلك تفعيل الاستشهادات في الاسترجاع للاستجابة النهائية المقدمة للمستخدم.
سيكون هذا في الأساس مشابهًا لما يعادل RAG لتوسيع حسابات وقت الاختبار، مع إنشاء بنية تحتية متعددة الاستنتاجات لتحسين وإثراء المخرجات النهائية للنموذج. نحن متحمسون لرؤية كيفية تنفيذ المجتمع مفتوح المصدر وتجربته مع هذه المحولات الجديدة LoRA. تعرَّف على المزيد من المعلومات حول LoRAs الخاصة بنموذج RAG وتأثيره في أداء النموذج في الورقة التقنية المصاحبة.
يعمل فريق IBM Research حاليًا على تدريب Granite 4.0، وهي جيل جديد من النماذج التي تمثل تطورًا كبيرًا في بنية Granite وتُظهِر تحسينات واعدة في السرعة وطول السياق والسعة. على الرغم من أن التفاصيل المحددة لن تُعلَن حتى وقت لاحق من الربع الثاني، يمكن للعملاء والشركاء والمطورين الاعتماد على التزام IBM بتقديم نماذج صغيرة وعملية يمكن تشغيلها بتكلفة منخفضة وزمن انتقال منخفض.
نماذج Granite 3.3 Instruct الجديدة متاحة الآن على IBM watsonx.ai، استوديو متكامل شامل لتطوير الذكاء الاصطناعي المؤسسي. يمكنك تجربة Granite 3.3 Instruct 8B بسهولة وتجربة تشغيل وإيقاف ميزة "التفكير" على Granite Playground.
يتوفر Granite Speech 3.3 8B، جنبًا إلى جنب مع جميع نماذج Granite وموصلات LoRA الجديدة، على Hugging Face. بعض نماذج Instruct أيضًا متاحة عبر شركاء المنصة مثل (بالترتيب الأبجدي) LMStudio، وOllama وReplicate، مع المزيد من الشركاء في المستقبل القريب.
يتوفر العديد من الأدلة والوصفات للعمل مع نماذج Granite في وثائق Granite وGranite Snack Cookbook على GitHub. يمكن للمطورين البدء بالعمل باستخدام نماذج Granite من خلال استكشاف مجموعة من العروض التوضيحية المفيدة والوصفات والدروس التعليمية، مثل:
.
1"MATH 500 Benchmark," Vals AI, last updated 24 March 2025
تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.
استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.