أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء
احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.
تُعَد Mamba بنية شبكة عصبية، مشتقة من نماذج الحالة المكانية (SSMs)، ويتم استخدامها في نمذجة اللغة ومهام نمذجة التسلسل الأخرى. السرعة العالية للاستدلال وكفاءة الحساب في بنية Mamba، خصوصًا مع التسلسلات الطويلة، تجعلها أول بديل تنافسي لبنية المحوِّل للنماذج اللغوية الكبيرة (LLMs) ذاتية الانحدار.
قد تكون نماذج Mamba أول بنية تعلم عميق تضاهي فعلية نماذج المحوِّل في المهمة التي اشتهرت بها بنية المحوِّل في الأصل: نمذجة اللغة. والأمر الأكثر أهمية، أن بنية Mamba أظهرت القدرة على معادلة أداء نماذج المحوِّل ذات الحجم المماثل في تقييمات معايير LLM البارزة، مع كونها غالبًا أكثر كفاءة بشكل كبير من حيث زمن الانتقال ومتطلبات الذاكرة.
تم تقديم بنية Mamba لأول مرة بواسطة Tri Dao وAlbert Gu في ورقة بحثية في عام 2023 بعنوان: "Mamba: Linear-Time Sequence Modeling with Selective State Spaces". بعد عام، أتبعوا الورقة البحثية الأصلية لبنية Mamba بورقة أخرى استكشفت العلاقة بين نماذج SSM والمحوِّلات وقدَّمت نسخة محسَّنة وأسرع بشكل ملحوظ من بنية Mamba، أطلقوا عليها اسم Mamba-2.
على الرغم من أن المحوِّلات ظلت التقنية السائدة في النماذج اللغوية الكبيرة خلال العامين التاليين لإصدار الورقة البحثية الأصلية لـ Mamba، فقد تم دمج البنية في عدد متزايد من النماذج مفتوحة المصدر. وبعض النماذج، مثل Codestral Mamba من Mistral AI، هي نماذج Mamba خالصة. والعديد غيرها، بما في ذلك سلسلة Jamba من AI2I وIBM Granite 4.0، هي نماذج هجينة تُدمج بين طبقات الانتباه (المحوِّل) وطبقات SSM (Mamba). بالإضافة إلى فوائدها المتعلقة بالأداء، فإن انتشار النماذج المستندة إلى Mamba يَعِد بتوسيع وصول الذكاء الاصطناعي عبر تشغيلها بسلاسة على أجهزة أقل تكلفة نسبيًا.
احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.
تم تصميم نماذج الحالة المكانية (SSMs) في الأصل للتنبؤ بالحالة التالية لتسلسل مستمر، مثل إشارة كهربائية أو نمط الطقس أو مسار جسم متحرك، استنادًا إلى بعض المدخلات. من الناحية المفاهيمية والرياضية، ترتبط هذه النماذج بالشبكات العصبية المتكررة (RNNs) التي سيطرت على معالجة اللغة الطبيعية (NLP) قبل إدخال المحوِّلات في عام 2017، بالإضافة إلى خوارزميات التعلم الآلي الأخرى بما في ذلك الشبكات العصبية الالتفافية (CNNs) ونماذج Markov المخفية (HMMs).
كما يُوحي اسمها، تتنبأ نماذج SSM بالحالة التالية في نظام ديناميكي عن طريق نمذجة الحالة المكانية: وهو تمثيل رياضي لكل متغيرات الحالة التي تصف حالة النظام، ونطاق الاحتمالات لكلٍّ من هذه المتغيرات عند أخذها في الاعتبار معًا.
يأخذ نموذج SSM تسلسل مدخلات x(t) ويحوِّله إلى تمثيل كامِن للحالة h(t) -ويُشبه هذا الحالة المخفية في الشبكة العصبية المتكررة (RNN)- لتتمكن من التنبؤ بتسلسل المخرجات y(t). في صميم أي نموذج SSM توجد معادلتان:
المَعلمات الأساسية للنموذج هي A وB وC وD، والتي غالبًا ما تأخذ شكل مصفوفة أوزان. في المجالات التي تُستخدم فيها نماذج SSM بشكل تقليدي، مثل نظرية التحكم، يُفترض غالبًا أن هذه المصفوفات ثابتة: فهي تمثِّل ديناميكيات نظام موجود، ويُستخدم SSM لإيجاد المدخلات x التي تؤدي إلى المخرجات المرغوب فيها y.في التصورات الحديثة لنماذج SSM، تُعَد هذه المصفوفات هي نفسها مَعلمات يجب تحسينها من خلال التعلم الآلي. في نماذج التعلم العميق، يتم تمثيل تلك المصفوفات بواسطة الأوزان القابلة للتعلم من شبكة عصبية.
تَصِف معادلة الحالة كيفية تغيُّر الحالة. تحدِّد القيم الموجودة في المصفوفة A كيفية تطوُّر كل متغير حالة بمرور الوقت إذا تُرك لنفسه. تحدِّد القيم في المصفوفة B كيفية تأثير الإدخال -مثل الرمز المميز التالي في التسلسل النصي- على كل متغير حالة.
في نمذجة اللغة، تمثِّل الحالة الحالية سياق تسلسل نصي، يتم تحديثه بعد كل رمز مميز. ويعادل دورها دور ذاكرة التخزين المؤقت KV في نموذج المحوِّل.
تَصِف معادلة الإخراج كيف تؤثِّر الحالة الحالية في المخرجات (عبر المصفوفة C)، وكذلك كيف تؤثِّر المدخلات مباشرةً في المخرجات (عبر المصفوفة D). نظرا لأن المصفوفة D خارجية بشكل أساسي لنمذجة h(t) نفسها، فغالبًا ما يتم حذفها من المخططات والمناقشات الخاصة بنماذج SSM لصالح التركيز على المصفوفات الأساسية A وB وC.
في النموذج اللغوي الكبير القائم على Mamba، يتم استخدام معادلة المخرجات لتوليد الرمز المميز التالي.
تم تصميم نماذج SSM التقليدية لنمذجة المدخلات المستمرة، بينما تسلسلات النصوص (ومعظم أشكال البيانات الأخرى التي تعالجها نماذج التعلم العميق الحديثة) هي مدخلات منفصلة. يتطلب استخدام SSM لنمذجة تسلسل منفصل وسيلة لتمثيل خطواته الزمنية المميزة كجزء من إشارة مستمرة.
من الناحية المفاهيمية، تعني عملية التقطيع الزمني (discretization) أخذ عينات من قيم دالة مستمرة عند لحظات محددة. وهذا يستلزم إدخال مَعلمة جديدة -حجم الخطوة، والتي يُرمَز إليها بالرمز ∆- والتي تحدِّد مدة أخذ القيمة أو "الاحتفاظ" بها عند كل خطوة زمنية منفصلة t. تشبه التعديلات على ∆ التغييرات في الصفات مثل دقة البيانات (لبيانات السلاسل الزمنية) أو معدل الإطارات (لبيانات الفيديو). هناك عدة طرق "للتقطيع الزمني"، لكن معظم نسخ SSM الحديثة (بما في ذلك Mamba) تستخدم الطريقة البسيطة المعروفة باسم طريقة التثبيت الصفري (ZOH).
يُتيح تقطيع نموذج SSM استخدامه مثل RNN في مهام تحويل تسلسل إلى تسلسل. عادةً ما تتم إعادة كتابة مَعلمات ومعادلات SSM ذات القيم المنفصلة للتمييز بينها وبين نظيراتها في الزمن المستمر، باستخدام الترميز بالأسفل (subscript) المعتاد في شبكات RNN. في هذا الترميز، تمثِّل ht الحالة المحدثة التي سينتجها النموذج، بينما تمثِّل ht-1 الحالة السابقة -أي الحالة الحالية للنظام.
تُعَد نمذجة بيانات النصوص باستخدام نماذج SSM المنفصلة التقليدية غير عملية؛ بسبب عدد من العيوب التي تشترك فيها مع شبكات RNN. تمت معالجة اثنين من هذه العيوب من خلال تقديم نماذج تسلسل الحالة المكانية المنظمة (أو "نماذج S4") بواسطة Albert Gu وآخرين في 2021: وهما عدم كفاءة التدريب وصعوبة نمذجة التسلسلات الطويلة.
على الرغم من ذلك، فإن نجاح نماذج S4 ومشتقاتها العديدة، مثل نماذج SSM القطرية (DSS)، وS4 القطرية (S4D)، ونماذج H3، مهَّد مباشرةً الطريق لتطوير نماذج Mamba.
الفائدة من كون نماذج SSM المنفصلة مكافئة لحالة محددة من RNN هي أن شبكات RNN سريعة جدًا في الاستدلال. الجانب السلبي، مع ذلك، هو أن شبكات RNN بطيئة جدًا في التدريب.
لحسن الحظ، تتميز نماذج SSM المنفصلة بصفة مهمة تميّزها عن غيرها من شبكات RNN: فهي تمثِّل فقط الاعتماديات الخطية. بمعنى آخر، تستخدم عمليات الضرب والجمع البسيطة والمباشرة. وكما توضح الورقة البحثية حول S4، يمكن لهذه التكرارات الخطية البسيطة والمتكررة والمترابطة أن تُعدِّل في نواة التفافية ذات بُعد واحد، والتي تقوم مباشرةً بتعيين الإدخال x إلى الإخراج y في خطوة واحدة: يمكن حساب ذلك بكفاءة عالية باستخدام تحويل Fourier السريع (FFT).
"الشرط" الوحيد هو أن هذا ممكن فقط عندما تكون كل خطوة من خطوات التسلسل الكامل للمدخلات معروفة. وهذا غير ممكن أثناء الاستدلال، لكنه متاح أثناء التدريب. لذلك، يتمتع SSM المنظم بأفضل ما في العالمين: أثناء التدريب يمكن تشغيله بكفاءة عالية كنموذج CNN، وأثناء الاستدلال يمكن تشغيله بكفاءة عالية كنموذج RNN.
مثل معظم شبكات RNN، فإن نماذج SSM القياسية ضعيفة بطبيعتها في نمذجة التبعيات على المدى الطويل. بمعنى آخر، فهي غير قادرة على فهم العلاقة بين الخطوات المتباعدة في التسلسل، مثل الكلمات في بداية ونهاية فقرة - ما يجعلها ضعيفة في نمذجة التسلسلات الطويلة بشكل عام.
لحل هذه المشكلة، استخدَم Gu وزملاؤه (من بينهم Tri Dao) تقنية تُسمَّى HiPPO -اختصارًا لـ High-order Polynomial Projection Operators- لتحديد سلوك مصفوفتَي A وB عن طريق هيكلة قيمهما الابتدائية باستخدام صيغة مستمدة من كثيرات الحدود المتعامدة. يتناقض هذا مع ممارسات التعلم الآلي القياسية، حيث تتم تهيئة أوزان النموذج بشكل عشوائي في بداية تدريب النموذج. بالنسبة إلى S4، اقترح Dao وGu مخططات التهيئة المشتقة من كثيرات الحدود Legendre. استكشفوا معادلات إضافية في ورقة متابعة بعنوان "How to Train Your HiPPO".1
تُشير ورقة S4 إلى أن "تعديل SSM من مصفوفة A عشوائية إلى [مصفوفة HiPPO] حسَّن أداءَه على معيار MNIST التسلسلي من 60% إلى 98%"، ما أدى فعليًا إلى حل مشكلة الذاكرة الطويلة الأمد في نماذج SSM. لاحقًا، تستخدم نسخ SSM المنظمة مثل DSS وS5 وMamba مخططات تهيئة مختلفة (وغالبًا أبسط) للمصفوفات A وB، لكنها تحتفظ في الوقت نفسه بالمبادئ الأساسية لـ HiPPO: تنفيذ هيكل قطري يضمن تحديثات مستقرة ويحقق قدرًا من الاستقلالية لكل قيمة داخل المصفوفة.
في جوهر بنية Mamba يكمن ابتكاران أساسيان. الأول هو نموذج الحالة المكانية الانتقائي، الذي يزوِّد Mamba بقدرة حاسمة كانت حكرًا على نماذج المحولات سابقًا: القدرة على التركيز انتقائيًا على أجزاء معينة من تاريخ المدخلات السابقة أو تجاهلها بناءً على أهميتها الحالية. والآخر هو المسح المتوازي المدرك للأجهزة، وهو خوارزمية تحسِّن طريقة تعامل وحدة معالجة الرسومات (GPU) مع عمليات النموذج في تسلسل الذاكرة لزيادة السرعة والكفاءة الحسابية.
في المحولات، يتم توفير هذه القدرة عبر آلية الانتباه التي تضبط أوزان الانتباه لتحديد مدى تأثير كل رمز سابق وفق أهميته للرمز الحالي. تم تصميم نماذج SSM العادية صراحةً لربط المدخلات بالمخرجات باستخدام سجل المدخلات بأكمله.وهذا أمر مقبول أو حتى مرغوب فيه في بعض مهام نمذجة التسلسل، لكنه يمثِّل عائقًا كبيرًا لمعظم مهام نمذجة اللغة المتقدمة.
ولمعالجة هذا العجز عن إغفال أو إبراز أجزاء محددة من تاريخ المدخلات ديناميكيًا، اقترح Dao وGu فئة جديدة من نماذج الحالة المكانية تحتوي على ما يُعرف باسم "المسح الانتقائي". في ورقة Mamba، يذكر المؤلفون أنهم "يقصرون أحيانًا اسم النماذج الانتقائية SSM إلى نماذج S6، لأنها نماذج S4 مزودة بـآلية اختيار ومحسوبة عبر مسح". أطلقوا على بنيتهم المستندة إلى S6 اسم "Mamba"؛ لأن جميع حروف S في اسمه تبدو كهمس ثعبان، من بين أسباب أخرى.
يمكن فهم Mamba على أفضل نحو باعتبارها بنية شبكة عصبية تحتوي على نموذج الحالة المكانية الانتقائي في جوهرها. لمقارنة بسيطة، يمكن تشبيه Mamba بالنسبة إلى نماذج SSM الانتقائية مثل نموذج المحوِّل بالنسبة إلى آلية الانتباه.
يحتوي نموذج SSM التقليدي على ديناميكيات ثابتة: القواعد التي تحكم كيفية تطوُّر الحالة المخفية من خطوة إلى أخرى -مَعلمات النموذج- هي نفسها لكل إدخال وفي كل خطوة في التسلسل. تُعرف هذه الخاصية باسم الثبات الزمني الخطي (LTI). لمنح نماذج SSM القدرة على إعطاء أولوية انتقائية أو تقليل أهمية معلومات سابقة محددة بناءً على السياق الحالي، أعاد Dao وGu تكوين نموذجهم بحيث تختلف قيم المَعلمات الرئيسية للنموذج باختلاف المدخلات.
وبشكل أكثر تحديدًا، تجعل نماذج SSM الانتقائية حجم الخطوة ∆t والمصفوفات Bt وCt وظائف مباشرة للرمز المميز الحالي للمدخل xt. ويتم تحقيق ذلك أولًا عن طريق تمرير تمثيل المتجه لـ xt عبر ثلاث طبقات إسقاط خطية متوازية - بمعنى آخر، طبقات شبكة عصبية أمامية قياسية (أو طبقات MLP). وهذا يعادل الطريقة التي يتم بها توليد الرؤوس المتوازية لكلٍّ من query وkey وvalue متجهات Q وK وV الخاصة بالمدخل في نموذج المحوِّل.
يؤدي ضرب تضمين المتجه لـ xt في أوزان وانحيازات تلك الشبكة الخطية إلى إنتاج القيم النهائية لـ ∆t وBt وCt. يتم تعلُّم أوزان وانحيازات طبقات الإسقاط الخطية نفسها أثناء التدريب المسبق على مجموعات بيانات كبيرة من عينات النصوص، ثم يتم (اختياريًا) تحسينها من خلال ضبط دقيق لاحق.
ومن الجدير بالذكر أنه لا يتم إجراء أي تعديلات تعتمد على المدخلات على المصفوفة A. ويظل دورها كما في نماذج S4: حفظ كل تاريخ المدخلات السابقة بكفاءة. يتمثل دور تحديد أي أجزاء من ذلك التاريخ يجب استخدامها في لحظة معينة في المصفوفات B وC.
لكن بمجرد أن يصبح النموذج غير ثابت زمنيًا، لن يعد بإمكانه استخدام الاختصار القائم على الالتفاف أثناء التدريب؛ لأن نواة الانتقال لم تعد ثابتة: جوهر آلية الانتقائية هو أن الانتقال من ht-1 إلى ht أصبح الآن معتمدًا على السياق.
وبدلًا من ذلك، يستخدم Mamba حلًا ذكيًا لتحقيق فوائد موازاة مماثلة. وبما أن SSM يستخدم فقط الضرب والجمع، فإن حساباته تخضع لخاصية التجميع المعروفة في الرياضيات: يمكن ترتيب العمليات بطرق مختلفة دون أن يتغير الناتج النهائي. يُتيح ذلك تقسيم العديد من العمليات الحسابية المتسلسلة إلى أجزاء صغيرة ومستقلة يمكن معالجتها بالتوازي على GPU عبر مسح مجموعات أولية متوازية.
علاوةً على ذلك، يتم دمج النتائج بطريقة هرمية محددة تستفيد بأقصى كفاءة من أنواع الذاكرة المختلفة على وحدات معالجة الرسومات، باستخدام مبادئ مشابهة لتقنيات FlashAttention -التي طورها أيضًا Tri Dao- والتي أصبحت شائعة في النماذج اللغوية الكبيرة الحديثة.
داخل بنية Mamba، يعمل نموذج S6 كوحدة ضمن "كتلة Mamba" الأكبر، تمامًا كما تعمل آلية الانتباه كوحدة ضمن "كتلة الانتباه" الأكبر. ويجمع بين وحدة S6 وبنية الشبكة العصبية المزوَّدة بالبوابات. عادةً ما تتألف نماذج Mamba من عدة كتل Mamba -أي سلسلة من طبقات Mamba المتتالية في الشبكة العصبية- قبل طبقة الإخراج التي تولِّد التنبؤ النهائي للنموذج.
قبل دخول كتلة Mamba، يتم إرسال نسخة من المدخل مباشرة إلى النهاية كاتصال متبقٍ.الهدف من عمل كتلة Mamba الداخلي ليس فقط تحديد أي أجزاء من السياق الأكبر ذات صلة بالإدخال، بل أيضًا تحديد مدى تأثير تلك المعلومات السياقية في المعنى الأصلي للإدخال.
داخل كتلة Mamba، تتم معالجة متجه الإدخال الأصلي على النحو التالي:
بعد عام من نشر ورقة Mamba الأصلية، تبعها Dao و Gu بورقة بعنوان "Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality". وقدَّمت ورقة المتابعة هذه ثلاث مساهمات رئيسية:
خوارزمية Mamba-2 أسرع بكثير وأسهل في التطبيق من Mamba الأصلية: حيث قدَّم المؤلفون قاعدة كود "SSD minimal" التي تنفِّذ SSM الانتقائي في حوالي 25 سطرًا من التعليمات البرمجية.2 تُتيح هذه الكفاءة لنموذج Mamba-2 استخدام أبعاد حالة مخفية أكبر بكثير دون إبطاء النموذج، ما يسمح ببناء نماذج أكبر وأكثر قوة وتعبيرًا باستخدام هذه البنية. في الاختبارات، تفوقت نماذج Mamba-2 أو تعادلت بشكل حاسم مع نماذج Mamba والمحوِّلات المماثلة في الحجم في سلسلة من المهام الفرعية.
كما جاء في مقدمة الورقة، كان الهدف الرئيسي لكلٍّ من Dao وGu هو "تطوير مجموعة غنية من الروابط النظرية بين نماذج SSM المنظمة وأشكال مختلفة من الانتباه". أدى هذا إلى ظهور إطار مفاهيمي جديد يوحِّد بين الاثنين، أطلقوا عليه اسم "ازدواجية الحالة المكانية" (SSD).3 وبذلك، مهَّدوا الطريق أمام Mamba للاستفادة من عدة سنوات من الاستكشاف والتحسين في بنية المحوِّلات.
إحدى الفوائد الملحوظة كانت تطوير ما يعادل آلية الانتباه متعدد الرؤوس (MHA) في Mamba، حيث يمكن تقسيم كتلة Mamba إلى عدة "رؤوس Mamba" مشابهة لـ "رؤوس الانتباه" المتعددة في المحوِّلات. أحد أشكال هذا النهج، الذي اعتبروه مماثلًا للانتباه الاستعلامي المجمع، يُتيح كفاءة أكبر من خلال التوازي على مستوى التنسورات في وحدات معالجة الرسومات.
في كتلة Mamba-2 -التي يسمونها كتلة Mamba المتوازية (على عكس كتلة Mamba "التتابعية" الأصلية)- يتم توليد المَعلمات المعتمدة على المدخلات ∆ وB وC بشكل متوازٍ في طبقة الإسقاط الأولية. يتم اشتقاق B وC على وجه الخصوص عن طريق نسخ أجزاء من xproj ببساطة، بدلًا من ضرب xproj عبر طبقات خطية مخصصة. بالإضافة إلى تبسيط وتقليل مَعلمات النموذج الإجمالية، يُتيح هذا التوازي تدريبًا أكثر كفاءة على نطاق واسع.4
لكلٍّ من Mamba والمحوِّلات نقاط قوة خاصة بهما، لكن النماذج المبنية على Mamba تتفوق عمومًا في كل ما يتعلق باستخدام الذاكرة والسرعة: وفقًا لورقة Mamba، توفِّر Mamba معدل معالجة أكبر بخمس مرات مقارنةً بالمحوِّلات المكافئة.
تُعَد المحوِّلات دقيقة ومرنة للغاية، لكنها أيضًا تتطلب موارد حاسوبية كبيرة جدًا. خلال مرحلة التدريب المسبق (والضبط الدقيق)، تتضاعف متطلبات الذاكرة للانتباه الذاتي بشكل تربيعي مع طول التسلسل: إذا ضاعفت طول السياق لتسلسل ما، تستخدم آلية الانتباه أربعة أضعاف الموارد. يعمل هذا "الاختناق التربيعي" على تقليل السرعة تدريجيًا وتوافر الذاكرة مع زيادة حجم نافذة السياق. أثناء الاستدلال، تتزايد احتياجاتها من الذاكرة بشكل خطي.
أثناء التدريب، يزداد استخدام الذاكرة في نموذج Mamba بشكل خطي فقط. والأهم من ذلك، أن استخدامه للذاكرة أثناء الاستدلال ثابت: بغض النظر عن عدد الرموز التي رآها النموذج، يحتفظ SSM بتمثيل ثابت الحجم لتاريخه من الإدخال. وهذا يسمح بنظرية طول سياق غير محدود، محدود فقط بقدرات الأجهزة.
ومع ذلك، فإن طريقة المحولات التي تتطلب ذاكرة أكبر وحسابات متكررة لها مزاياها الخاصة. على سبيل المثال، أظهرت الأبحاث أن المحوِّلات لا تزال تتفوق على كل من Mamba وMamba-2 في المهام التي تتطلب التعلم ضمن السياق (مثل المطالبة بخطوات قليلة)، أو النسخ، أو الاستدلال على السياق الطويل.
لحسن الحظ، لا تتعارض نقاط القوة الخاصة بالمحولات وMamba مع بعضها. تشير ورقة Mamba-2 إلى أن نموذجًا هجينًا قد يتفوق على كل من المحوِّلات أو نماذج SSM النقية - وهي فكرة تم التحقق من صحتها رسميًا بواسطة أبحاث NVIDIA في وقت لاحق من عام 2024.5 بشكل عام، يبدو أن النماذج الهجينة تجمع بين مزايا الكفاءة لنموذج Mamba والدقة وأداء التعلم ضمن السياق الذي توفِّره آلية الانتباه الأكثر استهلاكًا للموارد في المحوِّلات.
لاستكشاف هذا الأمر بشكل أعمق، تعاونت IBM Research مع Dao وGu، إلى جانب Minjia Zhang من جامعة إلينوي في أوربانا-شامبين (UIUC)، على تطوير Bamba وBamba V2. بدوره، ألهم Bamba العديد من العناصر المعمارية في IBM Granite 4.0.
لا يزال البحث في النماذج الهجينة مجالًا للبحث النشط، لا سيما داخل مجتمع المصادر المفتوحة.
تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.
استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.
1. “How to Train Your HiPPO: State Space Models with Generalized Orthogonal Basis Projections,” arXiv, 5 August 2022
2. “State Space Duality (Mamba-2) Part III – The Algorithm,” Goomba Lab, 31 May 2024
3. “Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality,” arXiv, 31 May 2024
4. ibid
5. “An Empirical Study of Mamba-based Language Models,” arXiv, 12 June 2024