ما نموذج الحالة المكانية؟

ما نموذج الحالة المكانية (SSM)؟

نماذج الحالة المكانية (SSMs) هي فئة من خوارزميات التعلم الآلي يتم استخدامها لإجراء التنبؤات حول الأنظمة الديناميكية من خلال نمذجة كيفية تطوُّر الحالة الداخلية لها مع مرور الوقت باستخدام المعادلات التفاضلية. تاريخيًا، كانت تُستخدم نماذج الحالة المكانية في هندسة أنظمة التحكم، وهي منصة رياضية مرنة بشكل ملحوظ يمكن تكييفها لمعظم مهام نمذجة التسلسل. Mamba، هي بنية شبكة عصبية قائمة على نماذج الحالة المكانية، تتنافس مع المحوِّلات (Transformers) في أداء نمذجة اللغة.

ترجع أصول نماذج الحالة المكانية إلى هندسة أنظمة التحكم، حيث كان لها دور محوري في الحسابات الملاحية لبرنامج Apollo في ستينيات القرن العشرين.¹ كما تُستخدم نماذج الحالة المكانية بشكل بارز في الهندسة الكهربائية، حيث تُعَد أساسية في معالجة الإشارات ونظرية التحكم والتشغيل الآلي. لكن ربما تكون أكثر الصفات أهمية لنماذج الحالة المكانية هي مرونتها، لا سيما في الأنظمة متعددة المدخلات ومتعددة المخرجات.

تعتمد نماذج الحالة المكانية على معادلتين بسيطتين: الأولى تَصِف الديناميكيات الداخلية للنظام التي لا يمكن ملاحظتها مباشرةً، والثانية توضِّح كيفية ارتباط تلك الديناميكيات الداخلية بالنتائج القابلة للملاحظة. تتمتع هذه الصيغة البسيطة والمرنة بقدرة كبيرة على التكيف مع مجموعة واسعة من بيانات السلاسل الزمنية متعددة المتغيرات.

في علم الاقتصاد، يمكن أن تقوم نماذج إدارة أمن المعلومات بنمذجة كيفية تأثير التوجهات والموسمية في أسعار الأسهم. في علم الأعصاب، يمكنهم رسم خريطة للعلاقات بين إشارات الدماغ القابلة للقياس (مثل التصوير بالرنين المغناطيسي الوظيفي) والنشاط العصبي الأساسي. في علم البيئة، يمكن أن تساعد نماذج الحالة المكانية في نمذجة ديناميكيات السكان، وحركة الحيوانات، وبيانات الأساليب الملتقطة والمُعاد التقاطها.² وبالمثل، يتم الاستفادة من نماذج SSM في تحليل الطقس وأنواع أخرى من تحليل السلاسل الزمنية.

في السنوات الأخيرة، ركَّزت الأبحاث حول نماذج الحالة المكانية على استخداماتها في التعلم العميق، من خلال دمج الشبكات العصبية كمَعلمات في معادلات نماذج الحالة المكانية. وفي الآونة الأخيرة، وبشكل ملحوظ، أدى ذلك إلى ظهور بنية نموذج Mamba للنماذج اللغوية الكبيرة (LLMs)، والتي ثبت أنها تُضاهي أداء النماذج القائمة على المحوِّلات مع تقديم سرعة وكفاءة أعلى.

ما المقصود بالحالة المكانية؟

يتم تحديد حالة النظام في أي لحظة معينة بالقيم المحددة لأي عدد من متغيرات النظام.الهدف من نمذجة الحالة المكانية بشكل فعّال هو تحديد أصغر مجموعة فرعية من متغيرات النظام اللازمة لوصف النظام بشكل كامل. تُسمَّى هذه المجموعة الفرعية من متغيرات النظام بمتغيرات الحالة. الحالة المكانية هي المكان ذي الأبعاد n، حيث تمثِّل محاوره (الأبعاد) متغيرات الحالة، ويحتوي على جميع القيم الممكنة لكل من هذه المتغيرات n.

يجب أن يكون كل متغير من متغيرات الحالة هذه مستقلًا خطيًا: بمعنى آخر، لا يمكن لأي متغير حالة أن يشكل مزيجًا (بالجمع أو الطرح) لأيٍّ من متغيرات الحالة الأخرى.

يمكن التعبير عن الحالة المحددة للنظام في أي وقت كمتجه حالة، حيث يمثل كل عنصر من عناصر المتجه قيمة متغير الحالة المقابل له. يحتوي متجه الحالة على نفس عدد أبعاد الحالة المكانية نفسها. يمكن فهم متجه حالة معين على أنه مجموعة من "الإحداثيات" المحددة في الحالة المكانية.

أمثلة توضيحية للحالة المكانية

تخيَّل سيارة لعبة تتحرك على مسار مستقيم بسرعة ثابتة. يمكن نمذجة الحالة المكانية باستخدام متغيرَي حالة: موقع السيارة (الذي يتم قياسه بالمسافة من خط البداية) وسرعتها. يمكن عندئذٍ التعبير عن حالة النظام في أي وقت t كمتجه حالة ثنائي الأبعاد [الموضع_t، السرعة_t]. في هذا النظام البسيط، إذا كنت تعرف موضع السيارة وسرعتها بدقة في لحظة معينة -حالتها الحالية- يمكنك التنبؤ بمكانها في اللحظة التالية.

السرعة المتجهة نفسها تجمع بين متغيرين للنظام: السرعة والاتجاه. نظرًا لأن السيارة تتحرك على طول مسار مستقيم، فمن الممكن ببساطة تمثيل الحركة للخلف على أنها سرعة سالبة والحركة الأمامية على أنها سرعة موجبة. لكن من الممكن، وإن كان غير فعَّال، استبدال متغير الحالة المفردة للسرعة بمتغيرات الحالة 2 للسرعة والاتجاه.

إذا كانت السيارة اللعبة تتحرك عبر حقل مفتوح بدلًا من مسار مستقيم، فستصبح الحالة المكانية رباعية الأبعاد، لأن موقع السيارة وحركتها يحتاج كل منهما إلى بُعدين على الأقل لوصفهما بالكامل.

من الناحية العملية، نادرًا ما تتوافق "أبعاد" الحالة المكانية مع الأبعاد المألوفة وسهلة التصور للعالم المادي. على سبيل المثال، ضَع في اعتبارك لوحة لعبة إكس-أو (Tic Tac Toe). يمكننا اعتبار كل من المربعات التسعة الفردية كمتغير حالة—حيث يمكن أن تكون قيمته "0" للفراغ، و"1" لـ X، و"2" لـ O - في فضاء حالة ذي 9 أبعاد. يمكن التعبير عن أي تكوين للوحة في شكل الحالة المكانية كمتجه حالة من 9 أبعاد.

الرسالة الإخبارية الخاصة بالمجال

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

كيف تعمل نماذج الحالة المكانية؟

تهدف نماذج الحالة المكانية إلى التنبؤ بكيفية انعكاس المدخلات على مخرجات النظام، وكذلك بكيفية تطوُّر حالة النظام نفسها مع مرور الوقت واستجابةً لمدخلات محددة.

في كل لحظة زمنية t، تأخذ نماذج الحالة المكانية (SSM) تسلسل المدخلات x(t) وتربطه بكلٍّ من الحالة الحالية h(t) وتسلسل المخرجات y(t). تُعرف الحالة h(t) غالبًا باسم الحالة الكامنة؛ لأنها على عكس مخرجات النظام، لا يمكن ملاحظتها مباشرةً - أي أنها كامنة (مخفية).

يتم حساب تمثيل الحالة المكانية للنظام باستخدام معادلتين تفاضليتين من الدرجة الأولى:

معادلة الحالة، $h^{'} (t) = A h (t) + B * x (t)$*
معادلة الإخراج، $y (t) = C h (t) + D * x (t)$*

المَعلمات الرئيسية في نموذج الحالة المكانية (SSM) هي A وB وC وD، والتي عادةً ما تكون على شكل مصفوفات. يمثِّل كل عنصر في كل مصفوفة العلاقة -التي يتم التعبير عنها كمشتقة من الدرجة الأولى- بين متغير حالة وما يتعلق به من متغير آخر (مثل متغير إدخال خارجي، أو متغير حالة آخر، أو المتغير نفسه). استخدام المصفوفات يجعل من طرق الحالة المكانية أداة قوية وقابلة للتوسع لتمثيل الأنظمة المعقدة متعددة المدخلات ومتعددة المخرجات (MIMO) بشكل مضغوط وموحَّد.

في نظرية التحكم والتخصصات ذات الصلة، غالبًا ما تُعرف هذه المصفوفات مباشرةً: فهي تمثِّل ديناميكيات نظام محدد، ويُستخدم نموذج الحالة المكانية (SSM) لتحديد المدخلات x التي تؤدي إلى المخرجات المرغوبة y أو الحالة المُثلى h.في المفاهيم الحديثة لنماذج الحالة المكانية (SSMs)، تُعتبر هذه المصفوفات هي نفسها مَعلمات يجب تحسينها عبر التعلم الآلي لتعكس بشكل أفضل الأنماط الموجودة في مجموعة بيانات التدريب. في نماذج التعلم العميق، يمثِّل هذا "التمثيل بالمَعلمات" بالأوزان القابلة للتعلّم في الشبكة العصبية.

معادلة الحالة المكانية

معادلة الحالة المكانية (أو ببساطة معادلة الحالة)، كما يُوحي اسمها، تَصِف حالة النظام كما تتوسطها مصفوفة A ومصفوفة B. في هذا الترميز، يمكن فهم h(0) على أنه الحالة الابتدائية للنظام، وh(t) هي الحالة الكامنة في الزمن t، وh’(t) -المعادلة التفاضلية من الدرجة الأولى لـ h(t)- تمثِّل الطريقة التي تتغير بها الحالة عند الزمن t.

معادلة الحالة. رسم توضيحي مشتق من "A Visual Guide to Mamba and State Space Models" لـ Maarten Grootendorst.

لتوضيح المفاهيم المجردة للمعادلات التفاضلية والمصفوفات، يمكننا استكشافها من خلال مثال مبسَّط وبديهي لنظام ديناميكي تكون فيه المعاملات A وB وC وD معروفة مسبقًا.

كمثال لنا، تخيَّل نظامًا بيئيًا صغيرًا على جزيرة منعزلة يضم مجموعة من الأسماك ومجموعة من البجع الذي يتغذى على هذه الأسماك. يمكننا تمثيل هذا النظام باستخدام متغيرين من متغيرات الحالة: $F$ (عدد الأسماك) $P$ و(عدد البجع). هدفنا هو تحديد دالة $h^{'} (t)$ تَصِف كيفية تغيُّر الحالة، $h (t)$ معبَّرًا عنها كمُتجه حالة، $[F (t), P (t)]$ عند الوقت t.

المصفوفة A

مصفوفة A، والمعروفة أيضًا باسم مصفوفة الانتقال، تَصِف كيفية تطوُّر النظام البيئي للجزيرة -كما يمثِّله متغيرا الحالة- مع مرور الوقت إذا تُركت الأمور على طبيعتها. وبشكل أكثر تحديدًا، فهي تَصِف كيف تؤثِّر الحالة الحالية h في الحالة المستقبلية.

لنفترض أن ديناميكيات تجمّعات الأسماك والبجع بسيطة وثابتة للغاية:

إذا تُركت بمفردها، فإن أعداد الأسماك $F$ تزداد بمعدل 50%.
إذا تُركت بمفردها، فإن أعداد البجع $P$ تنخفض بنسبة 5%.
كل طائر بجع سيأكل 4 أسماك خلال الفترة الزمنية نفسها.
لكل 10 أسماك إضافية، يمكن للنظام البيئي دعم طائر بجع إضافي واحد.

يمكننا الآن تمثيل كل هذه الديناميكيات بمعادلات بسيطة وعرض هذه المعادلات في مصفوفة بحجم n × n، حيث $n$ = عدد متغيرات الحالة. كل عمود في مصفوفة A بحجم 2×2 يمثل متغير حالة، وكل صف يمثِّل معدل تغيره -المشتقة من الدرجة الأولى- بالنسبة لكل متغير حالة. تمت إضافة التعليقات المكتوبة بخط مائل لتوضيح المعنى.

$\begin{matrix} F i s h (F) & P e l i c a n s (P) \\ C h a n g e s_{t o} F i s h & \underline{0.5} & \underline{- 4} \\ C h a n g e s_{t o} P e l i c a n s & \underline{0.1} & \underline{- 0.05} \end{matrix}$

نظرًا لثبات معدلات التغير السكاني في هذا السيناريو المبسَّط، تكون عناصر مصفوفة A مجرد ثوابت بسيطة. غالبًا ما تتضمن السيناريوهات الواقعية المزيد من متغيرات الحالة وعلاقات رياضية أكثر تعقيدًا بينها، ولكن الطريقة التي يتم بها تمثيل هذه العلاقات في شبكة مصفوفة الانتقال المقابلة A ستكون هي نفسها.

بافتراض غياب أي تأثيرات خارجية، تكفي المعادلة h’(t) = A * h(t) لوصف كيفية تطوُّر حالة النظام البيئي للجزيرة مع مرور الوقت.

$h^{'} (t) = A * h (t)$

$h^{'} (t) = [\begin{matrix} 0.5 & - 4 \\ 0.1 & - 0.05 \end{matrix}] * h (t)$

$h^{'} (t) = [\begin{matrix} 0.5 & - 4 \\ 0.1 & - 0.05 \end{matrix}] * [\begin{matrix} F (t) \\ P (t) \end{matrix}]$

حل هذه المعادلة بشكل تحليلي يتطلب حساب القيم الذاتية والمتجهات الذاتية لمصفوفة A، وهو أمر يتجاوز نطاق هذا المقال. لكن يتبين أنه إذا تُرك هذا النظام البيئي دون تدخل، فإنه غير مستدام: فسوف تشهد كل من أعداد الأسماك والبجع دورة متزايدة الارتباط ومتطرفة من الزيادة والانخفاض، لتصل في النهاية إلى انهيار كارثي.

المصفوفة B

ماذا لو كانت هناك أيضًا عوامل خارجية تؤثِّر في النظام البيئي؟ مصفوفة B، المعروفة أيضًا باسم مصفوفة الإدخال، توضِّح النصف الآخر من معادلة الحالة، موضحة كيف يؤثِّر الإدخال المُعطى في كل متغير حالة. إنها مصفوفة بحجم n × m، حيث n = عدد متغيرات الحالة وm = عدد متغيرات الإدخال الخارجية. جوهر نظرية التحكم هو تحديد مدخلات النظام x(t) التي تحقق حالة أو نتيجة مرغوبة للنظام ككل.

لتوسيع مثال نظامنا البيئي للجزيرة، سنضيف متغير إدخال واحدًا: إسقاط جوي لطعام الأسماك x (مقاس بالأطنان) عند الوقت t. لنفترض أن كل طن من طعام الأسماك الذي يتم إسقاطه جوًا يُتيح زيادة إضافية بنسبة 30% في عدد الأسماك ولا يؤثِّر في أعداد البجع.

بما أن لدينا متغيرَي حالة ومتغير إدخال واحدًا، فسنمثلها في مصفوفة إدخال بحجم 2×1. الصف العلوي من المصفوفة B سيمثل F، لمطابقة المصفوفة A.

$\begin{matrix} C h a n g e_{t o} F \\ C h a n g e_{t o} P \end{matrix}$ $[\begin{matrix} 0.3 \\ 0 \end{matrix}]$

يمكننا الآن نمذجة حالة النظام البيئي للجزيرة في الوقت t باستخدام معادلة الحالة الكاملة:

$h^{'} (t) = A * h (t) + B * x (t)$

$h^{'} (t) = [\begin{matrix} 0.5 & - 4 \\ 0.1 & - 0.05 \end{matrix}] h (t) + [\begin{matrix} 0.3 \\ 0 \end{matrix}] x (t)$

في هذه الحالة، سيكون الهدف هو تحديد القواعد المُثلى -التي يتم تمثيلها عادةً بمصفوفة أخرى تكون عناصرها دوال لمتغيرات الحالة- لإدخال x(t) إلى النظام البنائي كلما كان تعداد الأسماك في حالة انهيار، من أجل تحقيق استقرار النظام البيئي.

معادلة الإخراج

كما ذكرنا سابقًا، فإن الغرض من معادلة الحالة هو وصف "الحالة المخفية " h التي لا يمكن ملاحظتها مباشرة. تفترض نماذج SSM وجود تمثيل للحالة الحقيقية يكون قابلًا للملاحظة مباشرة -رغم احتمالية وجود ضوضاء أو نقص في البيانات- وتتم نمذجته باستخدام معادلة الإخراج (المعروفة أيضًا بمعادلة قابلية الملاحظة).

معادلة الإخراج. معادلة الحالة. رسم توضيحي مشتق من "A Visual Guide to Mamba and State Space Models" لـ Maarten Grootendorst.

وينطبق الأمر نفسه على مثال نظامنا البيئي البسيط: ففي الواقع، من المستحيل على الأرجح عدّ كل فرد من الأسماك والطيور على الجزيرة حرفيًا. بدلًا من ذلك، قد تستخدم دراسة بيئية طائرات مسيرة وكاميرات تحت الماء لمسح جزء من أعداد الأسماك والبجع بشكل موضوعي، ثم تُجري افتراضات حول كيفية ارتباط هذه القياسات بالحالة الحقيقية للنظام البيئي.

المصفوفة C

تحدِّد المصفوفة C (أو مصفوفة الإخراج) العلاقة بين متغيرات الحالة الداخلية والمخرجات y.يتم تمثيل المخرجات نفسها كمتجه، حيث تمثِّل عناصره القيم المرصودة لكل متغير من متغيرات الإخراج. في مثال نظامنا البيئي، لنضف 4 متغيرات إخراج: كاميرتان تحت الماء لمراقبة أسماك الجزيرة وطائرتان مسيرتان لمراقبة البجع.

الكاميرا 1 في موقع جيد به مياه صافية. ويمكنه أن يسجل بشكل موثوق به حوالي 20% من أعداد الأسماك الحقيقية F ( ولا شيء من البجع).
توجد الكاميرا 2 في المياه العكرة ويمكنها رؤية حوالي 5% فقط من الأسماك.
الطائرة دون طيار 1 هي طائرة جديدة عالية الجودة. ويمكنها اكتشاف حوالي 25% من تعداد البجع الحقيقي P، ولكنها تطير على ارتفاع عالٍ جدًا ولا تستطيع رؤية الأسماك.
الطائرة دون طيار 2 هي طائرة أقدم. ويمكنها فقط اكتشاف حوالي 10% من عدد البجع.

يمكننا تمثيل متغيرات الإخراج هذه في المصفوفة C بحجم p × n، حيث n = عدد متغيرات الحالة وp = عدد إشارات المخرجات المُراد قياسها. لمواءمة ذلك مع مصفوفاتنا السابقة، يشير العمود الأيسر إلى علاقة كل متغير مخرجات بـ $F$ بينما يشير العمود الأيمن إلى علاقته بـ $P$ .

$\begin{matrix} C a m e r a 1 \\ C a m e r a 2 \\ D r o n e 1 \\ D r o n e 2 \end{matrix} [\begin{matrix} . 2 & 0 \\ . 05 & 0 \\ 0 & . 25 \\ 0 & . 10 \end{matrix}]$

ربط المخرجات بحالة النظام

يمكننا الآن نمذجة مخرجات النظام y عند الوقت t على النحو التالي

$y (t) = C * h (t) = [\begin{matrix} . 2 & 0 \\ . 05 & 0 \\ 0 & . 25 \\ 0 & . 10 \end{matrix}] * [\begin{matrix} F (t) \\ P (t) \end{matrix}]$

نظريًا، سيمكِّننا ذلك من استنتاج الحالة الحقيقية h من قياسات المخرجات y بالرجوع إلى معادلات الحالة والإخراج.

في الواقع، نادرًا ما يكون من الممكن معرفة العلاقة الدقيقة بين قياسات المخرجات والحالة الحقيقية، وغالبًا ما تكون قياسات المخرجات نفسها غير كاملة ومتأثرة بالضوضاء. على سبيل المثال، من غير الواقعي افتراض أن الطائرة دون طيار 1 سترصد بالضبط 25% من البجع على الجزيرة. مرشح Kalman هو تقنية تُستخدم عادةً لإنتاج تقدير للحالة الحقيقية بأعلى احتمال ممكن، باستخدام مخرجات النظام المشوشة.

المصفوفة D

تَصِف المصفوفة D كيفية تأثير المدخلات مباشرةً في المخرجات الملاحظة للنظام. غالبًا ما يتم إهمال ذكرها في الرسوم التوضيحية والمناقشات حول نماذج SSM لأنها تتجاوز بشكل أساسي "النموذج" الفعلي، ولا ترتبط مباشرةً بالحالة نفسها.

على سبيل المثال، في مثال نظامنا البيئي، تخيَّل أن تيارات المياه في الجزيرة تجعل طعام الأسماك الذي يتم إسقاطه جويًا يميل إلى الاستقرار بالقرب من الكاميرا 2. قد يؤدي ذلك إلى تسجيل الكاميرا 2 لنسبة أكبر من الأسماك الحقيقية مقارنةً بالمعتاد، بينما تسجِّل الكاميرا 1 نسبة أقل من الأسماك F عن المعتاد عند زيادة المدخلات. ستأخذ المصفوفة D بحجم p × m في الاعتبار مثل هذا التأثير في كل متغير من متغيرات الإخراج.

في بعض الحالات، لا توجد أي علاقة مباشرة بين المدخلات والمخرجات، ويتم استبعاد المصفوفة D تمامًا من النموذج.

أكاديمية الذكاء الاصطناعي

اختر نموذج الذكاء الاصطناعي المناسب لحالة الاستخدام لديك

الكفاءة في نماذج الذكاء الاصطناعي لا تتناسب طرديًا مع حجمها. تعرّف على طريقة العثور على الخيار المناسب لتلبية احتياجات أعمالك. ثم احصل على الدليل الإرشادي لمساعدتك على اتخاذ الإجراءات اللازمة.

انتقل إلى الحلقة

نماذج الحالة المكانية والتعلم الآلي

استخدام مرشح Kalman لربط مخرجات النظام بالحالة الحقيقية للنظام يتطلب معرفة المَعلمتين A وB مسبقًا. لكن في كثير من الحالات، تكون ديناميكيات نظام الحالة المكانية -المَعلمات A وB وC- —غير معروفة في البداية. يجب تحديد المَعلمات الصحيحة لاستخدام إطار عمل SSM لإجراء توقعات ذات معنى حول النظام.

يمكن استخدام عدد من خوارزميات التعلم الآلي لاشتقاق قيم A وB وC من المدخلات المعروفة والمخرجات المقابلة لها، بالاعتماد على المعادلتين المترابطتين اللتين تصفان تفاعلاتها. فإذا كان النموذج خطيًا وثابتًا زمنيًا (LTI) - أي أن ديناميكياته ثابتة مع مرور الوقت ومخرجاته تتناسب طرديًا مع المدخلات - فسيكون ممكنًا لخوارزميات زيادة التوقع أو طرق الفضاء الفرعي مثل N4SID تقدير مَعلمات النموذج بكفاءة.

نماذج الحالة المكانية والتعلم العميق

في السنوات الأخيرة، أصبح التعلم العميق وسيلة شائعة الاستخدام لتعلم مَعلمات SSM. تمثِّل هذه الأساليب مصفوفات A وB وC كأوزان في الشبكة العصبية. في عملية تكرارية:

يتم تزويد النموذج بالمدخلات من بيانات التدريب ويتم تكليفه بتوقع مخرجات النظام.
يتم قياس المخرجات المتوقعة مقابل المخرجات الحقيقية لذلك الإدخال، باستخدام دالة خسارة.
يتم استخدام الانتشار الخلفي (Backpropagation) لتحديد كيفية مساهمة كل مَعلمة من مَعلمات النموذج -أي كل عنصر من مصفوفات A وB وC- في الخطأ المُقاس.
يتم استخدام الانحدار التدرجي لتحسين مَعلمات النموذج بطريقة تقلل الخسارة (عدم الدقة).
تتكرر العملية، مع تحديث مصفوفات SSM حتى تصل توقعات النموذج إلى مستوى مقبول من الدقة.

باستخدام عملية التعلم الخاضع للإشراف (أو التعلم الخاضع للإشراف الذاتي)، يتعلم النموذج ضمنيًا ديناميكيات نظام الحالة المكانية. على الرغم من أن هذا يُعَد وسيلة قوية ومرنة لتعلم المَعلمات المُثلى لنظام الحالة المكانية، إلا إنه يتطلب كمية كبيرة من بيانات التدريب.

على عكس نموذج SSM التقليدي، فإن نموذج SSM المستند إلى الشبكات العصبية غير قابل للتفسير: إذ لم تَعُد قيم مصفوفاته تمثِّل العلاقات بين متغيرات الحالة والمَعلمات الأخرى للنموذج بطريقة بديهية، كما في مثالنا السابق. وهذا ليس عيبًا فريدًا لنماذج SSM العميقة، بل صفة عامة لجميع نماذج التعلم العميق بشكل عام.

نماذج الحالة المكانية ذات القيم المنفصلة

نماذج SSM التقليدية هي نماذج زمنية مستمرة مصممة لنمذجة التسلسلات المستمرة، مثل الإشارة الكهربائية أو مسار جسم متحرك. لكن العديد من أشكال البيانات التي تعالجها نماذج التعلم العميق الحديثة -مثل النصوص، والهياكل الجزيئية، وسلوكيات المستخدمين، أو بيانات السلاسل الزمنية- تكون عادةً تسلسلات منفصلة. يتطلب استخدام SSM لنمذجة تسلسل منفصل وسيلة لتمثيل خطواته الزمنية المميزة كجزء من إشارة مستمرة.

من الناحية المفاهيمية، يعني التقطيع الزمني أخذ "لقطات" لقيمة دالة مستمرة في لحظات زمنية محددة. يتطلب هذا إدخال مَعلمة جديدة -وهي حجم الخطوة ∆- التي تحدِّد المدة التي تُحتفظ فيها كل "لقطة" عند كل خطوة زمنية منفصلة t. تشبه التعديلات على ∆ التغييرات على الصفات مثل دقة البيانات (لبيانات السلاسل الزمنية) أو معدل الإطارات (لبيانات الفيديو). تشمل طرق التقطيع الزمني الشائعة الطريقة ثنائية الخطية، وطريقة Euler، وطريقة التثبيت الصفري (ZOH) البسيطة التي تستخدمها العديد من متغيرات SSM الحديثة (بما في ذلك Mamba).

العلاقة بين نماذج الحالة المكانية (SSM) والشبكات العصبية المتكررة (RNN)

بينما يقوم نموذج SSM الزمني المستمر بتحويل دالة x(t) إلى دالة y(t)، فإن SSM الزمني المتقطع هو نموذج من تسلسل إلى تسلسل. من الناحية الرياضية، يُعادل SSM ذو القيم المنفصلة شبكة عصبية متكررة (RNN)، حيث تمثِّل الحالة الكامنة للنظام ما يعادل "الحالة الخفية" في RNN.

على الرغم من وجود اختلاف في الحروف المستخدمة للدلالة على الإدخال والحالة في معادلات SSM -ففي بعض الحالات يُرمز للمدخل بـ u وللحالة بـ x- إلا أن هذا الارتباط بشبكات RNN هو ما يدفع لاستخدام h للدلالة على الحالة في أغلب سياقات التعلم الآلي. هذا الارتباط مع RNNs هو نفسه ما أدى إلى تطوير البنى الحديثة القائمة على SSM مثل Mamba.

عادةً ما تتم إعادة كتابة مَعلمات ومعادلات SSM ذات القيم المنفصلة للتمييز بينها وبين نظيراتها في الزمن المستمر، باستخدام الترميز بالأسفل (subscript) المعتاد في شبكات RNN. في هذا الترميز، تمثِّل h_t الحالة المحدثة التي سينتجها النموذج، بينما تمثِّل h_t-1 الحالة السابقة -أي الحالة الحالية للنظام. تتم أيضًا إعادة تعديل ترميز A وB وC لتعكس أشكالها المنفصلة.

$h_{t} = \bar{A} h_{t - 1} + \bar{B} x_{t}$
$y_{t} = \bar{C} h_{t}$

في هذا التمثيل المنفصل، يتم تحديث حالة النظام بعد كل خطوة زمنية t (باستخدام معادلة الحالة)، ما يسمح للحالة المحدَّثة بإثراء معادلة الإخراج في الخطوة الزمنية التالية.

نماذج الحالة المكانية المنظمة

على الرغم من مزاياها العديدة، تشترك نماذج SSM المنفصلة القياسية مع شبكات RNN في بعض العيوب المهمة. تمت معالجة اثنين من أهم أوجه القصور من خلال إدخال نماذج تسلسل الحالة المكانية المنظمة(أو "نماذج S4") بواسطة Albert Gu وآخرين في عام 2021: وهما عدم قدرتها على التعامل مع التسلسلات الطويلة وعدم كفاءتها المتأصلة أثناء تدريب النموذج.

تم معالجة العيب الأول من خلال استراتيجية فريدة لتهيئة مَعلمات SSM قبل التدريب. تمت معالجة العيب الثاني من خلال اكتشاف ارتباط مهم بين نماذج SSM والشبكات العصبية الالتفافية (CNNs).

تهيئة HiPPO

مثل الشبكات العصبية المتكررة التقليدية، تُظهر SSM المنفصلة التقليدية ضعفًا طبيعيًا في نمذجة الاعتماديات بعيدة المدى. بعبارة أخرى، فهي غير قادرة على فهم العلاقة بين الخطوات البعيدة في التسلسل، مثل الكلمات في بداية ونهاية الفقرة - ما يجعلها ضعيفة في نمذجة التسلسلات الطويلة (مثل بيانات النصوص) بشكل عام.

لحل هذه المشكلة، اقترح Gu وآخرون استخدام تقنية تُسمى HiPPO (اختصارًا لـ High-order Polynomial Projection Operators) لتحديد سلوك مصفوفتي A وB.

الدوال متعددة الحدود تتكوّن من حد أو أكثر.يتكوّن كل حد من مُعامل ودالة أساسية لمتغير معين.على سبيل المثال، 3x2 هو الحد الذي معامله 3 وأساسه هو x2. يتم تحديد ترتيب كثير الحدود بأعلى أس للقوة في أي دالة أساسية يحتويها: على سبيل المثال، 3x2 + 5x هو "كثير حدود من الرتبة الثانية". كلما ارتفع ترتيب كثير الحدود، زادت القدرة على التقاط تفاصيل أكثر دقة في منحنياته.

الدوال كثيرة الحدود المتعامدة هي "عائلات" خاصة من كثيرات الحدود تمتد عبر عدة رتب، حيث يكون كل كثير حدود مستقلًا رياضيًا عن الآخرين، ما يضمن عدم وجود تداخل مكرر أو اعتماد معلوماتي بينها. كما أنها مقاومة جدًا لأخطاء التقريب الطفيفة، ما يجعلها مفيدة في تقريب الدوال الأكثر تعقيدًا. يتم توليد عائلات كثيرات الحدود المتعامدة نفسها بواسطة قاعدة تُعرف باسم صيغة الاسترجاع ثلاثية الحدود. تستخدِم طريقة HiPPO هذه الصيغ التكرارية لتكوين المصفوفتين A وB.

في الأساس، في كل مرة يتم فيها تحديث الحالة h_tبواسطة معادلة الحالة $\bar{A} h_{t - 1} + \bar{B} x_{t}$ ،تعمل عناصر متجه الحالة h_t كمُعامِلات لتعبيرات متعددة الحدود تقترب من الإدخال الأصلي. يتم تقريب المدخلات القديمة باستخدام كثيرات حدود من رتبة منخفضة لالتقاط التفاصيل العامة ومنخفضة التردد (على المدى الطويل)، بينما يتم تقريب المدخلات الحديثة باستخدام كثيرات حدود من رتبة عالية لالتقاط التفاصيل الدقيقة وعالية التردد (قصيرة المدى). بما أن كثيرات الحدود المختارة متعامدة، فلن تتكرر أي معلومات. في الأساس، تُجبر هذه البنية الحالة المكانية على "تذكُّر" سجل المدخلات بأكمله من خلال "ضغطه" بكفاءة في متجه ثابت الحجم من المعاملات.

تُشير ورقة S4 إلى أن "تعديل SSM من مصفوفة Aعشوائية إلى [مصفوفة HiPPO] حسَّن أداءَه على معيار MNIST التسلسلي من 60% إلى 98%"، ما أدى فعليًا إلى حل مشكلة الذاكرة الطويلة الأمد في نماذج SSM. تستخدم النسخ اللاحقة من نماذج SSM المهيكلة، مثل DSS وS5 وMamba، أساليب تهيئة مختلفة (وغالبًا أبسط) للمصفوفتين A وB، لكنها تحتفظ بمبادئ HiPPO الأساسية.

الصلة بين نماذج الحالة المكانية والشبكات العصبية الالتفافية

مثل شبكات RNN التقليدية، فإن النسخ المنفصلة من SSM سريعة جدًا في الاستدلال بالانحدار الذاتي. الجانب السلبي لهذا التكافؤ هو أن شبكات RNN بطيئة جدًا في التدريب.

لحسن الحظ، تتميز نماذج SSM المنفصلة بصفة مهمة تميّزها عن غيرها من شبكات RNN: فهي تمثِّل فقط الاعتماديات الخطية. بمعنى آخر، تستخدم عمليات الضرب والجمع البسيطة والمباشرة. وكما توضح الورقة البحثية حول S4، يمكن لهذه التكرارات الخطية البسيطة والمتكررة والمترابطة أن تُعدِّل في نواة التفافية ذات بُعد واحد، والتي تقوم مباشرةً بتعيين الإدخال x إلى الإخراج y في خطوة واحدة: يمكن حساب ذلك بكفاءة عالية باستخدام تحويل Fourier السريع (FFT).

"الشرط" الوحيد هو أن هذا ممكن فقط عندما تكون كل خطوة من خطوات التسلسل الكامل للمدخلات معروفة. هذا لا ينطبق أثناء الاستدلال، إذ الهدف من الاستدلال هو استخدام النموذج لتوقع الخطوة التالية في التسلسل بشكل تكراري؛ لأنها غير معروفة مسبقًا. ولكن أثناء التدريب، عندما تتم تغذية النموذج بعينات من التسلسلات وتحسينها لتحسين دقة تنبؤاته، يكون التسلسل بأكمله معروفًا.

وهذا يمكِّن نموذج SSM المنظم من الجمع بين أفضل ما في العالمين: أثناء التدريب يمكن تشغيله بكفاءة كبيرة كشبكة CNN، وأثناء الاستدلال يمكن تشغيله بكفاءة كبيرة كشبكة RNN.

نماذج Mamba

تُعَد Mamba بنية شبكة عصبية مبنية على نسخة خاصة من نماذج SSM المنظمة: نموذج الحالة المكانية الانتقائي.في مهام مثل النمذجة اللغوية بالانحدار الذاتي، أثبتت نماذج Mamba أنها تضاهي أو تتجاوز أداء النماذج التحولية في معظم المعايير الأكاديمية، مع كونها أسرع وأكثر كفاءة في استهلاك الذاكرة أثناء كلٍّ من التدريب والاستدلال.

تم تصميم نماذج SSM العادية صراحةً لربط المدخلات بالمخرجات باستخدام سجل المدخلات بأكمله.وهذا أمر مقبول أو حتى مرغوب فيه في بعض مهام نمذجة التسلسل، لكنه يمثِّل عائقًا كبيرًا لمعظم مهام نمذجة اللغة المتقدمة. يوفر نموذج الحالة المكانية الانتقائي لنموذج Mamba قدرة حاسمة كانت متاحة سابقًا فقط من خلال آلية الانتباه الذاتي في بنية المحوِّل: القدرة على التركيز انتقائيًا على أجزاء محددة من سجل المدخلات السابق أو تجاهلها بناءً على أهميتها الحالية.

في تصميمات SSM السابقة، كانت مَعلمات A وB وC وD و∆ ثابتة: بمجرد تحسينها خلال تدريب النموذج، تظل نفسها لكل إدخال. في نموذج SSM الانتقائي، تكون مَعلمات SSM معتمِدة على الإدخال: حيث يتم توليدها من خلال ضرب ("إسقاط") متجه الإدخال في طبقة من أوزان النموذج، والتي يتم تحسينها نفسها أثناء التدريب.

ومع ذلك؛ نظرًا لأن نماذج SSM الانتقائية ليست خطية زمنية ثابتة (LTI)، فلا يمكن أن تعمل كشبكة CNN أثناء التدريب. تعامل مؤلفو Mamba مع هذا التوازن باستخدام المسح المتوازي المدرك للأجهزة، وهو خوارزمية تحسِّن طريقة تعامل وحدة معالجة الرسومات (GPU) مع عمليات النموذج في تسلسل الذاكرة لزيادة السرعة والكفاءة الحسابية.

رسم تخطيطي لنموذج المكانة الحالية الانتقائي

نموذج الحالة المكانية الانتقائي وتخصيص ذاكرة الوصول العشوائي (RAM) على وحدة معالجة الرسومات (GPU). مقتبس من الورقة الأصلية "Mamba: Linear Time-Sequence Modeling with Selective State Spaces".

كيفية اختيار نموذج الأساس المناسب

تعرف على كيفية اختيار النهج الصحيح في إعداد مجموعات البيانات واستخدام نماذج الأساس.

الموارد

استكشف IBM Granite

IBM Granite هي مجموعة من نماذج الذكاء الاصطناعي المفتوحة والموثوق بها وذات الأداء العالي والتي صُمِمَت خصيصًا للأعمال وجرى الارتقاء بها على النحو الأمثل لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. استكشف خيارات اللغة والتعليمات البرمجية والسلاسل الزمنية والدرابزين.

حصلت شركة IBM على لقب "صاحبة الأداء القوي" في تقرير "Forrester Wave: AI Foundation Models for Language، الربع الثاني 2024"

تدرك الشركات أنها لا تستطيع توسيع نطاق الذكاء الاصطناعي التوليدي باستخدام نماذج الأساس التي لا يمكنها الوثوق بها. نزِّل المقتطف؛ لتكتشف سبب تصنيف شركة IBM بأنها "صاحبة الأداء القوي"، بفضل نماذجها الرائدة "Granite".

دليل الرئيس التنفيذي لتحسين النماذج

تعرَّف على كيفية دفع الفِرَق باستمرار نحو تحسين أداء النماذج وتحقيق التفوق على المنافسين باستخدام أحدث تقنيات الذكاء الاصطناعي والبنية التحتية.

نهج متميز لنماذج أساس الذكاء الاصطناعي

استكشف قيمة نماذج الأساس من فئة المؤسسات والتي توفِّر الثقة والأداء المتميز والفاعلية من حيث التكلفة لجميع الصناعات.

أطلق العنان لقوة الذكاء الاصطناعي التوليدي والتعلم الآلي (ML)

تعرَّف على كيفية دمج الذكاء الاصطناعي التوليدي، والتعلم الآلي، ونماذج الأساس في عمليات أعمالك لتحسين الأداء.

ما نموذج الذكاء الاصطناعي المناسب لك؟

شاهِد عرضًا توضيحيًا لمقارنة نماذج IBM مع النماذج الأخرى عبر حالات الاستخدام المتعددة.

كيف تخصص IBM الذكاء الاصطناعي التوليدي للمؤسسات

تعرَّف على كيفية مساهمة IBM في تطوير نماذج أساس توليدية جديرة بالثقة وموفِّرة للطاقة وقابلة للنقل.

حلول ذات صلة

نماذج الأساس

استكشف مكتبة نماذج الأساس من IBM في محفظة watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.

اكتشف watsonx.ai

حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي

الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي

اتخِذ الخطوة التالية

استكشف مكتبة نماذج الأساس من IBM في محفظة IBM watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.

اكتشف watsonx.ai

استكشف نماذج الذكاء الاصطناعي من IBM Granite

الحواشي

1. "The Apollo 11 Moon Landing: Spacecraft Design Then and Now," MathWorks, 2019
2. "A guide to state–space modeling of ecological time series," Econological Society of America, 14 June 2021

ما نموذج الحالة المكانية؟