ما هي الشبكة العصبية المتكررة (RNN)؟

4 أكتوبر 2024 

مؤلف

Cole Stryker

Editorial Lead, AI Models

Gather

ما هي الشبكة العصبية المتكررة؟

الشبكة العصبية المتكررة أو RNN هي شبكة عصبية عميقة مدربة على بيانات متسلسلة أو بيانات متسلسلة زمنية لإنشاء نموذج التعلم الآلي (ML) الذي يمكنه عمل تنبؤات أو استنتاجات متسلسلة بناءً على المدخلات المتسلسلة.

يمكن استخدام الشبكة العصبية المتكررة (RNN) للتنبؤ بمستويات الفيضانات اليومية بناء على بيانات الفيضانات والمد والجزر والأرصاد الجوية اليومية السابقة. ولكن يمكن أيضًا استخدام الشبكات العصبية المتكررة لحل المشكلات الترتيبية أو الزمنية مثل ترجمة اللغة، ومعالجة اللغة الطبيعية (NLP)، وتحليل المشاعر، والتعرف على الكلام ، وترجمة الصور.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

كيف تعمل شبكات الشبكات العصبية المتكررة

كالشبكات العصبية التقليدية، مثل الشبكات العصبية بالتغذية الأمامية والشبكات العصبية التلافيفية (CNNs) ، تستخدم الشبكات العصبية المتكررة بيانات التدريب للتعلم. تتميز "بذاكرتها" لأنها تأخذ المعلومات من الإدخالات السابقة للتأثير على الإدخال والمخرجات الحالية.

في حين تفترض شبكات التعلم العميق التقليدية أن المدخلات والمخرجات مستقلة عن بعضها البعض، فإن مخرجات الشبكات العصبية المتكررة تعتمد على العناصر السابقة داخل التسلسل. وفي حين أن الأحداث المستقبلية قد تكون مفيدة أيضًا في تحديد مخرجات تسلسل معين، إلا أن الشبكات العصبية المتكررة أحادية الاتجاه لا يمكنها أن تأخذ هذه الأحداث في الحسبان في تنبؤاتها.

لنأخذ مصطلحا ، مثل "الشعور تحت الطقس" (feeling under the weather)، والذي يشيع استخدامه عندما يكون شخص ما مريضاً لمساعدتنا في تفسير الشبكات العصبية المتكررة. لكي يكون للمصطلح منطقيًا، يجب التعبير عنه بهذا الترتيب المحدد. ونتيجة لذلك، تحتاج الشبكات المتكررة إلى حساب موضع كل كلمة في المصطلح، وتستخدم تلك المعلومات للتنبؤ بالكلمة التالية في التسلسل.

كل كلمة في عبارة "الشعور تحت الطقس" هي جزء من تسلسل، حيث يكون الترتيب مهماً. تتعقب الشبكة العصبية المتكررة السياق من خلال الحفاظ على حالة مخفية في كل خطوة زمنية. يتم إنشاء حلقة التعليقات عن طريق تمرير الحالة المخفية من خطوة لمرة واحدة إلى أخرى. تعمل الحالة المخفية كذاكرة تخزن معلومات حول الإدخالات السابقة. في كل خطوة زمنية، تعالج الشبكة العصبية المتكررة الإدخال الحالي (على سبيل المثال، كلمة في جملة ما) إلى جانب الحالة المخفية من الخطوة الزمنية السابقة. يسمح هذا للشبكة العصبية المتكررة" بتذكر" نقاط البيانات السابقة واستخدام هذه المعلومات للتأثير على المخرجات الحالية.

السمة المميزة الأخرى للشبكات المتكررة هي أنها تشترك في المعلمات عبر كل طبقة من طبقات الشبكة. في حين أن الشبكات العصبية المغذية لها أوزان مختلفة عبر كل عقدة، فإن الشبكات العصبية المتكررة تشارك نفس معلمة الوزن داخل كل طبقة من الشبكة العصبية. ومع ذلك، لا تزال هذه الأوزان تخضع للتعديل من خلال عمليات النشر العكسي والانحدار التدريجي لتسهيل التعلم التعزيزي.

تستخدم الشبكة العصبية المتكررة خوارزميات الانتشار الأمامي والانتشار العكسي عبر خوارزمية الزمن (BPTT) لتحديد التدرجات (أو المشتقات)، والتي تختلف قليلاً عن الانتشار العكسي التقليدي لأنها خاصة ببيانات التسلسل. مبادئ BPTT هي نفسها مبادئ الانتشار الخلفي التقليدي، حيث يقوم النموذج بتدريب نفسه عن طريق حساب الأخطاء من طبقة الإخراج إلى طبقة الإدخال. تسمح لنا هذه الحسابات بضبط معلمات النموذج وملاءمتها بشكل مناسب. تختلف BPTT عن النهج التقليدي في أن BPTT تجمع الأخطاء في كل خطوة زمنية بينما لا تحتاج شبكات التغذية الأمامية إلى جمع الأخطاء لأنها لا تشترك في المعلمات عبر كل طبقة.

دوال التنشيط الشائعة

دالة التنشيط هي دالة رياضية تطبق على مخرجات كل طبقة من طبقات الخلايا العصبية في الشبكة لإدخال اللاخطية والسماح للشبكة بتعلم المزيد من الأنماط في البيانات. ومن دون دوال التنشيط، ستحسب الشبكة العصبية المتكررة ببساطة التحويلات الخطية للإدخال، مما يجعلها غير قادرة على التعامل مع المشكلات غير الخطية. تُعد اللاخطية أمرًا بالغ الأهمية لتعلم ونمذجة الأنماط المعقدة، لا سيما في مهام مثل البرمجة اللغوية العصبية وتحليل السلاسل الزمنية والتنبؤ بالبيانات المتسلسلة.

تتحكم دالة التنشيط في مقدار مخرجات الخلية العصبية، مما يحافظ على القيم ضمن نطاق محدد (على سبيل المثال، بين 0 و1 أو -1 و1)، مما يساعد على منع القيم من النمو بشكل كبير أو صغير جدًا أثناء التمريرات الأمامية والخلفية. في الشبكات العصبية المتكررة، يتم تطبيق دوال التنشيط في كل خطوة زمنية على الحالات المخفية، والتحكم في كيفية تحديث الشبكة لذاكرتها الداخلية (الحالة المخفية) استنادًا إلى الإدخال الحالي والحالات المخفية السابقة.

تتضمن دوال التنشيط الشائعة (الموضحة بصورة بعد ذلك) ما يلي:

تتمثل الدالة السيجيمية في تفسير المخرجات على أنها احتمالات أو بوابات تحكم تقرر مقدار المعلومات التي يجب الاحتفاظ بها أو نسيانها. ومع ذلك، فإن الدالة الجيبية معرضة لمشكلة تلاشي التدرج (الموضحة بعد ذلك)، مما يجعلها أقل مثالية للشبكات الأعمق.

دالة Tanh (الظل الزائدي) ، والتي تُستخدم غالبًا لأنها تُخرج قيمًا تتركز حول الصفر، مما يساعد على تدفق التدرج بشكل أفضل والتعلم الأسهل للتبعيات طويلة الأمد.

قد تتسبب وحدة ReLU (الوحدة الخطية المعدلة) في حدوث مشكلات مع التدرجات المتفجرة بسبب طبيعتها غير المحدودة. ومع ذلك ، فقد تم استخدام متغيرات مثل Leky ReLU وParametric ReLU للتخفيف من بعض هذه المشكلات.

لإلقاء نظرة عن قرب على كيفية عمل الشبكات العصبية المتكررة، راجع بحثنا المتعمق في الشبكات العصبية المتكررة.

أنواع الشبكات العصبية المتكررة

تقوم شبكات التغذية الأمامية بتعيين الإدخالات والمخرجات بصيغة واحد إلى واحد، وبينما تصورنا الشبكات العصبية المتكررة بهذه الطريقة في الرسوم البيانية قبل ذلك، فإنها لا تحتوي على هذا القيد. بدلاً من ذلك، يمكن أن تختلف إدخالها ومخرجاتها في الطول، ويتم استخدام أنواع مختلفة من الشبكات العصبية المتكررة لحالات الاستخدام المختلفة، مثل توليد الموسيقى وتصنيف المشاعر والترجمة الآلية. تشمل المتغيرات الشائعة لبنية الشبكة العصبية المتكررة ما يلي:

  • الشبكات العصبية المتكررة القياسية
  • الشبكات العصبية المتكررة ثنائية الاتجاه (BRRNs)
  • الذاكرة الطويلة قصيرة المدى (LSTM)
  • الوحدات المتكررة ذات البوابات (GNUs)
  • الشبكات العصبية المتكررة لبرامج التشفير - فك التشفير

الشبكات العصبية المتكررة القياسية

وتعاني النسخة الأساسية جدًا من الشبكات العصبية المتكررة، حيث تعتمد المخرجات في كل خطوة زمنية على كل من المدخلات الحالية والحالة المخفية من الخطوة الزمنية السابقة، من مشاكل مثل تلاشي التدرجات، مما يجعل من الصعب عليها تعلم التبعيات طويلة المدى. وهي تتفوق في المهام البسيطة ذات التبعيات قصيرة المدى، مثل التنبؤ بالكلمة التالية في الجملة (للجمل القصيرة والبسيطة) أو القيمة التالية في سلسلة زمنية بسيطة.

تُعد الشبكات العصبية المتكررة جيدة للمهام التي تعالج البيانات بشكل متسلسل في الوقت الفعلي، مثل معالجة بيانات المستشعرات للكشف عن الحالات الشاذة في أطر زمنية قصيرة، حيث يتم تلقي الإدخلات واحدًا تلو الآخر ويجب إجراء التنبؤات على الفور بناءً على أحدث الإدخلات.

الشبكات العصبية المتكررة ثنائية الاتجاه (BRNNs)

في حين أن الشبكات العصبية المتكررة أحادية الاتجاه لا يمكن استخلاصها إلا من المدخلات السابقة لوضع تنبؤات حول الحالة الحالية، فإن الشبكات العصبية المتكررة ثنائية الاتجاه أو BRNNs، تسحب البيانات المستقبلية لتحسين دقتها. وبالعودة إلى مثال "الشعور تحت الطقس"، يمكن للنموذج القائم على الشبكات العصبية المتكررة ثنائية الاتجاه أن يتنبأ بشكل أفضل بأن الكلمة الثانية في هذه العبارة هي "تحت" إذا كان يعلم أن الكلمة الأخيرة في التسلسل هي "الطقس".

الذاكرة الطويلة قصيرة المدى (LSTM)

LSTM هي بنية شبكة عصبية متكررة شائعة، تم تقديمها بواسطة Sepp Hochreiter وJuergen Schmidhuber كحل لمشكلة التدرج المتلاشي. عالج هذا العمل مشكلة التبعيات على المدى الطويل. بمعنى أنه، إذا لم تكن الحالة السابقة التي تؤثر على التنبؤ الحالي في الماضي القريب، فقد لا يتمكن نموذج الشبكة العصبية المتكررة من التنبؤ بدقة بالحالة الحالية.

على سبيل المثال ، لنفترض أننا أردنا التنبؤ بالكلمات المائلة في ، "سارة لديها حساسية من المكسرات. لا يمكنها تناول زبدة الفول السوداني." يمكن أن يساعدنا سياق حساسية الجوز في توقع أن الطعام الذي لا يمكن تناوله يحتوي على المكسرات. ومع ذلك، إذا كان هذا السياق قبل بضع جمل، فسيكون من الصعب أو حتى من المستحيل على الشبكة العصبية المتكررة ربط المعلومات.

ولعلاج هذه المشكلة، تحتوي شبكات LSTM على "خلايا" في الطبقات المخفية للشبكة العصبية، والتي تحتوي على 3 بوابات: بوابة إدخال وبوابة إخراج وبوابة نسيان. تتحكم هذه البوابات في تدفق المعلومات اللازمة للتنبؤ بالإخراج في الشبكة. على سبيل المثال، إذا تكررت ضمائر الجنس، مثل "هي"، عدة مرات في الجمل السابقة، فيمكنك استبعادها من حالة الخلية.

الوحدات المتكررة ذات البوابات (GRUs)

إن الوحدات المتكررة ذات البوابات (GRUs) تشبه LSTM لأنها تعمل أيضا على معالجة مشكلة الذاكرة قصيرة المدى لنماذج الشبكة العصبية المتكررة. وبدلًا من استخدام "حالة الخلية" لتنظيم المعلومات، فإنها تستخدم حالات مخفية، وبدلًا من 3 بوابات، لديها بوابتان: بوابة إعادة تعيين وبوابة تحديث. على غرار البوابات داخل LSTMs ، تتحكم بوابات إعادة التعيين والتحديث في مقدار المعلومات التي يجب الاحتفاظ بها.

نظرًا لبنيتها لأبسط، تُعد وحدات الوحدات المتكررة ذات البوابات (GRUs) أكثر كفاءة من الناحية الحسابية وتتطلب معلمات أقل مقارنةً بـ LSTMs. وهذا يجعلها أسرع في التدريب وغالباً ما تكون أكثر ملاءمة لبعض التطبيقات ذات الوقت الفعلي أو التطبيقات محدودة الموارد.

الشبكات العصبية المتكررة لبرامج التشفير - فك التشفير

تستخدم هذه بشكل شائع لمهام التسلسل إلى التسلسل، مثل الترجمة الآلية. يعالج برنامج التشفير تسلسل الإدخال إلى متجه ثابت الطول (سياق)، ويستخدم برنامج فك التشفير هذا السياق لتوليد تسلسل المخرجات. ومع ذلك، يمكن أن يكون متجه السياق ذو الطول الثابت عنق الزجاجة، خاصة بالنسبة لتسلسلات الإدخال الطويلة.

حدود الشبكات العصبية المتكررة

لقد انخفض استخدام الشبكات العصبية المتكررة في الذكاء الاصطناعي، وخاصة لصالح بنيات مثل نماذج المحولات، ولكن الشبكات العصبية المتكررة ليست قديمة. كانت الشبكات العصبية المتكررة شائعة في معالجة البيانات المتسلسلة (على سبيل المثال، السلاسل الزمنية ونمذجة اللغة) بسبب قدرتها على التعامل مع التبعيات الزمنية.

ومع ذلك، أدى ضعف الشبكات العصبية المتكررة أمام مشكلتي التلاشي والانفجار في التدرج، إلى جانب ظهور نماذج المحولات مثل BERT وGPT إلى هذا الانخفاض. يمكن للمحولات التقاط التبعيات طويلة المدى بشكل أكثر فعالية، كما يسهل تنفيذها بالتوازي وتعمل بشكل أفضل في المهام مثل معالجة اللغة الطبيعية والتعرف على الكلام بالتوقعات بالسلاسل الزمنية.

ومع ذلك، لا تزال الشبكات العصبية المتكررة تُستخدم في سياقات محددة حيث يمكن أن تكون طبيعتها المتسلسلة وآلية ذاكرتها مفيدة، خاصة في البيئات الأصغر حجماً ومحدودة الموارد أو للمهام التي تستفيد فيها معالجة البيانات من التكرار التدريجي.

بالنسبة لأولئك الذين يرغبون في تجربة حالات الاستخدام هذه، فإن Keras هي مكتبة مفتوحة المصدر شائعة الاستخدام، وهي مدمجة الآن في مكتبة TensorFlow، وتوفر واجهة Python للشبكات العصبية المتكررة. تم تصميم واجهة برمجة التطبيقات لسهولة الاستخدام والتخصيص، مما يتيح للمستخدمين تحديد طبقة خلية الشبكة العصبية المتكررة الخاصة بهم بسلوك مخصص.

Mixture of Experts | بودكاست

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم وهم يجتازون طريق الذكاء الاصطناعي لتزويدك بأحدث أخباره والمعارف المتعلقة به.