كالشبكات العصبية التقليدية، مثل الشبكات العصبية بالتغذية الأمامية والشبكات العصبية التلافيفية (CNNs) ، تستخدم الشبكات العصبية المتكررة بيانات التدريب للتعلم. تتميز "بذاكرتها" لأنها تأخذ المعلومات من الإدخالات السابقة للتأثير على الإدخال والمخرجات الحالية.
في حين تفترض شبكات التعلم العميق التقليدية أن المدخلات والمخرجات مستقلة عن بعضها البعض، فإن مخرجات الشبكات العصبية المتكررة تعتمد على العناصر السابقة داخل التسلسل. وفي حين أن الأحداث المستقبلية قد تكون مفيدة أيضًا في تحديد مخرجات تسلسل معين، إلا أن الشبكات العصبية المتكررة أحادية الاتجاه لا يمكنها أن تأخذ هذه الأحداث في الحسبان في تنبؤاتها.
لنأخذ مصطلحا ، مثل "الشعور تحت الطقس" (feeling under the weather)، والذي يشيع استخدامه عندما يكون شخص ما مريضاً لمساعدتنا في تفسير الشبكات العصبية المتكررة. لكي يكون للمصطلح منطقيًا، يجب التعبير عنه بهذا الترتيب المحدد. ونتيجة لذلك، تحتاج الشبكات المتكررة إلى حساب موضع كل كلمة في المصطلح، وتستخدم تلك المعلومات للتنبؤ بالكلمة التالية في التسلسل.
كل كلمة في عبارة "الشعور تحت الطقس" هي جزء من تسلسل، حيث يكون الترتيب مهماً. تتعقب الشبكة العصبية المتكررة السياق من خلال الحفاظ على حالة مخفية في كل خطوة زمنية. يتم إنشاء حلقة التعليقات عن طريق تمرير الحالة المخفية من خطوة لمرة واحدة إلى أخرى. تعمل الحالة المخفية كذاكرة تخزن معلومات حول الإدخالات السابقة. في كل خطوة زمنية، تعالج الشبكة العصبية المتكررة الإدخال الحالي (على سبيل المثال، كلمة في جملة ما) إلى جانب الحالة المخفية من الخطوة الزمنية السابقة. يسمح هذا للشبكة العصبية المتكررة" بتذكر" نقاط البيانات السابقة واستخدام هذه المعلومات للتأثير على المخرجات الحالية.
السمة المميزة الأخرى للشبكات المتكررة هي أنها تشترك في المعلمات عبر كل طبقة من طبقات الشبكة. في حين أن الشبكات العصبية المغذية لها أوزان مختلفة عبر كل عقدة، فإن الشبكات العصبية المتكررة تشارك نفس معلمة الوزن داخل كل طبقة من الشبكة العصبية. ومع ذلك، لا تزال هذه الأوزان تخضع للتعديل من خلال عمليات النشر العكسي والانحدار التدريجي لتسهيل التعلم التعزيزي.
تستخدم الشبكة العصبية المتكررة خوارزميات الانتشار الأمامي والانتشار العكسي عبر خوارزمية الزمن (BPTT) لتحديد التدرجات (أو المشتقات)، والتي تختلف قليلاً عن الانتشار العكسي التقليدي لأنها خاصة ببيانات التسلسل. مبادئ BPTT هي نفسها مبادئ الانتشار الخلفي التقليدي، حيث يقوم النموذج بتدريب نفسه عن طريق حساب الأخطاء من طبقة الإخراج إلى طبقة الإدخال. تسمح لنا هذه الحسابات بضبط معلمات النموذج وملاءمتها بشكل مناسب. تختلف BPTT عن النهج التقليدي في أن BPTT تجمع الأخطاء في كل خطوة زمنية بينما لا تحتاج شبكات التغذية الأمامية إلى جمع الأخطاء لأنها لا تشترك في المعلمات عبر كل طبقة.