ما المقصود بالتعلم العميق؟

ما المقصود بالتعلم العميق؟

التعلُّم العميق هو أحد فروع التعلُّم الآلي ويعتمد على الشبكات العصبية متعددة الطبقات المستوحاة من بنية الدماغ البشري. تدعم نماذج التعلم العميق معظم تقنيات الذكاء الاصطناعي اليوم، من رؤية الكمبيوتر والذكاء الاصطناعي التوليدي إلى السيارات ذاتية القيادة والتشغيل الآلي.

وعلى عكس المنطق الرياضي المحدد بشكل صريح لخوارزميات التعلُّم الآلي التقليدية، تتألف الشبكات العصبية الاصطناعية لنماذج التعلُّم العميق من العديد من الطبقات المترابطة من "الخلايا العصبية" التي يقوم كلٌّ منها بإجراء عملية رياضية. وباستخدام التعلُّم الآلي لضبط قوة الاتصالات بين الخلايا العصبية الفردية في الطبقات المجاورة - بمعنى آخر، أوزان النموذج المتغيرة والتحيزات - يمكن تحسين الشبكة لإنتاج مخرجات أكثر دقة. وعلى الرغم من أن الشبكات العصبية والتعلم العميق أصبحا مرتبطين ببعضهما ارتباطًا وثيقًا، فإنهما ليسا مترادفين تمامًا: إذ يشير مصطلح "التعلم العميق" إلى تدريب النماذج التي تحتوي على أربع طبقات على الأقل (على الرغم من أن بِنى الشبكات العصبية الحديثة غالبًا ما تكون "أعمق" من ذلك بكثير).

هذه البنية الموزَّعة والمرنة للغاية والقابلة للتعديل هي التي تفسر القوة المذهلة للتعلم العميق وتعدد استخداماته. تخيل بيانات التدريب كنقط بيانات متناثرة على رسم بياني ثنائي الأبعاد، وهدف تدريب النموذج هو العثور على خط يمر عبر كل نقطة من تلك النقاط. يهدف التعلُّم الآلي التقليدي بشكل أساسي إلى تحقيق ذلك باستخدام دالة رياضية واحدة تُنتِج خطًّا واحدًا (أو منحنًى واحدًا)؛ أما التعلم العميق، من ناحية أخرى، فيمكنه تجميع عدد عشوائي من الخطوط الأصغر حجمًا والقابلة للتعديل بشكل فردي لتشكيل الشكل المطلوب. الشبكات العصبية العميقة هي مقرّبات عامة؛ إذ ثبت نظريًا أنه يمكن لأي دالة رياضية أن تجد شبكة عصبية قادرة على تمثيلها.1

يتم تدريب نماذج التعلُّم العميق عادةً من خلال التعلُّم الخاضع للإشراف على البيانات المصنفة لأداء مهام الانحدار والتصنيف. ولكن نظرًا لأن الشبكات العصبية واسعة النطاق تتطلب عادةً كمية هائلة من بيانات التدريب للوصول إلى الأداء الأمثل، فإن التكلفة والجهد المبذول للحصول على مجموعة بيانات كبيرة من أمثلة التدريب الموضحة يمكن أن يكونا باهظين التكلفة. وقد أدَّى ذلك إلى تطوير تقنيات لتكرار مهام التعلم الخاضع للإشراف باستخدام بيانات غير مصنفة. لقد صاغ يان ليكون مصطلح التعلُّم الخاضع للإشراف الذاتي في أواخر العقد الثاني من القرن الحادي والعشرين لتمييز هذه الأساليب عن التعلُّم غير الخاضع للإشراف التقليدي. لقد ظهر التعلُّم الخاضع للإشراف الذاتي منذ ذلك الحين كأسلوب بارز لتدريب الشبكات العصبية، وخاصةً في نماذج الأساس التي تدعم الذكاء الاصطناعي التوليدي.

على الرغم من أن علماء البيانات قدموا الشبكات العصبية (أو المفاهيم المماثلة) في وقت مبكر من تاريخ التعلم الآلي، فإن الانطلاقة الحقيقية لم تبدأ بشكل جدي حتى أواخر العقد الأول من القرن الحادي والعشرين وأوائل العقد الثاني من القرن الحادي والعشرين. جاء انتشار الشبكات العميقة في معظم فروع التعلم الآلي نتيجة للتطور الكبير في وحدات معالجة الرسوميات عالية الأداء (GPUs)، التي مكّنت من تنفيذ عدد ضخم من العمليات الحسابية بشكل متوازٍ. ونظرًا لأن التعلُّم العميق يتطلّب قدرة حوسبية هائلة في مرحلتي التدريب والاستدلال، فقد أسهمت هذه التطورات في الأجهزة بشكل كبير في زيادة سرعة وكفاءة تطبيق نماذج التعلم العميق على نطاق واسع.

كيف يعمل التعلم العميق

تستلهم الشبكات العصبية الاصطناعية، بشكل عام، طريقة عمل الدوائر العصبية في الدماغ البشري، والتي يعتمد عملها على النقل المعقد للإشارات الكيميائية والكهربائية عبر شبكات موزعة من الخلايا العصبية (العصبونات). وفي التعلّم العميق، تُقابل هذه "الإشارات" مخرجات رياضية موزونة تنتج عن سلسلة متداخلة من العمليات الرياضية، تؤديها "خلية عصبية" اصطناعية (أو عقدة)، والتي تشكل مجتمعة الشبكة العصبية.

وباختصار، يمكن فهم نموذج التعلّم العميق على أنه سلسلة معقدة من المعادلات الرياضية المترابطة التي تربط بين المُدخلات والمخرجات. ومن خلال ضبط التأثير النسبي لكل معادلة ضمن هذه الشبكة باستخدام عمليات خاصة في التعلّم الآلي، يمكن تغيير الطريقة التي تُحوَّل بها المدخلات إلى مخرجات.

ورغم ما يتمتع به إطار العمل هذا من قوة ومرونة عالية، فإنه يأتي على حساب قابلية الفهم والتفسير.ففي الغالب لا يوجد تفسير بديهي - بخلاف التفسير الرياضي البحت - يوضح كيف تعبّر القيم التي تتعلمها الشبكة العصبية عن خصائص واقعية في البيانات. ولهذا السبب تُوصَف نماذج التعلّم العميق غالبًا بأنها "صناديق سوداء"، خصوصًا عند مقارنتها بأساليب التعلّم الآلي التقليدية التي تعتمد على هندسة السمات اليدوية.

بالنسبة إلى تقنيات التعلم الآلي الكلاسيكية، يتطلب التعلم العميق كمية كبيرة للغاية من البيانات والموارد الحاسوبية للتدريب. ونظرًا لتكلفة وتعقيد الأجهزة على مستوى المؤسسات اللازمة لتطوير وتنفيذ تطبيقات التعلم العميق المتطورة، أصبحت خدمات الحوسبة السحابية جزءًا لا يتجزأ من النظام البنائي للتعلم العميق.

بنية الشبكة العصبية العميقة

تتكون الشبكات العصبية الاصطناعية من طبقات مترابطة من "الخلايا العصبية" الاصطناعية (أو العقدة)، كل منها يقوم بعمليته الرياضية (تُسمَّى "دالة التنشيط"). توجد العديد من دوال التنشيط المختلفة؛ وغالبًا ما تتضمن الشبكات العصبية دوال تنشيط متعددة داخل بنيتها، ولكن عادةً ما يتم تعيين جميع الخلايا العصبية في طبقة معينة من الشبكة لأداء دالة التنشيط نفسها. وفي معظم الشبكات العصبية، تتصل كل خلية عصبية في طبقة الإدخال بكل خلية من الخلايا العصبية في الطبقة التالية، والتي تكون بدورها متصلة بالخلايا العصبية في الطبقة التي تليها، وهكذا.

تساهم مخرجات دالة التنشيط لكل عقدة بجزء من الإدخال المقدم لكل عقدة من عقد الطبقة التالية. والأهم من ذلك أن دوال التنشيط التي يتم إجراؤها في كل عقدة تكون غير خطية، ما يمكّن الشبكات العصبية من نمذجة الأنماط والتبعيات المعقدة. إن استخدام دوال التنشيط غير الخطية هو ما يميز الشبكة العصبية العميقة عن نموذج الانحدار الخطي (المعقد للغاية).

بينما تستلزم بعض بُنى الشبكات العصبية المتخصصة، مثل نماذج مجموعة متنوعة من الخبراء أو الشبكات العصبية الالتفافية، وجود اختلافات أو إضافات أو استثناءات لهذا الترتيب، فإن كل الشبكات العصبية تستخدم بعض إصدارات هذا الهيكل الأساسي. والعدد المحدد للطبقات، وعدد العقدة داخل كل طبقة، ودوال التنشيط المختارة لعقد كل طبقة هي معلمات فائقة يتم تحديدها يدويًا قبل التدريب.

رسم تخطيطي لشبكة عصبية تحتوي على ثلاث طبقات مخفية: طبقة الإدخال، عدة طبقات مخفية، وطبقة الإخراج. شبكة عصبية تقليدية من النوع الأمامي تحتوي على ثلاث طبقات مخفية.

كل واحد من هذه الروابط العديدة بين الخلايا العصبية يُضرب في وزن فريد، يعمل على تضخيم أو تقليل تأثير كل ارتباط. ويمكن فهم الإدخال المقدم إلى دالة التنشيط لكل خلية عصبية على أنها المجموع المرجح لمخرجات كل خلية عصبية في الطبقة السابقة. وعادةً ما يُضاف أيضًا مصطلح تحيّز لكل دالة تشيط، يعمل بطريقة مشابهة لمصطلح التحيّز في دوال الانحدار التقليدية.

في أثناء التدريب، الشبكة العصبية "تتعلم" من خلال إجراء تعديلات على كل من هذه الأوزان وحدود التحيز التي تنتج مخرجات أكثر دقة. هذه هي معلمات النموذج: عندما تقرأ، على سبيل المثال، عن نموذج لغوي كبير (LLM) يحتوي على 8 مليارات "معلمة"، فإن هذا الرقم يعكس كل ارتباط مرجح بين الخلايا العصبية والتحيز الخاص بالخلايا العصبية في الشبكة العصبية للنموذج.

أما الطبقات الوسيطة، التي تُسمَّى الطبقات المخفية في الشبكة، فهي المكان الذي يحدث فيه معظم التعلم. إن تضمين طبقات مخفية متعددة هو ما يميز نموذج التعلم العميق عن الشبكة العصبية "غير العميقة"، مثل آلة بولتزمان المقيدة (RBN) أو المستقبِل متعدد الطبقات القياسي (MLP). يسمح وجود طبقات مخفية متعددة لنموذج التعلم العميق بتعلّم الميزات الهرمية المعقدة للبيانات، حيث تحدد الطبقات الأولى الأنماط الأوسع نطاقًا والطبقات الأعمق الأنماط الأكثر دقة.

لإجراء الاستدلال، تكمل الشبكة تمريرة أمامية: تتلقى طبقة الإدخال بيانات الإدخال، عادةً في شكل تضمين متجه، بحيث تقوم كل خلية في طبقة الإدخال بمعالجة سمة واحدة من سمات هذا المتجه. على سبيل المثال، النموذج الذي يعمل مع صور ذات تدرج رمادي 10 × 10 بكسل سيحتوي عادةً على 100 خلية عصبية في طبقة الإدخال الخاصة به، مع كل خلية عصبية مدخلة تقابل بكسل فرديًا. وبالتالي، تتطلب الشبكات العصبية عادةً أن تكون متجهات الإدخال ثابتة بحجم معين، على الرغم من أن تقنيات المعالجة المسبقة مثل التجميع أو التطبيع يمكن أن توفر بعض المرونة فيما يتعلق بحجم بيانات الإدخال الأصلية نفسها.

يتم تحويل البيانات تدريجيًا وتمريرها إلى عقد كل طبقة لاحقة حتى الطبقة النهائية. تحسب دوال تنشيط الخلايا العصبية في طبقة الإخراج التنبؤ النهائي إخراج الشبكة. على سبيل المثال، قد تقوم كل عقدة إخراج لنموذج تصنيف عميق بأداء دالة softmax التي تأخذ في الأساس مدخلات رقمية وتقيسها إلى احتمالية، بين 0-1، بأن المدخلات تنتمي إلى فئة تصنيف محتملة. ثم يقوم النموذج بإخراج الفئة المقابلة للعقدة التي تعطي أعلى مخرجات.

تدريب الشبكات العصبية العميقة

على الرغم من أن الإمكانات النظرية للشبكات العصبية العميقة كانت واضحة دائمًا، فإنه لم يكن معروفًا في البداية كيفية التدريب بكفاءة. إن الهدف من تحسين معلمات النموذج من خلال التدريب هو تقليل الخطأ في المخرجات النهائية للشبكات العصبية، ولكن عزل وحساب كيفية مساهمة كل من آلاف، إن لم يكن ملايين أو مليارات، الأوزان المترابطة في الشبكات العصبية في الخطأ الكلي بشكل منفصل أمر غير عملي تمامًا.

تم التغلب على هذه العقبة من خلال إدخال خوارزميتين أساسيتين: الانتشار الخلفي والانحدار التدرجي.

الانتشار الخلفي

الانتشار الخلفي، وهو اختصار لـ "الانتشار الخلفي للخطأ"، هو أسلوب أنيق لحساب كيفية تأثير التغييرات في أي وزن أو تحيز فردي في الشبكة العصبية على دقة تنبؤات النموذج.

تذكّر أن الشبكة العصبية الاصطناعية هي في الأساس سلسلة من الدوال الرياضية المتداخلة: تعمل مخرجات إحدى الطبقات العصبية كإدخال للخلايا العصبية للطبقة التالية، وهكذا. في أثناء التدريب، يتم تضمين هذه المعادلات المترابطة في دالة أخرى تُعرف باسم دالة الخسارة التي تقيس الفرق المتوسط (أو "الخسارة") بين الناتج المطلوب (أو "الحقيقة الأساسية") لإدخال معين والناتج الفعلي للشبكة العصبية لكل تمريرة أمامية.

بمجرد تحديد المستويات فائقة الأولية للنموذج، يبدأ التدريب عادةً بتهيئة عشوائية لمعلمات النموذج. ويقوم النموذج بعمل تنبؤات على مجموعة من الأمثلة من مجموعة بيانات التدريب وتتتبع دالة الخسارة خطأ كل تنبؤ. ويكمن هدف عملية التدريب في تحسين المعلمات تدريجيًا حتى يتم تقليل متوسط الخسارة إلى ما دون الحد المقبول.

يستلزم الانتشار الخلفي تمريرًا خلفيًا واحدًا من طرف إلى طرف عبر الشبكة، بدءًا من مخرجات دالة الخسارة والعمل على طول الطريق إلى طبقة الإدخال. وباستخدام قاعدة السلسلة في حساب التفاضل، يحسب الانتشار الخلفي "تدرج" دالة الخسارة: متجهًا من المشتقات الجزئية لدالة الخسارة بالنسبة لكل متغير في كل معادلة تتداخل في النهاية مع حساب دالة الخسارة. بعبارة أخرى، إنها تصف كيف ستؤثر زيادة أو نقصان مخرجات أي دالة تنشيط فردية لأي خلية عصبية في الخسارة الكلية، والتي تصف بالتبعية كيف ستؤدي أي تغييرات في أي من الأوزان المضروبة في أي من المخرجات (أو في حدود التحيز المضافة إلى تلك المخرجات) إلى زيادة الخسارة أو نقصانها.

الانحدار التدرجي

ثم يقدم التدرج المحسوب في أثناء الانتشار الخلفي إدخالًا لخوارزمية الانحدار التدرجي.

سيؤدي التحرك لأسفل - الانحدار - في تدرج دالة الخسارة إلى تقليل الخسارة (وبالتالي زيادة الدقة). ونظرًا لأن التدرج المحسوب في أثناء الانتشار الخلفي يحتوي على المشتقات الجزئية لدالة الخسارة بالنسبة لكل معلمة نموذج، يمكننا معرفة الاتجاه الصحيح الذي يجب أن “نخطو” نحوه لتعديل قيمة كل معلَّمة بما يحقق تقليل الخسارة.

تستلزم كل خطوة تحديثًا لمعلمات النموذج، وتعكس "تعلم" النموذج من بيانات التدريب الخاصة به. هدفنا هو تحديث الترجيحات بشكل متكرر حتى نصل إلى الحد الأدنى للتدرج. والغاية من خوارزميات الانحدار التدرجي هي العثور على تعديلات المعلمات المحددة التي "ستُخفِض" التدرج بشكل أكثر كفاءة.

تنفيذ نماذج التعلُّم العميق

هناك عدد من إطارات العمل مفتوحة المصدر لتطوير نماذج التعلُّم العميق، سواء من خلال تدريب نموذج من الصفر أو إجراء ضبط دقيق لنموذج مدرَّب مسبقًا. توفر مكتبات التعلم الآلي مجموعة متنوعة من الوحدات النمطية وعمليات سير العمل المعدة مسبقًا لبناء الشبكات العصبية وتدريبها وتقييمها، ما يؤدي إلى تبسيط عملية التطوير

من بين أُطر العمل مفتوحة المصدر الأكثر شيوعًا للعمل مع خوارزميات التعلُّم العميق هي PyTorch وTensorFlow ومكتبة Hugging Face Transformers (خاصةً للنماذج اللغوية الكبيرة). من المستحسن تعلُّم لغة Python قبل العمل مع أُطر العمل هذه.

أنواع نماذج التعلم العميق

على الرغم من قوتها وإمكاناتها الكامنة، يظل الأداء المناسب في بعض المهام إما مستحيلًا وإما غير عملي بالنسبة للشبكات العصبية العميقة التقليدية ("vanilla"). وقد شهدت العقود الأخيرة العديد من الابتكارات في بنية الشبكة العصبية القياسية، يهدف كل منها إلى تحسين الأداء في مهام وأنواع معينة من البيانات.

تجدر الإشارة إلى أن نوعًا معينًا من الشبكات العصبية قد يصلح لأنواع متعددة من نماذج التعلم العميق، والعكس صحيح. فعلى سبيل المثال، قد يستفيد نموذج تشفير تلقائي مستخدم في مهام الصور من بنية قائمة على شبكة عصبية، ويمكن لنماذج الانتشار أن تستخدم بنية قائمة على شبكة عصبية أو بنية قائمة على المحولات.

الشبكات العصبية (CNNs)

الشبكات العصبية الالتفافية (CNNs) ترتبط بشكل أساسي (ولكن ليس حصرًا) بمهام رؤية الكمبيوتر مثل كشف الأجسام، والتعرف على الصور، وتصنيف الصور وتجزئة الصور؛ لأنها تتفوق في التعرف على الأنماط "المحلية" (مثل العلاقات بين وحدات البكسل المجاورة في الصورة).

كان الحدس الكامن وراء تطوير الشبكات العصبية الالتفافية هو أنها بالنسبة لبعض المهام وطرائق البيانات - مثل تصنيف الصور عالية الدقة بمئات أو آلاف البكسلات - فإن الشبكات العصبية ذات الحجم الكافي التي تضم طبقات قياسية متصلة فقط سيكون لها الكثير من المعلمات التي لا يمكن تعميمها بشكل جيد على البيانات الجديدة بعد التدريب. بعبارة أخرى، ستكون غير فعّالة حسابيًا وعرضة للمبالغة في ملاءمة بيانات التدريب بدلًا من تعلم أنماط العالم الحقيقي المفيدة حقًا.

من الناحية النظرية، يمكن للشبكة العصبية التي يمكنها كشف السمات المميزة وغيرها من السمات ذات المغزى أن توفر الطاقة الحاسوبية من خلال استخراج السمات المذكورة من الصورة الخام لمزيد من المعالجة (وتجاهل المعلومات حول مناطق الصورة التي لا تحتوي على سمات ذات مغزى). وتتمثل إحدى طرق القيام بذلك في استخدام المرشحات: مصفوفات صغيرة ثنائية الأبعاد من الأرقام التي تتوافق قيمها مع شكل السمات المفيدة. على سبيل المثال، قد تبدو قيم مرشح يقوم بمسح وحدات بكسل الصورة بحثًا عن الزوايا العلوية اليسرى كما يلي:

 [1010101010100000100000100000100000]


تخيل الآن أن المرشح 5x5 يتم ضربه بشبكة 5x5 من البكسل في صورة الإدخال. في اللغة الرياضية، يُسمَّى هذا الالتفاف: عملية رياضية حيث تقوم إحدى الدوال بتعديل (أو التفاف) دالة ثانية. إذا كانت قيم البيكسلات تشبه قيم مرشح، فسيكون حاصل ضرب هذا الضرب (حاصل الضرب النقطي) كبيرًا وسيتم التقاط الميزة التي تمثلها تلك البيكسلات؛ وإذا لم يكن كذلك، فسيكون حاصل الضرب النقطي صغيرًا وسيتم تجاهل البكسلات.

 

رسم تخطيطي للتدوير في شبكة عصبية التفافية مع قسم صغير من قيم بكسلات الصورة (يسار) مضروبة في مرشح التفافي (وسط)، ما ينتج عنه تمثيل أقل بعدًا للبكسلات الأصلية (يمين) يعكس كيف تشبه البكسلات الأصلية المعلومات التي يمثلها المرشح    مخطط يوضّح عملية الالتفاف (Convolution) في الشبكات العصبية الالتفافية (Convolutional Neural Networks)، حيث يتم ضرب جزء صغير من قيم بكسلات الصورة (في الجهة اليسرى) بمرشح الالتفاف (في المنتصف)، لينتج تمثيل ذو أبعاد أقل (في الجهة اليمنى) يعكس مدى تشابه البكسلات الأصلية مع النمط أو المعلومة التي يمثّلها المرشح. يتم ضرب جزء صغير من قيم البكسل للصورة (على اليسار) بمرشح الالتفاف (في الوسط)، ما ينتج عنه تمثيل أقل بعدًا لوحدات البكسل الأصلية (على اليمين) يعكس كيفية تشابه وحدات البكسل الأصلية للمعلومات التي يمثلها المرشح.

تضيف الشبكات العصبية الالتفافية طبقات الالتفاف، التي تحتوي على عقد أقل بكثير من الطبقات القياسية المتصلة بالكامل التي تعمل كمرشحات من هذا القبيل. وبدلًا من طلب عقدة فريدة (بوزن فريد) تتوافق مع كل بكسل فردي في الصورة، فإن مرشح طبقة الالتفاف يسير على طول الصورة بأكملها، ويعالج شبكة واحدة من البكسلات ذات الحجم المتوافق في كل مرة. لا يؤدي هذا إلى استخراج المعلومات المفيدة فحسب، بل يقلل أيضً ا بشكل كبير من عدد معلمات النموذج الفريدة المطلوبة لمعالجة الصورة بأكملها.

عادةً ما تكون الشبكات العصبية الالتفافية "أعمق" بكثير (من حيث عدد الطبقات) من الشبكات العصبية، ولكن، لأن طبقات الالتفاف تحتوي على عدد قليل نسبيًا من الخلايا العصبية، لا تزال فعالة من حيث إجمالي عدد المعلمات. في أثناء عبور البيانات عبر شبكة عصبية التفافية، تستخرج كل طبقة من الطبقات الالتفافية ميزات أكثر دقة تدريجيًا، ما يؤدي إلى تجميع "خريطة سمة". يتم تمرير خريطة السمة النهائية في النهاية إلى طبقة قياسية متصلة بالكامل تقوم بتنفيذ التنبؤات النهائية. وفي التدريب، يتعلم النموذج بشكل طبيعي أوزانًا لطبقات الالتفاف التي تؤدي إلى التقاط مرشحاتهم للميزة التي تؤدي إلى النتائج النهائية الدقيقة.

الشبكات العصبية المتكررة (RNNs)

الشبكات العصبية المتكررة (RNNs) تُستخدم للمهام التي تتضمن بيانات متسلسلة، مثل التنبؤ بالسلاسل الزمنية، أو التعرف على الكلام، أو معالجة اللغة الطبيعية (NLP).

وفي حين أن الشبكات العصبية التقليدية تقوم بتعيين إدخال واحد لمخرج واحد، فإن الشبكات العصبية المتكررة تقوم بتعيين سلسلة من الإدخالات لمخرج واحد من خلال العمل في حلقة متكررة حيث يعمل مخرج خطوة معينة في تسلسل الإدخال كإدخال لحساب الخطوة التالية. في الواقع، يؤدي هذا إلى إنشاء "ذاكرة" داخلية للإدخالات السابقة، والتي تُسمَّى بالحالة المخفية. يتم تحديث هذه الحالة المخفية بعد كل خطوة زمنية، وتسمح هذه الحالة المخفية لشبكة عصبية متكررة بالحفاظ على فهم السياق والترتيب.

في حين أن مفهوم طبقة واحدة "مجمّعة" مفيد لفهم المفهوم، يمكن أيضًا فهم هذا التكرار على أنه بيانات تُشارك سلسلة من الطبقات المتعددة التي تشترك في أوزان متطابقة.

رسم تخطيطي لشبكة عصبية متكررة شبكة عصبية متكررة، معروضة بشكل "مجمّع" و"مفكّك".

هذا يؤدي إلى بعض أوجه القصور الأساسية في الشبكات العصبية المتكررة التقليدية، لا سيما فيما يتعلق بالتدريب. تذكّر أن الانتشار الخلفي يحسب تدرج دالة الخسارة، وهو ما يحدد كيفية زيادة أو تقليل كل معلمة نموذجية فردية. عندما يتكرر كل تحديث من تحديثات المعلمات هذه عبر عدد كبير جدًا من الطبقات المتكررة "المتطابقة"، فإن هذه التحديثات تتوسع بشكل كبير: يمكن أن يؤدي تكبير المعلمات إلى انفجار التدرج، ويمكن أن يؤدي تقليل المعلمات إلى تلاشي التدرجات . يمكن أن تؤدي كلتا المسألتين إلى عدم الاستقرار في التدريب أو التدريب البطيء أو حتى إيقاف التدريب تمامًا. وبالتالي فإن الشبكات العصبية المتكررة القياسية تقتصر على معالجة التسلسلات القصيرة نسبيًا.

التحسينات المختلفة على بنية الشبكة العصبية المتكررة الأساسية، مثل شبكات الذاكرة طويلة المدى قصيرة (LSTM) أو الوحدات المتكررة المسورة (GRUs)، تخفف من هذه المشكلات وتزيد من قدرة النموذج على نمذجة التبعيات طويلة المدى.

المشفِّرات الذاتية

تم تصميم نماذج التشفير التلقائي لضغط (أو تشفير) بيانات الإدخال، ثم إعادة بناء (فك تشفير) الإدخال الأصلي باستخدام هذا التمثيل المضغوط. في التدريب، يتم تحسينها لتقليل خسارة إعادة البناء: التباعد بين نقطة البيانات المعاد بناؤها وبيانات الإدخال الأصلية. على الرغم من أن هذا النوع من التعلم العميق يستخدم بيانات غير مصنفة وغير منظمة، فإن نماذج التشفير التلقائي تُعتبر بشكل عام مثالًا نموذجيًا للتعلم الخاضع للإشراف الذاتي.

رسم تخطيطي لنموذج تشفير تلقائي

في الأساس، يُجبر هذا النموذج على تعلم الأوزان التي تؤدي إلى احتفاظ التمثيل المضغوط بالمجموعة الفرعية الأكثر أهمية وذات المغزى من سمات الإدخال. في لغة التعلم الآلي، تقوم نماذج التشفير التلقائي بنمذجة الفضاء الكامن.

تحتوي نماذج التشفير التلقائي على مجموعة متنوعة من حالات الاستخدام، مثل ضغط البيانات، وتقليل الأبعاد، واستخراج السمات، وإزالة الضوضاء من البيانات التالفة، وكشف الاحتيال.

في معظم الحالات، تعمل شبكة فاك التشفير فقط للمساعدة في تدريب المشفِر ويتم التخلص منها بعد التدريب. في نماذج التشفير التلقائي المتغير (VAEs)، وهي نوع من النماذج التوليدية، يتم الاحتفاظ بفاك التشفير واستخدامه لإنشاء نقاط بيانات جديدة عن طريق إضافة بعض الضوضاء العشوائية إلى التمثيلات الكامنة التي تعلمها المشفِر قبل إعادة البناء.

نماذج المحولات

كان ظهور نماذج المحولات، والتي تم تقديمها لأول مرة في ورقة بحثية رائدة من Google DeepMind عام 2017 بعنوان “Attention is all you need” (PDF), ، بمثابة لحظة فاصلة في التعلم العميق والتي أدت مباشرةً إلى العصر الحالي من الذكاء الاصطناعي التوليدي.

على غرار الشبكات العصبية المتكررة، صُممت المحولات بطبيعتها للعمل مع البيانات المتسلسلة. الميزة المميزة لنماذج المحولات هي آلية الاهتمام الذاتي الفريدة الخاصة بها، والتي تستمد منها المحولات قدرتها المذهلة على تمييز العلاقات (أو التبعيات) بين كل جزء من تسلسل الإدخال. والأهم من ذلك أن آلية الانتباه هذه تمكّن المحولات من التركيز بشكل انتقائي على أجزاء الإدخال الأكثر أهمية (أو "الانتباه لها") في أي لحظة معينة.

تم تقديم آليات الاهتمام لأول مرة في سياقات الشبكات العصبية المتكررة المستخدمة في الترجمة الآلية. لكن على عكس الشبكات العصبية المتكررة، لا تستخدم المحولات طبقات متكررة؛ حيث تستخدم بنية المحول القياسية طبقات الانتباه وطبقات التغذية الأمامية القياسية فقط، مستفيدة من بنية جديدة مستوحاة من منطق قواعد البيانات العلائقية.

ترتبط المحولات عادةً بالنماذج اللغوية الكبيرة، ومن خلال الارتباط، وحالات استخدام معالجة اللغة الطبيعية مثل إنشاء النصوص، والروبوتات المحادثة، وتحليل المشاعر. لكنها نماذج متعددة الاستخدامات للغاية وقادرة على معالجة أي نمط بيانات متسلسلة، بما في ذلك البيانات الصوتية أو بيانات السلاسل الزمنية . حتى طرائق البيانات مثل بيانات الصورة يمكن معالجتها بواسطة محولات الرؤية (ViTs) من خلال حلول ذكية لتمثيلها كتسلسل.

على الرغم من أن نماذج المحولات حققت أحدث النتائج في كل مجال من مجالات التعلم العميق تقريبًا، فإنها ليست بالضرورة الخيار الأمثل لجميع حالات الاستخدام. على سبيل المثال، في حين أن محولات الرؤية حققت أعلى مراتب الأداء في معايير الأداء لمهام رؤية الكمبيوتر، فإن الشبكات العصبية الالتفافية أسرع بكثير وأكثر كفاءة من الناحية الحسابية. بالنسبة لمهام مثل كشف الاجسام أو تجزئة الصور، غالبًا ما يعود الاختيار بين محول أو شبكة عصبية التفافية إلى إذا ما كان التطبيق يجب أن يعطي الأولوية لأقصى قدر من الدقة أم التعليقات في الوقت الفعلي.

نماذج Mamba

تم تقديم نماذج Mamba لأول مرة في عام 2023، وهي عبارة عن بنية تعلم عميق جديدة للبيانات المتسلسلة. مشتق من مجموعة متنوعة من نماذج الحالة المكانية(SSMs)، يمتلك نموذج Mamba اتصالات نظرية مثيرة للاهتمام مع الشبكات العصبية المتكررة والشبكات العصبية الالتفافية ونماذج المحولات. وأهم من ذلك، يشارك نموذج Mamba مع المحولات القدرة على تحديد أولويات (أو تجاهل) المعلومات السابقة بشكل انتقائي بناءً على أهميتها في لحظة معينة، وإن كان ذلك بآلية فريدة تمامًا.

حتى الآن، ربما يكون نموذج Mamba هو البنية الوحيدة التي تنافس المحولات بشكل هادف في مجال النماذج اللغوية الكبيرة، حيث تقدم أداءً مماثلًا مع كفاءة حسابية أكبر بكثير بسبب خوارزميتها الأقل استهلاكًا للذاكرة.

الشبكات التنافسية التوليدية (GANs)

مثل نماذج التشفير التلقائي المتغير، تُستخدم الشبكات التنافسية التوليدية (GANs) وهي شبكات عصبية لإنشاء بيانات جديدة تشبه بيانات التدريب الأصلية. الشبكات التنافسية التوليدية عبارة عن بنية مشتركة تجمع بين شبكتي تعلُّم عميق مدرّبتين على نحوٍ عدائي في لعبة محصلتها صفر.

  • تنشئ شبكة المولِّد نقاط بيانات جديدة، مثل الصور الأصلية. يمكن استخدام أي بنية توليدية قادرة على إنتاج الإخراج المطلوب لشبكة مولِّد شبكات تنافسية توليدية. السمة الوحيدة المميزة لها هي كيفية تفاعلها مع المميِّز، ومتطلبها الوحيد هو أن تكون الخوارزمية قابلة للاشتقاق (وبالتالي يمكن تحسينها من خلال الانتشار الخلفي والانحدار التدرجي).

  • يتم تزويد المُميّز بصور "حقيقية" من مجموعة بيانات التدريب وصور "مزيفة" من قبل المواد، ويُكلّف بتحديد إذا ما كانت الصورة حقيقية أم مزيفة. مثل المولِّد، يمكن أن يتخذ المُميِّز شكل أي بنية مناسبة. 

  • أولًا، يتم تدريب المميّز على تصنيف الصور المزيفة بشكل صحيح. خلال تلك الفترة، يتم تجميد أوزان المولِّد.

  • بعد ذلك، يتم تجميد أوزان المميّز ويتم استخدام التعليقات من المميّز لتدريب المولِّد. تم تحسين أوزان المولِّد لإنتاج صور من المرجح أن تخدع المميز. 

  • تتكرر العملية: يتلقى المُميِّز مجموعة أخرى من الصور "الحقيقية" من بيانات التدريب والصور "المزيفة" من المولِّد - والتي يفترض الآن أنها أكثر إقناعًا. يتنبأ المميّز مرة أخرى بإذا ما كانت كل صورة حقيقية أم مزيفة ويتم تحديثه مرة أخرى.

  • مرة أخرى، يتم استخدام التعليقات من المُميِّز (الذي يُفترض أنه أصعب في الخداع) لتعليم المولِّد بشكل أكبر.

  • تستمر العملية بشكل متكرر حتى لا يتمكن المُميِّز من التمييز بين العينات الحقيقية والمزيفة.

الشبكات التنافسية التوليدية قادرة على تعلم إنتاج أمثلة دقيقة بشكل لا يصدق، لكن الطبيعة العدائية للعملية تجعل التدريب صعبًا وغير مستقر بطبيعته.

نماذج الانتشار

تُعدّ نماذج الانتشار من بين أبرز هياكل الشبكات العصبية في الذكاء الاصطناعي التوليدي. فكلاهما عمليَّان وعالِيا الأداء، ويوفِّرَان استقرار التدريب لنماذج التشفير التلقائي المتغير ودقة الإخراج للشبكات التنافسية التوليدية. يتم استخدامها بشكل شائع لإنشاء الصور، ولكنهما قادران أيضًا على إنشاء بيانات نصية وصوتية وفيديو.

مثل نماذج التشفير التلقائي، يتم تدريب نماذج الانتشار بشكل أساسي على تدمير الصورة ثم إعادة بنائها بدقة، وإن كان ذلك بطريقة مختلفة تمامًا. في التدريب، تتعلم نماذج الانتشار نشر نقطة بيانات تدريجيًا خطوة بخطوة مع الضوضاء الغاوسية، ثم عكس هذه العملية لإعادة بناء الإدخال الأصلي. ومن خلال القيام بذلك، تكتسب القدرة على توليد عينات جديدة (تشبه بيانات التدريب الأصلية) عن طريق "إضعاف" عينة من الضوضاء العشوائية.

إن نماذج الانتشار الكامن هي في الأساس مزيج من نماذج التشفير التلقائي المتغير ونماذج الانتشار: فهي تقوم أولًا بإدخال بيانات إلى الفضاء الكامن، ثم إجراء عملية الانتشار، ثم تغذية النتيجة إلى فاك تشفير يقوم بتحويلها إلى حجم الصورة المطلوب.

بينما تستخدم نماذج الانتشار عادةً بنية قائمة على شبكة عصبية التفافية - وتحديدًا بنية U-net المستخدمة بشكل بارز في التجزئة في التصوير الطبي - إلا أن بعضها يستخدم بنية قائمة على المحولات بدلًا من ذلك.

الشبكات العصبية البيانية

تم تصميم الشبكات العصبية الرسومية للمهام التي تتطلب نمذجة علاقات أكثر تعقيدًا بين كيانات مختلفة مما هو معتاد في معظم وسائط البيانات.

ضع في اعتبارك بيانات الصورة، حيث يتم ترتيب وحدات البكسل في الصورة في شبكة ثنائية الأبعاد: أي بكسل واحد متصل مباشرةً ب 8 وحدات بكسل متجاورة على الأكثر. إن CNN القياسية مناسبة تمامًا لنمذجة مثل هذه العلاقات. لكن هذه القدرة تمتد بشكل سيئ إلى نمذجة العلاقات داخل شبكة التواصل الاجتماعي على سبيل المثال، حيث قد يكون مستخدم معين متصلاً بشكل مباشر بآلاف المستخدمين الآخرين وبشكل غير مباشر بآلاف آخرين.

وتسمح بنية الشبكات العصبية الرسومية بتمثيلات أكثر تعقيدًا وغير منتظمة للبيانات مما هو ممكن في التدفق الأحادي الاتجاه للبيانات المتأصل في بنيات الشبكات العصبية الأخرى.

Mixture of Experts | 12 ديسمبر، الحلقة 85

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا
الحواشي

1 Leshno, M., Lin, V.Y., Pinkus, A. and Schocken, S. “Multilayer feedforward networks with a nonpolynomial activation function can approximate any function” (PDF). New York University, March 1992.