ما هي الشبكات العصبية التلافيفية؟

ما هي الشبكات العصبية التلافيفية؟

تستخدم الشبكات العصبية التلافيفية بيانات ثلاثية الأبعاد لتصنيف الصور ومهام التعرف على الكائنات.

الشبكات العصبية هي مجموعة فرعية من التعلم الآلي، وهي جوهر خوارزميات التعلم العميق. وهي تتألف من طبقات العقد، وتحتوي على طبقة إدخال، وطبقة مخفية واحدة أو أكثر، وطبقة إخراج. كل عقدة تتصل بأخرى ويكون لها وزن وحد مرتبطين بها. إذا كان ناتج أي عقدة فردية أعلى من قيمة الحد المحدد، يتم تنشيط تلك العقدة، وإرسال البيانات إلى الطبقة التالية من الشبكة. وإلا فلن يتم تمرير أي بيانات إلى الطبقة التالية من الشبكة.

على الرغم من أننا ركزنا في المقام الأول على الشبكات التلقائية في تلك المقالة، إلا أن هناك أنواعًا مختلفة من الشبكات العصبية التي تُستخدم في حالات استخدام وأنواع بيانات مختلفة. على سبيل المثال، تُستخدم الشبكات العصبية المتكررة بشكل شائع في معالجة اللغة الطبيعية والتعرف على الكلام، في حين أن الشبكات العصبية التلافيفية (ConvNets أو الشبكة العصبية التلافيفية (CNNs)) تُستخدم في كثير من الأحيان في مهام التصنيف ورؤية الكمبيوتر. قبل الشبكات العصبية التلافيفية (CNNs)، تم استخدام طرق استخراج الميزات اليدوية التي تستغرق وقتا طويلاً لتحديد الكائنات في الصور. ومع ذلك، توفر الشبكات العصبية التلافيفية الآن نهجًا أكثر قابلية للتوسع لتصنيف الصور ومهام التعرف على الأشياء، والاستفادة من مبادئ الجبر الخطي، وتحديدًا ضرب المصفوفات، لتحديد الأنماط داخل الصورة. ومع ذلك ، يمكن أن تكون متطلبة من الناحية الحسابية، وتتطلب وحدات معالجة رسومية (GPUs) لتدريب النماذج.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

كيف تعمل الشبكات العصبية التلافيفية؟

تتميز الشبكات العصبية التلافيفية عن الشبكات العصبية الأخرى بأدائها المتفوق مع إدخالات الصور أو الكلام أو الإشارات الصوتية. لديها ثلاثة أنواع رئيسية من الطبقات، وهي:

  • الطبقة التلافيفية
  • طبقة التجميع
  • طبقة متصلة بالكامل (FC)

الطبقة التلافيفية هي الطبقة الأولى من الشبكة التلافيفية. بينما يمكن أن يتبع الطبقات التلافيفية طبقات تلافيفية إضافية أو طبقات تجميع، فإن الطبقة المتصلة بالكامل هي الطبقة النهائية. مع كل طبقة، تزداد الشبكة العصبية التلافيفية في تعقيدها، وتحدد أجزاء أكبر من الصورة. تُركّز الطبقات الأولى على الميزات البسيطة، مثل الألوان والحافة. مع تقدم بيانات الصورة عبر طبقات الشبكة العصبية التلافيفية، تبدأ في التعرف على العناصر أو الأشكال الأكبر من الجسم حتى تتعرف في النهاية على الجسم المقصود.

الطبقة التلافيفية

الطبقة التلافيفية هي اللبنة الأساسية للشبكة العصبية التلافيفية ، وهي المكان الذي تحدث فيه غالبية العمليات الحاسوبية. يتطلب الأمر بعض عناصر البيانات، وهي عبارة عن بيانات إدخال وفلتر وخريطة ميزات. لنفترض أن الإدخال سيكون صورة ملونة، والتي تتكون من مصفوفة من وحدات بكسل ثلاثية الأبعاد. وهذا يعني أن الإدخال سيكون له ثلاثة أبعاد — ارتفاع وعرض وعمق — والتي تتوافق مع نموذج الألوان الأحمر والأخضر والأزرق في الصورة. لدينا أيضًا كاشف للميزات، يُعرف أيضًا باسم النواة أو الفلتر، والذي سيتنقل عبر الحقول المستقبلة للصورة، والتحقق مما إذا كانت الميزة موجودة. هذه العملية تُعرف باسم التشبّث.

كاشف الميزات عبارة عن مصفوفة ثنائية الأبعاد من الأوزان، والتي تمثل جزءا من الصورة. في حين أنها يمكن أن تختلف في الحجم، إلا أن حجم الفلتر عادةً ما يكون مصفوفة 3 × 3؛ وهذا يحدد أيضًا حجم الحقل الاستقبالي. ثم يتم تطبيق الفلتر على منطقة من الصورة، ويتم حساب المنتج النقطي بين وحدات البكسل المدخلة والفلتر. يتم بعد ذلك إدخال هذا المنتج النقطي في مصفوفة الإخراج. بعد ذلك، ينتقل الفلتر خطوة بخطوة، ويكرر العملية حتى تجتاح النواة الصورة بأكملها. يُعرف الناتج النهائي من سلسلة المنتجات النقطية من الإدخال والفلتر باسم خريطة المعالم أو خريطة التنشيط أو الميزة الملتفة.

لاحظ أن الأوزان في كاشف الميزات تظل ثابتة أثناء حركتها عبر الصورة، والتي تعرف أيضاً باسم مشاركة المعلمات. يتم ضبط بعض المعلمات مثل قيم الوزن أثناء التدريب من خلال عملية النشر العكسي والهبوط المتدرج. ومع ذلك، هناك ثلاث معلمات فائقة تؤثر على حجم الإخراج والتي يجب تعيينها قبل بدء تدريب الشبكة العصبية. ويتضمن ذلك:

1. يؤثر عدد الفلاتر على عمق الإخراج. على سبيل المثال، ستنتج ثلاثة فلاتر مختلفة ثلاث خرائط ميزات مختلفة، مما يؤدي إلى إنشاء عمق من ثلاثة. 

2. الخطوة هي المسافة، أو عدد وحدات البكسل التي تتحرك بها النواة على مصفوفة الإدخال. في حين أن قيم الخطوات الكبيرة التي تصل إلى خطوتين أو أكثر أمر نادر الحدوث، فإن الخطوة الأكبر تؤدي إلى ناتج أصغر.

3. عادةً ما يتم استخدام الحشو الصفري عندما لا تتناسب الفلاتر مع الصورة المدخلة. يؤدي هذا إلى تعيين جميع العناصر التي تقع خارج مصفوفة الإدخال إلى الصفر، مما ينتج عنه إخراج أكبر أو متساو الحجم. هناك ثلاثة أنواع من الحشو:

  • الحشو الصالح: يُعرف أيضًا باسم عدم وجود حشو. في هذه الحالة ، يتم تجاهل الالتفاف الأخير إذا لم تتماشى الأبعاد.
  • نفس الحشو: يضمن هذا الحشو أن يكون لطبقة الإخراج نفس حجم طبقة الإدخال.
  • الحشو الكامل: يزيد هذا النوع من الحشو من حجم المخرجات عن طريق إضافة أصفار إلى حدود الإدخال.

بعد كل عملية من العمليات، تطبق الشبكة العصبية التلافيفية تحول الوحدة الخطية المعدلة (ReLU) على خريطة الميزات مما يُدخل اللاخطية على النموذج.

طبقة تلافيفية إضافية

كما ذكرنا سابقًا، يمكن أن تتبع طبقة تلافيفية أخرى الطبقة التلافيفية الأولية. عندما يحدث هذا ، يمكن أن تصبح بنية الشبكة العصبية التلافيفية هرمية حيث يمكن للطبقات اللاحقة رؤية وحدات البكسل داخل الحقول المستقبلية للطبقات السابقة. على سبيل المثال، لنفترض أننا نحاول تحديد ما إذا كانت الصورة تحتوي على دراجة. يمكنك التفكير في الدراجة كمجموع من الأجزاء. تتكون من إطار، ومقود، وعجلات، ودواسات، وما إلى ذلك. يشكل كل جزء على حدة من الدراجة نمطًا من المستوى الأدنى في الشبكة العصبية، ويمثل الجمع بين أجزائها نمطًا من مستوى أعلى، مما يخلق تسلسلًا هرميًا للميزات داخل الشبكة العصبية. في النهاية، تقوم الطبقة التلافيفية بتحويل الصورة إلى قيم عددية، مما يسمح للشبكة العصبية بتفسير واستخراج الأنماط ذات الصلة.

طبقة التجميع

تُجري طبقات التجميع، والمعروفة أيضًا باسم تصغير حجم العينة، عملية تقليل الأبعاد، مما يقلل من عدد المعلمات في الإدخال. على غرار الطبقة التلافيفية، تقوم عملية التجميع بإجراء مسح بالفلتر عبر الإدخال بأكمله، ولكن الفرق هو أن هذا الفلتر لا يحتوي على أي أوزان. بدلاً من ذلك، تطبّق النواة دالة تجميع على القيم الموجودة داخل الحقل المستقبِل، مما يؤدي إلى ملء مصفوفة الإخراج. هناك نوعان رئيسيان من التجميع:

  • التجميع الأقصى: عندما يتحرك الفلتر عبر الإدخال، فإنه يحدد البكسل ذي القيمة القصوى لإرساله إلى مصفوفة الإخراج. وبصرف النظر عن ذلك، يترجح استخدام هذا النهج في كثير من الأحيان مقارنة بالتجميع المتوسط.
  • التجميع المتوسط: عندما يتحرك الفلتر عبر الإدخال، فإنه يحسب متوسط القيمة داخل الحقل الاستقبالي لإرسالها إلى مصفوفة الإخراج.

بينما يتم فقدان الكثير من المعلومات في طبقة التجميع، إلا أن لها عدداً من الفوائد أيضًا للشبكة العصبية التلافيفية. فهي تساعد على الحد من التعقيد وتحسين الكفاءة والحد من مخاطر الإفراط في التجهيز. 

طبقة متصلة بالكامل

يصف اسم الطبقة المتصلة بالكامل نفسها. كما ذكرنا سابقًا، لا ترتبط قيم البكسل لصورة الإدخال مباشرةً بطبقة الإخراج في الطبقات المتصلة جزئيًا. ومع ذلك، في الطبقة المتصلة بالكامل، تتصل كل عقدة في طبقة الإخراج مباشرة بعقدة في الطبقة السابقة.

تقوم هذه الطبقة بمهمة التصنيف بناء على الميزات المستخرجة من خلال الطبقات السابقة وفلاترها المختلفة. بينما تميل الطبقات التلافيفية وطبقات التجميع إلى استخدام دوال ReLu، وعادةً ما تستفيد الطبقات المتصلة بالكامل من دالة تنشيط softmax لتصنيف المدخلات بشكل صحيح، مما ينتج عنه احتمال من 0 إلى 1.

أنواع الشبكات العصبية التلافيفية

أرسى Kunihiko Fukushima وYann LeCun الأساس للبحث حول الشبكات العصبية التلافيفية في عملهما في عام 1980 (يوجد الرابط خارج موقع ibm.com) و"النشر العكسي المطبق على التعرف على الرمز البريدي المكتوب بخط اليد" في عام 1989، على التوالي. والأشهر من ذلك أن Yann LeCun نجح في تطبيق النشر العكسي لتدريب الشبكات العصبية على تحديد الأنماط والتعرف عليها ضمن سلسلة من الرموز البريدية المكتوبة بخط اليد. واستكمل أبحاثه مع فريقه طوال التسعينيات، والتي بلغت ذروتها مع "LeNet-5"، والتي طبقت نفس مبادئ البحث السابق في التعرف على المستندات. منذ ذلك الحين، ظهر عدد من البنى المتغيرة للشبكة العصبية التلافيفية مع تقديم مجموعات البيانات جديدة، مثل MNIST وCIFAR-10، ومسابقات مثل تحدي التعرف البصري واسع النطاق ImageNet (ILSVRC). تتضمن بعض هذه البنى الأخرى ما يلي:

  • AlexNet (الرابط موجود خارج موقع ibm.com)
  • VGGNet (الرابط موجود خارج موقع ibm.com)
  • GoogleNet (الرابط موجود خارج ibm.com)
  • ResNet (الرابط موجود خارج موقع ibm.com)
  • ZFNet

ومع ذلك، يعرف LeNet-5 باسم بنية الشبكة العصبية التلافيفية الكلاسيكية.

Mixture of Experts | 25 أبريل، الحلقة 52

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم في أثناء سعيهم للتغلب على الفوضى والضوضاء المحيطة بالذكاء الاصطناعي لتزويدك بأحدث أخباره والرؤى المتعلقة به.

الشبكة العصبية التلافيفية ورؤية الكمبيوتر

تعمل الشبكات العصبية التلافيفية على تعزيز مهام التعرف على الصور ورؤية الكمبيوتر. رؤية الكمبيوتر هي مجال من مجالات الذكاء الاصطناعي الذي يمكّن أجهزة الكمبيوتر والأنظمة من استخلاص معلومات ذات معنى من الصور الرقمية ومقاطع الفيديو وغيرها من المدخلات المرئية، وبناءً على هذه المدخلات، يمكنها اتخاذ الإجراءات. هذه القدرة على تقديم التوصيات تميزها عن مهام التعرف على الصور. يمكن رؤية بعض التطبيقات الشائعة لرؤية الكمبيوتر هذه اليوم في:

  • التسويق: تقدم منصات التواصل الاجتماعي اقتراحات حول من قد يكون في صورة تم نشرها على الملف الشخصي، مما يسهل الإشارة إلى الأصدقاء في ألبومات الصور. 
  • الرعاية الصحية: تم دمج رؤية الكمبيوتر في تقنية الأشعة، مما يمكّن الأطباء من تحديد الأورام السرطانية في التشريح السليم بشكل أفضل.
  • البيع بالتجزئة: تم دمج البحث المرئي في بعض منصات التجارة الإلكترونية، مما يسمح للعلامات التجارية بالتوصية بالعناصر التي من شأنها أن تكمل خزانة الملابس الحالية.
  • السيارات: على الرغم من أن عصر السيارات بدون سائق لم يظهر بالقدر الكافي، إلا أن التقنية الأساسية بدأت تشق طريقها إلى السيارات، مما يحسن من سلامة السائق والركاب من خلال ميزات مثل كشف خط المسار.