بمجرد اختيار النموذج، تلي ذلك مرحلة تدريب النموذج. تتضمن مرحلة التدريب تشغيل النموذج على بيانات التدريب الخاصة بمهمة رؤية الكمبيوتر، وقياس الأداء مقارنة بالحقيقة الأساسية، وتحسين المَعلمات لتعزيز الأداء مع مرور الوقت.
تتكون الشبكات العصبية الالتفافية (CNNs) من ثلاثة أنواع من الطبقات: طبقة الالتفاف، وطبقة التجميع، وطبقة الاتصال الكامل. طبقة الالتفاف هي المكان الذي يحدث فيه استخراج الميزات. يتضمن استخراج الميزات تحديد والتقاط الميزات البصرية الرئيسية من بيانات الصور الأولية، مثل الألوان والحواف والأشكال والأنسجة. في حالة صور الأشعة السينية المصابة بالتهاب الرئة، تشمل الميزات التي يجب استخراجها: محيطات الرئتين غير المتماثلة أو المناطق المضيئة التي تُشير إلى الالتهاب أو وجود السوائل (مقابل المناطق المظلمة المملوءة بالهواء)، أو المناطق الرئوية الغائمة أو المعتمة أو القوام الخشن أو المتقطع.4 يتيح استخراج الميزات للخوارزميات التمييز بين العلاقات والأنماط المهمة في البيانات البصرية.
يتم التعامل مع صورة الأشعة السينية كمصفوفة من قيم البيكسل. يتم تطبيق مصفوفة أخرى من الأوزان (وهي المَعلمات التي تتحكم في مدى تأثير ميزة إدخال معينة في مخرجات النموذج) والمعروفة باسم الفلتر أو النواة على منطقة من صورة الأشعة السينية، ويتم حساب حاصل الضرب النقطي بين قيم البيكسل المدخلة. يتحرك الفلتر، أو "يلتوي"، عبر الصورة لاستخراج الميزات، وتُعرَف العملية بأكملها باسم الالتفاف (Convolution). النتيجة النهائية لسلسلة عمليات الضرب النقطي تُسمّى خريطة التنشيط أو خريطة الميزات. يتم ضبط كل فلتر للاستجابة لأنماط محددة، مثل الحواف أو الأشكال أو القوام، ما يُتيح للشبكة العصبية الالتفافية (CNN) تعلُّم عدة ميزات بصرية في وقت واحد.
يتم إدخال خريطة الميزات إلى طبقة التجميع (Pooling Layer) لتقليل حجم الخريطة وضغط أبعادها بشكل أكبر. يقوم فلتر آخر بالانتقال عبر الإدخال بأكمله، مع أخذ القيم العظمى أو المتوسطة ضمن مجموعة من الخلايا في خريطة الميزات. يحتفظ هذا بالميزات الأساسية، ما يسمح للنموذج بتركيز انتباهه عليها.
يُعرَف الإجراء الذي يتم فيه الانتقال عبر الصورة لاستخراج الميزات، وتقليل الأبعاد، وإنتاج التصنيف باسم التمرير الأمامي (Forward Pass). بعد هذا التمرير الأمامي، يطبِّق النموذج دالة الخسارة لحساب الخطأ أو الفرق بين التصنيف الذي تنبأ به والتصنيف الفعلي.
للتقليل من دالة الخسارة، يتم استخدام الانتشار الخلفي. الانتشار الخلفي هو تمرير عكسي لحساب المشتق التدريجي لدالة الخسارة بالنسبة لكل وزن. بعد ذلك، يتم تطبيق تقنية الانحدار التدرّجي لتحديث أوزان النموذج وتحسين أدائه.
أخيرًا، تنفِّذ الطبقة المترابطة بالكامل عملية التصنيف استنادًا إلى الميزات التي تم استخراجها من الطبقات السابقة والفلاتر المختلفة. بعد ذلك، تُنتج شبكة CNN مخرجاتها، وهي احتمالات لكل فئة (في هذه الحالة، طبيعية مقابل الالتهاب الرئوي). بالنسبة لمهمة تصنيف صور الأشعة السينية للصدر، تُشير هذه المخرجات إلى صورة طبيعية، أو إذا تجاوزت الاحتمالية حدًا محددًا مسبقًا، إلى صورة إيجابية للاشتباه بالالتهاب الرئوي.