Pelatihan model dilakukan setelah model dipilih. Tahap pelatihan melibatkan menjalankan model pada data pelatihan yang spesifik untuk tugas visi komputer, mengukur kinerja terhadap kebenaran dasar dan mengoptimalkan parameter untuk meningkatkan kinerja dari waktu ke waktu.
CNN terdiri dari tiga jenis lapisan: lapisan konvolusional, lapisan pengumpulan, dan lapisan yang terhubung sepenuhnya. Lapisan konvolusional adalah tempat ekstraksi fitur terjadi. Ekstraksi fitur memerlukan penentuan dan penangkapan atribut visual utama dari data gambar mentah, seperti warna, tepi, bentuk, dan tekstur. Dalam kasus gambar sinar-X dengan pneumonia, fitur yang akan diekstrak termasuk kontur paru-paru asimetris, daerah terang yang mengindikasikan peradangan atau adanya cairan (berlawanan dengan daerah gelap yang berisi udara), daerah paru-paru yang keruh atau buram, dan tekstur yang kasar atau tidak rata.4 Ekstraksi fitur memungkinkan algoritma untuk membedakan hubungan dan pola yang signifikan dalam data visual.
Gambar sinar-X diperlakukan sebagai matriks nilai piksel. Matriks bobot lain (parameter yang mengontrol seberapa besar pengaruh fitur input tertentu pada output model) yang dikenal sebagai filter atau kernel diterapkan ke area gambar sinar-X, dengan perkalian titik dihitung antara nilai piksel input. Filter pindah atau "membelit" gambar untuk mengekstrak fitur dan seluruh proses ini dikenal sebagai konvolusi. Output akhir dari rangkaian perkalian titik disebut peta aktivasi atau peta fitur. Setiap filter disetel untuk merespons pola tertentu, seperti tepi, bentuk, atau tekstur, sehingga CNN dapat mempelajari beberapa fitur visual secara bersamaan.
Peta fitur dimasukkan ke dalam lapisan pengumpulan untuk semakin mengurangi ukuran peta dan mengompres dimensinya. Filter lain menyapu seluruh input, mengambil nilai maksimum atau rata-rata dalam sekelompok sel dalam peta fitur. Ini mempertahankan fitur yang paling penting, memungkinkan model untuk memfokuskan perhatiannya pada mereka.
Tindakan bergerak melintasi gambar untuk mengekstrak fitur, mengurangi dimensi, dan menghasilkan klasifikasi dikenal sebagai forward pass. Setelah forward pass ini, model menerapkan fungsi kerugian untuk menghitung kesalahannya atau perbedaan antara klasifikasi yang diprediksi dan klasifikasi sebenarnya.
Propagasi balik digunakan untuk meminimalkan fungsi kesalahan. Propagasi balik adalah backward pass untuk menghitung gradien fungsi kesalahan sehubungan dengan setiap bobot. Kemudian, teknik penurunan gradien diimplementasikan untuk memperbarui bobot model dan mengoptimalkan model.
Terakhir, lapisan yang terhubung sepenuhnya melakukan tugas klasifikasi berdasarkan fitur yang diekstrak melalui lapisan sebelumnya dan filter yang berbeda. CNN kemudian menghasilkan output yang merupakan probabilitas untuk setiap kelas (dalam hal ini, normal vs pneumonia). Untuk tugas klasifikasi gambar sinar-X dada, output ini akan menunjukkan pemindaian normal atau, jika kemungkinannya melewati ambang batas yang telah ditentukan, pemindaian positif pneumonia.