Lapisan konvolusional adalah blok bangunan inti dari CNN, dan di sinilah terjadinya sebagian besar komputasi. Ini memerlukan beberapa komponen, yaitu data input, filter, dan peta fitur. Mari asumsikan inputnya adalah gambar berwarna, yang terdiri atas matriks piksel dalam bentuk 3D. Hal ini berarti bahwa input memiliki tiga dimensi—tinggi, lebar, dan kedalaman—yang sesuai dengan RGB dalam gambar. Kita juga memiliki detektor fitur, juga dikenal sebagai kernel atau filter, yang akan bergerak melintasi bidang reseptif gambar, memeriksa apakah fitur tersebut ada. Proses ini dikenal sebagai konvolusi.
Detektor fitur adalah susunan berat dua dimensi (2-D), yang merepresentasikan bagian gambar. Meskipun ukurannya bisa bervariasi, tetapi ukuran filter biasanya berupa matriks 3x3; hal ini juga menentukan ukuran bidang reseptif. Filter kemudian diterapkan ke area gambar, dan dot product dihitung antara piksel input dan filter. Dot product ini kemudian dimasukkan ke dalam hasil array. Setelahnya, filter bergeser satu langkah, mengulangi prosesnya sampai kernel menyapu seluruh gambar. Hasil akhir dari serangkaian dot product dari input dan filter dikenal sebagai peta fitur, peta aktivasi, atau fitur convolved.
Perhatikan, bahwa bobot dalam detektor fitur tetap saat bergerak melintasi gambar, yang juga dikenal sebagai pembagian parameter. Beberapa parameter seperti nilai bobot, menyesuaikan selama pelatihan melalui proses backpropagation dan gradient descent. Namun, ada tiga hiperparameter yang memengaruhi ukuran volume hasil yang perlu ditetapkan sebelum pelatihan neural networks dimulai. Ini termasuk:
1. Jumlah filter memengaruhi kedalaman output. Misalnya, tiga filter berbeda akan menghasilkan tiga peta fitur yang berbeda, menciptakan kedalaman tiga.
2. Langkah adalah jarak, atau jumlah piksel, yang dipindahkan kernel pada matriks input. Meskipun nilai langkah dua atau lebih besar jarang terjadi, langkah yang lebih besar akan menghasilkan output yang lebih kecil.
3. Zero-padding biasanya digunakan ketika filter tidak sesuai dengan gambar input. Ini mengatur semua elemen yang berada di luar matriks input ke nol, menghasilkan output yang lebih besar atau berukuran sama. Ada tiga jenis padding:
- Padding yang valid: Ini juga dikenal sebagai tanpa padding. Dalam hal ini, konvolusi terakhir dihilangkan jika dimensi tidak sejajar.
- Padding yang sama: Padding ini memastikan bahwa lapisan output memiliki ukuran yang sama dengan lapisan input.
- Padding penuh: Jenis padding ini meningkatkan ukuran output dengan menambahkan angka nol ke batas input.
Setelah setiap operasi konvolusi, CNN menerapkan transformasi Rectified Linear Unit (ReLU) pada peta fitur, memperkenalkan nonlinieritas pada model.