Una volta scelto un modello, segue l'addestramento del modello. La fase di addestramento prevede l'esecuzione del modello su dati di addestramento specifici per un'attività di computer vision, la misurazione delle prestazioni rispetto alla realtà reale e l'ottimizzazione dei parametri per migliorare le prestazioni nel tempo.
Le CNN sono costituite da tre tipi di livelli: un livello convoluzionale, un livello di pooling e un livello completamente connesso. Il livello convoluzionale è il luogo in cui avviene l'estrazione delle caratteristiche. L'estrazione delle caratteristiche comporta la determinazione e l'acquisizione degli attributi visivi chiave dai dati grezzi delle immagini, come colori, bordi, forme e texture. Nel caso di immagini a raggi X con polmonite, le caratteristiche da estrarre includono contorni polmonari asimmetrici, regioni luminose che indicano infiammazione o presenza di liquidi (al contrario delle regioni scure e piene d'aria), aree polmonari offuscate o opache e texture ruvide o irregolari.4 L'estrazione delle caratteristiche consente agli algoritmi di distinguere relazioni e modelli significativi nei dati visivi.
Un'immagine a raggi X viene trattata come una matrice di valori di pixel. Un'altra matrice di pesi (parametri che controllano l'influenza che una determinata caratteristica di input ha sull'output del modello) nota come filtro o kernel viene applicata a un'area dell'immagine a raggi X, con un prodotto scalare calcolato tra i valori dei pixel di input. Il filtro si sposta attraverso l'immagine per estrarre le caratteristiche e l'intero processo è noto come convoluzione. L'ultimo output della serie di prodotti scalari è chiamato mappa di attivazione o mappa delle caratteristiche. Ogni filtro è ottimizzato per rispondere a modelli specifici, come bordi, forme o texture, consentendo alla CNN di apprendere più caratteristiche visive contemporaneamente.
La mappa delle caratteristiche viene inserita in un livello di pooling per ridurne ulteriormente le dimensioni e comprimerne le dimensioni. Un altro filtro esamina l'intero input, rilevando i valori massimi o medi all'interno di un gruppo di celle nella mappa delle caratteristiche. In questo modo vengono mantenute le caratteristiche più essenziali, consentendo al modello di concentrare la propria attenzione su di esse.
L'atto di spostarsi su un'immagine per estrarre caratteristiche, ridurre le dimensioni e produrre una classificazione è noto come passaggio in avanti. Dopo questo passaggio in avanti, il modello applica una funzione di perdita per calcolare l'errore o la differenza tra la classificazione prevista e la classificazione effettiva.
Per ridurre al minimo la funzione di perdita, viene utilizzata la retropropagazione. La retropropagazione è un passaggio all'indietro per calcolare il gradiente della funzione di perdita rispetto a ciascun peso. Quindi, la tecnica della discesa del gradiente viene implementata per aggiornare i pesi del modello e ottimizzare il modello.
Infine, il livello completamente connesso svolge il compito di classificazione in base alle caratteristiche estratte dai livelli precedenti e ai loro diversi filtri. La CNN genera quindi i suoi output, che sono probabilità per ogni classe (in questo caso, normale vs. polmonite). Per l'attività di classificazione delle immagini a raggi X del torace, questo output indicherà una scansione normale o, se la probabilità supera una soglia predeterminata, una scansione positiva per la polmonite.