Sobald ein Modell ausgewählt wurde, folgt die Modellausbildung. In der Trainingsphase wird das Modell mit Trainingsdaten ausgeführt, die für eine bestimmte Computer-Vision-Aufgabe spezifisch sind. Dabei wird die Leistung anhand der Grundwahrheit gemessen und die Parameter werden optimiert, um die Leistung im Laufe der Zeit zu verbessern.
CNNs bestehen aus drei Arten von Schichten: einer Faltungsschicht, einer Pooling-Schicht und einer vollständig verbundenen Schicht. In der konvolutionalen Schicht findet die Merkmalsextraktion statt. Bei der Funktionsextraktion werden wichtige visuelle Attribute wie Farben, Edge, Formen und Texturen aus Bildrohdaten bestimmt und erfasst. Im Fall von Röntgenbildern mit Lungenentzündung gehören zu den zu extrahierenden Funktionen asymmetrische Lungenkonturen, helle Bereiche, die auf eine Entzündung oder das Vorhandensein von Flüssigkeit hinweisen (im Gegensatz zu dunklen, luftgefüllten Regionen), getrübte oder undurchsichtige Lungenbereiche und grobe oder fleckige Strukturen.4 Die Merkmalsextraktion ermöglicht es Algorithmen, signifikante Beziehungen und Muster in visuellen Daten zu erkennen.
Ein Röntgenbild wird als Matrix von Pixelwerten behandelt. Eine weitere Matrix von Gewichten (Parameter, die den Einfluss einer bestimmten Eingabemerkmal auf die Ausgabe des Modells steuern), die als Filter oder Kernel bezeichnet wird, wird auf einen Bereich des Röntgenbildes angewendet, wobei ein Skalarprodukt zwischen den Eingabepixelwerten berechnet wird. Der Filter bewegt sich über das Bild, um Merkmale zu extrahieren, und dieser gesamte Vorgang wird als Faltung bezeichnet. Das Endergebnis der Reihe von Skalarprodukten wird als Aktivierungskarte oder Merkmalskarte bezeichnet. Jeder Filter ist so abgestimmt, dass er auf bestimmte Muster wie Kanten, Formen oder Texturen reagiert, sodass das CNN mehrere visuelle Merkmale gleichzeitig lernen kann.
Die Merkmalszuordnung wird in eine Pooling-Schicht eingespeist, um die Größe der Zuordnung weiter zu reduzieren und ihre Dimensionen zu komprimieren. Ein weiterer Filter durchläuft den gesamten Input und ermittelt die Maximal- oder Durchschnittswerte innerhalb einer Gruppe von Zellen in der Merkmalszuordnung. So bleiben die wichtigsten Funktionen erhalten, sodass das Modell seine Aufmerksamkeit auf diese richten kann.
Der Vorgang, ein Bild zu durchlaufen, um Merkmale zu extrahieren, Dimensionen zu reduzieren und eine Klassifizierung zu erstellen, wird als Vorwärtsdurchlauf bezeichnet. Nach diesem Vorwärtsdurchlauf wendet das Modell eine Verlustfunktion an, um seinen Fehler oder die Differenz zwischen seiner vorhergesagten Klassifizierung und der wahren Klassifizierung zu berechnen.
Um die Verlustfunktion zu minimieren, wird die Backpropagation eingesetzt. Die Backpropagation ist ein Rückwärtsdurchlauf zur Berechnung des Gradienten der Verlustfunktion in Bezug auf jede Gewichtung. Anschließend wird die Gradientenabstiegstechnik implementiert, um die Modellgewichtungen zu aktualisieren und das Modell zu optimieren.
Schließlich führt die vollständig verbundene Schicht die Klassifizierung auf der Grundlage der Merkmale durch, die durch die vorherigen Schichten und ihre verschiedenen Filter extrahiert wurden. Das CNN generiert dann seine Ergebnisse, bei denen es sich um Wahrscheinlichkeiten für jede Klasse handelt (in diesem Fall „normal“ vs. „Lungenentzündung“). Bei der Klassifizierung von Röntgenbildern der Brust gibt diese Ausgabe entweder einen normalen Befund an oder, wenn die Wahrscheinlichkeit einen vorgegebenen Schwellenwert überschreitet, einen positiven Befund für eine Lungenentzündung.