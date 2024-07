Die konvolutionale Schicht ist der Kernbaustein eines CNN und dort findet der Großteil der Berechnungen statt. Sie erfordert einige Komponenten, nämlich Eingabedaten, einen Filter und eine Feature-Map. Nehmen wir an, dass es sich bei der Eingabe um ein Farbbild handelt, das aus einer Pixelmatrix in 3D besteht. Das bedeutet, dass die Eingabe drei Dimensionen (Höhe, Breite und Tiefe) aufweist, die RGB in einem Bild entsprechen. Zudem gibt es einen Merkmalsdetektor, der auch als Kernel oder Filter bezeichnet wird. Er bewegt sich über die rezeptiven Felder des Bildes und prüft, ob das jeweilige Merkmal vorhanden ist. Dieser Prozess wird als Konvolution bezeichnet.

Der Merkmalsdetektor ist ein zweidimensionales (2-D) Array von Gewichten, das einen Teil des Bildes darstellt. Sie können zwar unterschiedlich groß sein, die Filtergröße ist jedoch typischerweise eine 3x3-Matrix; dies bestimmt auch die Größe des rezeptiven Feldes. Der Filter wird dann auf einen Bereich des Bildes angewendet und es wird ein Skalarprodukt aus den Eingabepixeln und dem Filter berechnet. Dieses Skalarprodukt wird dann in ein Ausgabearray eingespeist. Danach verschiebt sich der Filter Schritt für Schritt und wiederholt den Vorgang, bis der Kernel das gesamte Bild erfasst hat. Die endgültige Ausgabe aus der Reihe von Skalarprodukten aus der Eingabe und dem Filter wird als Feature-Map (Merkmalskarte), Aktivierungskarte oder konvolviertes Merkmal bezeichnet.

Beachten Sie, dass die Gewichte im Merkmalsdetektor fest bleiben, während er sich über das Bild bewegt, was auch als Parameter-Sharing bekannt ist. Einige Parameter, wie die Gewichtungswerte, werden während des Trainings durch den Prozess der Backpropagation und des Gradientenabstiegs angepasst. Es gibt jedoch drei Hyperparameter, die die Volumengröße der Ausgabe beeinflussen und die eingestellt werden müssen, bevor das Training des neuronalen Netzwerks beginnt. Dazu gehören:

1. Die Anzahl der Filter beeinflusst die Tiefe der Ausgabe. So würden beispielsweise drei verschiedene Filter drei verschiedene Merkmalskarten ergeben, was eine Tiefe von drei ergibt.

2. Stride ist die Entfernung oder Anzahl der Pixel, die der Kernel über die Eingabematrix bewegt. Eine Schrittweite von zwei oder mehr ist zwar selten, aber eine größere Schrittweite führt zu einer kleineren Ausgabe.

3. Zero-Padding wird normalerweise verwendet, wenn die Filter nicht zum Eingabebild passen. Dadurch werden alle Elemente, die außerhalb der Eingabematrix liegen, auf Null gesetzt, wodurch eine größere oder gleich große Ausgabe erzeugt wird. Es gibt drei Arten der Polsterung:

Gültige Polsterung: Dies wird auch als „keine Polsterung“ bezeichnet. In diesem Fall wird die letzte Faltung gelöscht, wenn die Dimensionen nicht übereinstimmen.

Dies wird auch als „keine Polsterung“ bezeichnet. In diesem Fall wird die letzte Faltung gelöscht, wenn die Dimensionen nicht übereinstimmen. Gleiche Polsterung: Diese Polsterung stellt sicher, dass die Ausgabeebene dieselbe Größe wie die Eingabeebene hat.

Diese Polsterung stellt sicher, dass die Ausgabeebene dieselbe Größe wie die Eingabeebene hat. Volle Füllung: Diese Art von Füllung erhöht die Größe der Ausgabe, indem Nullen zum Rand der Eingabe hinzugefügt werden.

Nach jedem Konvolutionsvorgang wendet ein CNN eine ReLU (Rectified Linear Unit)-Transformation auf die Feature-Map an und führt so Nichtlinearität in das Modell ein.