Datenerfassung und -vorverarbeitung: Der erste Schritt besteht darin, eine große und vielfältige Anzahl von Bildern für jede Gruppe zu sammeln. Die Daten müssen gekennzeichnet und anschließend normalisiert werden. Zu den Techniken zur Normalisierung und anderen Techniken zur Datenvergrößerung gehören die Größenanpassung von Bildern auf feste Abmessungen, die Normalisierung von Pixelwerten und vieles mehr.
Modellauswahl: Der nächste Schritt im Workflow ist Modellauswahl. Bei der gewählten Architektur handelt es sich höchstwahrscheinlich um ein CNN. Wie bereits besprochen, beginnt das CNN, komplexere Funktionen zu erkennen, wenn sich die Daten durch seine Schichten verschieben.
Modelltraining und Validierung: Nach der Auswahl werden die gekennzeichneten Bilder in Trainingsdatensätze, Validierungsdatensätze und Testdatensätze unterteilt. Das Netzwerk nutzt diese Datensätze zur Optimierung und passt seine Gewichte wiederholt an, um Fehler zwischen den vorhergesagten Labels und den tatsächlichen Labels zu minimieren. Die Vermeidung von Überanpassung wird durch Validierungsdaten unterstützt, und dieser Trainingsprozess kann fortgesetzt werden, bis die Ergebnisse einen vorab festgelegten Standard erfüllen.
In diesem Schritt könnte ein von Menschen annotierter Bilddatensatz wie ImageNet verwendet werden. ImageNet ist eine riesige Sammlung von über 14 Millionen Bildern. Diese Bilder sind alle organisiert und beschriftet, damit Computer lernen, Objekte in Bildern zu erkennen. Jedes Bild in der Datenbank ist mit bestimmten Categories versehen, die als „Synsets“ bezeichnet werden. Diese Synsets enthalten Dinge wie „Hund“, „Auto“ oder „Apfel“ und verwenden ein Framework namens WordNet.
Funktionsextraktion: Im Gegensatz zur regelbasierten Bildklassifizierung lernen Deep-Learning-Modelle in diesem Schritt ihre eigenen Merkmale aus den extrahierten Rohbilddaten. Dieser Ansatz ermöglicht es dem Netzwerk, interne Darstellungen zu erstellen, um zwischen Gruppen oder Klassen zu unterscheiden.
Bewertung und Bereitstellung: Anschließend wird das Modell anhand von Testdaten bewertet und bei Bedarf optimiert. Das Modell wird dann bereitgestellt, um Vorhersagen für neue Bilder in einer realen Umgebung zu treffen, wenn die erwarteten Metriken erfüllt werden.