Es gibt eine Reihe von Ansätzen für das maschinelle Lernen bei der Objekterkennung. Beispiele hierfür sind das Viola-Jones-Framework8 und das Histogramm der orientierten Gradienten.9 Die jüngste Forschung und Entwicklung im Bereich der Objekterkennung hat sich jedoch weitgehend auf Convolutional Neural Networks (CNNs) konzentriert. Daher konzentriert sich diese Seite auf zwei Arten von CNNs, die in der Objekterkennungsforschung am meisten diskutiert werden. Beachten Sie, dass diese Modelle anhand von Benchmark-Datensätzen wie dem Microsoft COCO-Datensatz oder ImageNet getestet und verglichen werden.
R-CNN (Region-based Convolutional Neural Network) ist ein zweistufiger Detektor, der eine Methode namens „Region Proposals“ verwendet, um 2.000 Bereichsvorhersagen (Region Predictions) pro Bild zu generieren. R-CNN verzerrt dann die extrahierten Regionen auf eine einheitliche Größe und lässt diese Regionen durch separate Netzwerke zur Feature-Extraktion und Klassifizierung laufen. Jede Region wird nach dem Vertrauen in ihre Klassifizierung eingestuft. R-CNN lehnt dann Regionen ab, die eine bestimmte IoU-Überlappung mit einer ausgewählten Region mit höherer Bewertung aufweisen. Die verbleibenden nicht überlappenden und hochrangigen klassifizierten Regionen sind das Ergebnis des Modells.10 Wie erwartet ist diese Architektur rechenintensiv und langsam. Fast R-CNN und Faster R-CNN sind spätere Modifikationen, die die Größe der R-CNN-Architektur reduzieren und dadurch die Verarbeitungszeit verkürzen und gleichzeitig die Genauigkeit erhöhen.11
YOLO (You Only Look Once) ist eine Familie von einstufigen Erkennungsarchitekturen, die auf Darknet, einem Open-Source-CNN-Framework, basieren. Die YOLO-Architektur wurde erstmals 2016 entwickelt und legt den Schwerpunkt auf Geschwindigkeit. Tatsächlich ist YOLO aufgrund seiner Geschwindigkeit für die Objekterkennung in Echtzeit besser geeignet und wird daher allgemein als hochmoderner Objektdetektor bezeichnet. YOLO unterscheidet sich in mehreren Punkten von R-CNN. Während R-CNN extrahierte Bildbereiche durch mehrere Netzwerke leitet, die Merkmale separat extrahieren und Bilder klassifizieren, fasst YOLO diese Aktionen in einem zentralen Netzwerk zusammen. Zweitens: Im Vergleich zu den rund 2000 Regionenvorschlägen von R-CNN macht YOLO weniger als 100 Vorhersagen für Begrenzungsrahmen pro Bild. YOLO ist nicht nur schneller als R-CNN, sondern produziert auch weniger falsche Hintergrund-Positivmeldungen, weist jedoch einen höheren Lokalisierungsfehler auf.12 Seit seiner Einführung wurde YOLO mehrfach aktualisiert, wobei der Schwerpunkt im Allgemeinen auf Geschwindigkeit und Genauigkeit lag.13
Obwohl ursprünglich für die Objekterkennung entwickelt, können spätere Versionen von R-CNN und YOLO auch Klassifizierungs- und Segmentierungsmodelle trainieren. Insbesondere kombiniert Mask R-CNN sowohl die Objekterkennung als auch die Segmentierung, während YOLOv5 separate Klassifizierungs-, Erkennungs- und Segmentierungsmodelle trainieren kann.
Natürlich gibt es neben R-CNN und YOLO noch viele andere Modellarchitekturen. SSD und Retinanet sind zwei weitere Modelle, die eine vereinfachte Architektur ähnlich wie YOLO verwenden.14 DETR ist eine weitere von Facebook (jetzt Meta) entwickelte Architektur, die CNN mit einem Transformator-Modell kombiniert und eine mit Faster R-CNN vergleichbare Leistung aufweist.15