Mein IBM

Anmelden

Was ist Objekterkennung?

3. Januar 2024

Autoren

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

Die Objekterkennung ist eine Technik, die neuronale Netze verwendet, um Objekte in Bildern zu lokalisieren und zu klassifizieren. Diese Aufgabe von Computer Vision hat ein breites Anwendungsspektrum, von der medizinischen Bildgebung bis hin zu selbstfahrenden Autos.

Die Objekterkennung ist eine Aufgabe von Computer Vision, die darauf abzielt, Objekte in digitalen Bildern zu lokalisieren. Als solche ist sie ein Beispiel für künstliche Intelligenz, bei der Computer darauf trainiert werden, wie Menschen zu sehen, insbesondere durch Erkennen und Klassifizieren von Objekten nach semantischen Kategorien.¹ Die Objektlokalisierung ist eine Technik zur Bestimmung der Position bestimmter Objekte in einem Bild durch Abgrenzung des Objekts durch einen Begrenzungsrahmen. Die Objektklassifizierung ist eine weitere Technik, mit der bestimmt wird, zu welcher Kategorie ein erkanntes Objekt gehört. Die Aufgabe der Objekterkennung kombiniert Teilaufgaben der Objektlokalisierung und -klassifizierung, um gleichzeitig den Standort und die Art von Objektinstanzen in einem oder mehreren Bildern zu schätzen.²

Aufgaben im Bereich Computer Vision

Die Objekterkennung überschneidet sich mit anderen Verfahren von Computer Vision, wird von Entwicklern jedoch als eigenständiges Unterfangen behandelt.

Die Bildklassifizierung (oder Bilderkennung) zielt darauf ab, Bilder nach definierten Kategorien zu klassifizieren. Ein einfaches Beispiel hierfür sind CAPTCHA-Bildtests, bei denen eine Gruppe von Bildern als Bilder mit Stoppschildern und als Bilder ohne Stoppschilder organisiert werden kann. Bei der Bildklassifizierung wird einem ganzen Bild ein Etikett zugewiesen.

Die Objekterkennung hingegen grenzt einzelne Objekte in einem Bild nach bestimmten Kategorien ab. Während bei der Bildklassifizierung die Bilder in solche mit und solche ohne Stoppschilder unterteilt werden, werden bei der Objekterkennung alle Verkehrsschilder in einem Bild sowie andere Objekte wie Autos und Personen lokalisiert und kategorisiert.

Bildsegmentierung (oder semantische Segmentierung) ähnelt der Objekterkennung, ist jedoch präziser. Wie die Objekterkennung grenzt die Segmentierung Objekte in einem Bild nach semantischen Kategorien ab. Anstatt Objekte jedoch mit Kästchen zu markieren, werden sie bei der Segmentierung auf Pixelebene abgegrenzt.

So funktioniert die Objekterkennung

Um die inneren Mechanismen der Objekterkennung zu verstehen, ist ein grundlegendes Verständnis von Computer Vision und digitaler Bildverarbeitung im weiteren Sinne erforderlich. Dieser Abschnitt bietet einen allgemeinen Überblick.

Bildverarbeitung

In Computer Vision werden Bilder als kontinuierliche Funktionen auf einer 2D-Koordinatenebene ausgedrückt, die als f(x,y) dargestellt wird. Bei der Digitalisierung durchlaufen Bilder zwei Hauptprozesse, die als Sampling und Quantisierung bezeichnet werden und die zusammen die kontinuierliche Bildfunktion in eine separate Gitterstruktur aus Pixelelementen umwandeln. Der Computer kann dann ein Bild in einzelne Bereiche unterteilen, die sich in ihrer visuellen Ähnlichkeit und der Nähe der Pixel unterscheiden.³

Durch die Beschriftung von Bildern über eine Anmerkungsschnittstelle definieren Benutzer ein bestimmtes Objekt als einen Bereich mit bestimmten Merkmalen auf Pixelebene (z. B. Fläche, Grauwert usw.). Bei einem Eingabebild erkennt das Objekterkennungsmodell Regionen mit ähnlichen Merkmalen wie die, die im Trainingsdatensatz als dasselbe Objekt definiert sind. Auf diese Weise ist die Objekterkennung eine Form der Mustererkennung. Modelle zur Objekterkennung erkennen keine Objekte an sich, sondern eher Aggregate von Eigenschaften wie Größe, Form, Farbe usw. und klassifizieren Bereiche anhand visueller Muster, die aus manuell annotierten Trainingsdaten abgeleitet werden.⁴

Ein Objekterkennungsmodell für ein selbstfahrendes Auto erkennt beispielsweise keine Fußgänger, sondern eine Reihe von Merkmalen, die das allgemeine Muster bilden, das Fußgängerobjekte charakterisiert (wie in den Trainingsdaten definiert).

Modellarchitektur

Obwohl verschiedene Modellfamilien unterschiedliche Architekturen verwenden, folgen Deep Learning-Modelle zur Objekterkennung einer allgemeinen Struktur. Sie bestehen aus einem Backbone, einem Neck und einem Head.

Der Backbone extrahiert Funktion aus einem Eingabebild. Oft wird der Backbone aus einem Teil eines vorab trainierten Klassifizierungsmodells abgeleitet. Die Merkmalsextraktion erzeugt eine Vielzahl von Merkmalskarten mit unterschiedlichen Auflösungen, die vom Backbone an den Neck weitergeleitet werden. Dieser letzte Teil der Struktur verkettet die Feature-Maps für jedes Bild. Die Architektur übergibt dann die überlagerten Feature-Maps an den Head, der Bounding-Boxes und Klassifizierungswerte für jedes Feature-Set vorhersagt.

Zweistufige Detektoren trennen die Objektlokalisierung und -klassifizierung im Head, während einstufige Detektoren diese Aufgaben kombinieren. Erstere liefern im Allgemeinen eine höhere Lokalisierungsgenauigkeit, während letztere schneller arbeiten.⁵

Bewertungsmetriken

„Intersection over Union“ (IoU) ist eine gängige Bewertungsmetrik, die in Objekterkennungsmodellen verwendet wird. Ein Begrenzungsrahmen ist der quadratische Output, der ein erkanntes Objekt gemäß der Vorhersage des Modells abgrenzt. IoU berechnet das Verhältnis der Schnittfläche zweier Begrenzungsrahmen (d. h. der überlappenden Abschnitte der Rahmen) zu ihrer Vereinigungsfläche (d. h. der Gesamtfläche beider Rahmen zusammen):⁶

Wir können uns diese Gleichung wie folgt vorstellen:

Modelle verwenden IoU, um die Vorhersagegenauigkeit zu messen, indem sie den IoU zwischen einer vorhergesagten Box und der Ground-Truth-Box berechnen. Modellarchitekturen verwenden auch IoU, um endgültige Begrenzungsrahmen-Vorhersagen zu generieren. Da Modelle anfangs oft mehrere hundert Begrenzungsrahmen-Vorhersagen für ein einzelnes erkanntes Objekt generieren, verwenden Modelle IoU, um Begrenzungsrahmen-Vorhersagen abzuwägen und zu einem einzigen Rahmen pro erkanntem Objekt zusammenzufassen.

Für verschiedene Auswertungen von Objekterkennungsmodellen können andere Metriken verwendet werden. Die verallgemeinerte Schnittmenge über Vereinigung (GIoU) ist eine modifizierte Version der Schnittmenge über Vereinigung, die Verbesserungen bei der Objektlokalisierung berücksichtigt, für die die grundlegende Schnittmenge über Vereinigung immer noch einen Nullwert zurückgeben kann.⁷ In der Objekterkennungsforschung werden auch gängige Metriken zur Informationsgewinnung verwendet, wie z. B. die mittlere durchschnittliche Präzision und der mittlere durchschnittliche Rückruf.

Algorithmen und Architekturen zur Objekterkennung

Es gibt eine Reihe von Ansätzen für das maschinelle Lernen bei der Objekterkennung. Beispiele hierfür sind das Viola-Jones-Framework⁸ und das Histogramm der orientierten Gradienten.⁹ Die jüngste Forschung und Entwicklung im Bereich der Objekterkennung hat sich jedoch weitgehend auf Convolutional Neural Networks (CNNs) konzentriert. Daher konzentriert sich diese Seite auf zwei Arten von CNNs, die in der Objekterkennungsforschung am meisten diskutiert werden. Beachten Sie, dass diese Modelle anhand von Benchmark-Datensätzen wie dem Microsoft COCO-Datensatz oder ImageNet getestet und verglichen werden.

R-CNN (Region-based Convolutional Neural Network) ist ein zweistufiger Detektor, der eine Methode namens „Region Proposals“ verwendet, um 2.000 Bereichsvorhersagen (Region Predictions) pro Bild zu generieren. R-CNN verzerrt dann die extrahierten Regionen auf eine einheitliche Größe und lässt diese Regionen durch separate Netzwerke zur Feature-Extraktion und Klassifizierung laufen. Jede Region wird nach dem Vertrauen in ihre Klassifizierung eingestuft. R-CNN lehnt dann Regionen ab, die eine bestimmte IoU-Überlappung mit einer ausgewählten Region mit höherer Bewertung aufweisen. Die verbleibenden nicht überlappenden und hochrangigen klassifizierten Regionen sind das Ergebnis des Modells.¹⁰ Wie erwartet ist diese Architektur rechenintensiv und langsam. Fast R-CNN und Faster R-CNN sind spätere Modifikationen, die die Größe der R-CNN-Architektur reduzieren und dadurch die Verarbeitungszeit verkürzen und gleichzeitig die Genauigkeit erhöhen.¹¹

YOLO (You Only Look Once) ist eine Familie von einstufigen Erkennungsarchitekturen, die auf Darknet, einem Open-Source-CNN-Framework, basieren. Die YOLO-Architektur wurde erstmals 2016 entwickelt und legt den Schwerpunkt auf Geschwindigkeit. Tatsächlich ist YOLO aufgrund seiner Geschwindigkeit für die Objekterkennung in Echtzeit besser geeignet und wird daher allgemein als hochmoderner Objektdetektor bezeichnet. YOLO unterscheidet sich in mehreren Punkten von R-CNN. Während R-CNN extrahierte Bildbereiche durch mehrere Netzwerke leitet, die Merkmale separat extrahieren und Bilder klassifizieren, fasst YOLO diese Aktionen in einem zentralen Netzwerk zusammen. Zweitens: Im Vergleich zu den rund 2.000 Regionenvorschlägen von R-CNN macht YOLO weniger als 100 Vorhersagen für Begrenzungsrahmen pro Bild. YOLO ist nicht nur schneller als R-CNN, sondern produziert auch weniger falsche Hintergrund-Positivmeldungen, weist jedoch einen höheren Lokalisierungsfehler auf.¹² Seit seiner Einführung wurde YOLO mehrfach aktualisiert, wobei der Schwerpunkt im Allgemeinen auf Geschwindigkeit und Genauigkeit lag.¹³

Obwohl ursprünglich für die Objekterkennung entwickelt, können spätere Versionen von R-CNN und YOLO auch Klassifizierungs- und Segmentierungsmodelle trainieren. Insbesondere kombiniert Mask R-CNN sowohl die Objekterkennung als auch die Segmentierung, während YOLOv5 separate Klassifizierungs-, Erkennungs- und Segmentierungsmodelle trainieren kann.

Natürlich gibt es neben R-CNN und YOLO noch viele andere Modellarchitekturen. SSD und Retinanet sind zwei weitere Modelle, die eine vereinfachte Architektur ähnlich wie YOLO verwenden.¹⁴ DETR ist eine weitere von Facebook (jetzt Meta) entwickelte Architektur, die CNN mit einem Transformator-Modell kombiniert und eine mit Faster R-CNN vergleichbare Leistung aufweist.¹⁵

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think.

Abonnieren Sie noch heute

Beispielanwendungsfälle

In vielen Anwendungsfällen ist die Objekterkennung kein Selbstzweck, sondern eine Stufe in einer umfassenderen Aufgabe von Computer Vision.

Autonomes Fahren

Selbstfahrende Autos verwenden in großem Umfang die Objekterkennung, um Objekte wie Autos und Fußgänger zu erkennen. Ein solches Beispiel ist die Autopilot-KI von Tesla. Aufgrund ihrer höheren Geschwindigkeit sind einfache Architekturen wie YOLO und SimpleNet offensichtlich besser für das autonome Fahren geeignet.¹⁶

Medizinische Bildgebung

Die Objekterkennung kann bei Aufgaben der visuellen Inspektion helfen. So untersucht beispielsweise ein Gremium für Objekterkennung Metriken und Modelle zur Identifizierung physiologischer Krankheitsindikatoren in medizinischen Bildern wie Röntgenaufnahmen und MRT-Scans. In diesem Bereich hat sich die Forschung angesichts des Mangels an solchen medizinischen Krankheitsbildern stark auf die Verbesserung von Datensatzungleichgewichten konzentriert.¹⁷

Sicherheit

Bei der Videoüberwachung kann eine Echtzeit-Objekterkennung eingesetzt werden, um mit Straftaten in Verbindung stehende Objekte wie Schusswaffen oder Messer in den Aufnahmen von Sicherheitskameras zu verfolgen. Durch die Erkennung solcher Objekte können Sicherheitssysteme Straftaten besser vorhersagen und verhindern. Forscher haben Algorithmen zur Erkennung von Schusswaffen entwickelt, die sowohl R-CNN als auch YOLO verwenden.¹⁸

Mixture of Experts | 25. April, Folge 52

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Die neuesten Podcast-Folgen ansehen

Aktuelle Forschung

Unausgewogene Datensätze sind ein Problem bei Objekterkennungsaufgaben, da in vielen bereichsspezifischen Datensätzen die Anzahl der negativen Proben (d. h. Bilder ohne das gesuchte Objekt) die der positiven Proben bei Weitem übersteigt. Dies ist ein besonderes Problem bei medizinischen Bildern, bei denen positive Krankheitsbeispiele schwer zu beschaffen sind. Aktuelle Forschungsarbeiten nutzen die Datenanreicherung, um begrenzte Datensätze zu erweitern und zu diversifizieren und so die Modellleistung zu verbessern.¹⁹

Frühere Entwicklungen im Bereich der Objekterkennung konzentrierten sich größtenteils auf 2D-Bilder. In jüngerer Zeit haben sich Forscher Anwendungen zur Objekterkennung für 3D-Bilder und Videos zugewandt. Bewegungsunschärfe und wechselnder Kamerafokus verursachen Probleme bei der Identifizierung von Objekten über Videobilder hinweg. Forscher haben eine Reihe von Methoden und Architekturen untersucht, um Objekte trotz solcher Bedingungen über Frames hinweg zu verfolgen, wie z. B. die Architektur des rekursiven neuronalen Netzwerks mit Langzeitgedächtnis (LSTM)²⁰ und transformatorbasierte Modelle.²¹ Transformatoren wurden eingesetzt, um Modelle zur Objekterkennung für Echtzeit-Erkennungsaufgaben zu beschleunigen. Parallelverarbeitungstechniken sind ein weiterer wichtiger Forschungsbereich in diesem Zusammenhang.²²

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie bei der Vorbereitung von Datensätzen und dem Einsatz von Foundation Models den richtigen Ansatz wählen.

Ressourcen

KI in Aktion 2024

Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.

IBM Granite erkunden

IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

Zu mehr KI-Know-how

Greifen Sie auf unseren vollständigen Katalog mit über 100 Online-Kursen zu, indem Sie noch heute ein Abonnement für Einzel- oder Mehrbenutzer erwerben, mit dem Sie Ihre Fähigkeiten in einer Reihe unserer Produkte zu einem günstigen Preis erweitern können.

IBM AI Academy

Das Programm, das von führenden IBM Experten geleitet wird, soll Führungskräften dabei helfen, das nötige Wissen zu erwerben, um die Prioritäten für KI-Investitionen zu setzen, die zu mehr Wachstum führen.

KI zum Einsatz bringen: Mehr ROI dank generativer KI

Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

Wie Sie im neuen KI-Zeitalter vertrauensvoll und zuversichtlich in eine erfolgreiche Zukunft blicken

Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.

Ressourcen

Netzwerklatenz und ihre Auswirkungen verstehen

Erfahren Sie, was Netzwerklatenz ist, warum sie wichtig ist und wie sie sich auf die Leistung auswirkt. Erkunden Sie ihre Ursachen und Lösungen, um die Latenzzeit zu messen und zu reduzieren und so schnellere und effizientere Verbindungen herzustellen.

Erschließen Sie das Potenzial von XR am Arbeitsplatz

Erkunden Sie, wie Augmented Reality (AR) und Virtual Reality (VR) die Produktivität und Flexibilität Ihres Unternehmen steigern können. Erhalten Sie Zugriff auf unsere neuesten Erkenntnisse zur Nutzung der XR-Technologie, um Ihren Arbeitsbereich zu transformieren und die Effizienz zu steigern.

Revolutionieren Sie Ihren Betrieb mit Edge Computing

Entdecken Sie, wie Edge Computing durch höhere Geschwindigkeit, verbesserte Sicherheit und unübertroffene Skalierbarkeit Abläufe transformiert. Sind Sie bereit, das Potenzial von Edge zu nutzen? Tauchen Sie jetzt ein.

5G-Network-Slicing: Neue Möglichkeiten für Telekommunikationsanbieter freischalten

Erfahren Sie, wie 5G-Network-Slicing den Telekommunikationsbetrieb revolutioniert, indem es personalisierte, schnelle und zuverlässige Konnektivität für Branchen wie Gesundheitswesen, Fertigung und Smart Cities ermöglicht.

ESG verstehen: Environmental Social and Governance (Umwelt, Soziales und Governance) erklärt

ESG integriert Umwelt-, Sozial- und Governance-Faktoren in die Unternehmensstrategien und bietet Vorteile, die von der Einhaltung gesetzlicher Vorschriften bis hin zur Stärkung des Vertrauens der Stakeholder reichen. Erfahren Sie, wie ESG-Investitionen finanzielle Ziele mit ethischer Verantwortung in Einklang bringen können und wie ESG-Metriken effektiv offengelegt werden können.

5G-Mythen und -Irrtümer

Wie können IT-DevOps-Prinzipien auf die Bereitstellung eines komplexen 5G-Netzwerks angewendet werden?

Weiterführende Lösungen

IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein
– mit branchenführendem Fachwissen im Bereich KI und dem umfassenden Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken

Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden

Live-Demo buchen

Fußnoten

¹ Bogusław Cyganek, Object Detection and Recognition in Digital Images: Theory and Practice, Wiley, 2013.

² Kemal Oksuz, Baris Can Cam, Sinan Kalkan und Emre Akbas, „Imbalance Problems in Object Detection: A Review“, IEEE Transactions on Pattern Analysis and Machine Intelligence, Band 43, Nr. 10, 2021, S. 3388-3415, https://ieeexplore.ieee.org/document/9042296.

³ Archangelo Disante und Cosimo Disante, Handbook of Image Processing and Computer Vision, Band 1, Springer, 2020. Milan Sonka, Vaclav Hlavac und Roger Boyle, Image Processing, Analysis, and Machine Vision, 4. Auflage, Cengage, 2015.

⁴ Archangelo Disante und Cosimo Disante, Handbook of Image Processing and Computer Vision, Band 3, Springer, 2020. Milan Sonka, Vaclav Hlavac, and Roger Boyle, Image Processing, Analysis, and Machine Vision, 4. Auflage, Cengage, 2015.

⁵ Benjamin Planche und Eliot Andres, Hands-On Computer Vision with TensorFlow 2, Packt Publishing, 2019. Van Vung Pham und Tommy Dang, Hands-On Computer Vision with Detectron2, Packt Publishing, 2023. Licheng Jiao, Fan Zhang, Fang Liu, Shuyuan Yang, Lingling Li, Zhixi Feng, Rong Qu, „A survey of deep learning-based object detection“, IEEE Access, Band 7, 2019, S. 128837-128868, https://ieeexplore.ieee.org/document/8825470. Richard Szeliski, Computer Vision: Algorithms and Applications, 2. Auflage, Springer, 2021.

⁶ Richard Szeliski, Computer Vision: Algorithms and Applications, 2. Auflage, Springer, 2021.

⁷ Hamid Rezatofighi, Nathan Tsoi, JunYoung Gwak, Amir Sadeghian, Ian Reid und Silvio Savarese, „Generalized intersection over union: A metric and a loss for bounding box regression“, Protokolle der IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019,S. 658-666, hier verfügbar.

⁸ P. Viola und M. Jones, „Rapid object detection using a boosted cascade of simple features“, Protokolle der 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2001, https://ieeexplore.ieee.org/document/990517.

⁹ N. Dalal und B. Triggs, „Histograms of oriented gradients for human detection“, Protokolle der 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2005, S. 886-893, https://ieeexplore.ieee.org/document/1467360 .

¹⁰ Ross Girshick, Jeff Donahue, Trevor Darrell und Jitendra Malik, "Rich feature hierarchies for accurate object detection and semantic segmentation," Protokolle der 2014 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2014, https://arxiv.org/abs/1311.2524 .

¹¹ Ross Girschick, „Fast R-CNN“, Protokolle der 2015 IEEE International Conference on Computer Vision (ICCV), 2015, S. 1440-1448, https://arxiv.org/abs/1504.08083 . Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun, „Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks“, Advances in Neural Information Processing Systems (NIPS 2015), Band 28, https://proceedings.neurips.cc/paper_files/paper/2015/hash/14bfa6bb14875e45bba028a21ed38046-Abstract.html .

¹² Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, „You Only Look Once: Unified, Real-Time Object Detection“, 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, S. 779-788, https://arxiv.org/abs/1506.02640.

¹³ Joseph Redmon und Ali Farhadi, „YOLOv3: An Incremental Improvement“, 2018, https://arxiv.org/abs/1804.02767 . Alexey Bochkovskiy, Chien-Yao Wang und Hong-Yuan Mark Liao, „YOLOv4: Optimal Speed and Accuracy of Object Detection“, European Conference on Computer Vision, 2020, https://arxiv.org/abs/2004.10934 . Xin Huang, Xinxin Wang, Wenyu Lv, Xiaying Bai, Xiang Long, Kaipeng Deng, Qingqing Dang, Shumin Han, Qiwen Liu, Xiaoguang Hu, Dianhai Yu, Yanjun Ma und Osamu Yoshie, „PP-YOLOv2: A Practical Object Detector“, 2021, https://arxiv.org/abs/2104.10419 . Chien-Yao Wang, Alexey Bochkovskiy und Hong-Yuan Mark Liao, „YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors“, 2022, https://arxiv.org/abs/2207.02696.

¹⁴ Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu und Alexander C. Berg, „SSD: Single Shot MultiBox Detector“, Protokolle der European Conference of Computer Vision (ECCV), 2016, S. 21-37, https://arxiv.org/abs/1512.02325. Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He und Piotr Dollár, „Focal Loss for Dense Object Detection“, IEEE Transactions on Pattern Analysis and Machine Intelligence, Band 42, Nr. 2, 2020, S. 318-327,https://arxiv.org/abs/1708.02002.

¹⁵ Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov und Sergey Zagoruyko, „End-to-End Object Erkennung with Transformers“, Protokolle der European Konferenz of Computer Vision (ECCV), 2020, https:// www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123460205.pdf .

¹⁶ Abhishek Balasubramaniam und Sudeep Pasricha, „Object Detection in Autonomous Vehicles: Status and Open Challenges“, 2022, https://arxiv.org/abs/2201.07706. Gene Lewis, „Object Detection for Autonomous Vehicles“, 2016, https://web.stanford.edu/class/cs231a/prev_projects_2016/object-detection-autonomous.pdf.

¹⁷ Trong-Hieu Nguyen-Mau, Tuan-Luc Huynh, Thanh-Danh Le, Hai-Dang Nguyen und Minh-Triet Tran, „Advanced Augmentation and Ensemble Approaches for Classifying Long-Tailed Multi-Label Chest X-Rays“, Protokolle der IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, S. 2729-2738, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Nguyen-Mau_Advanced_Augmentation_and_Ensemble_Approaches_for_Classifying_Long-Tailed_Multi-Label_Chest_ICCVW_2023_paper.html. Changhyun Kim, Giyeol Kim, Sooyoung Yang, Hyunsu Kim, Sangyool Lee und Hansu Cho, „Chest X-Ray Feature Pyramid Sum Model with Diseased Area Data Augmentation Method“, Protokolle der IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, S. 2757-2766, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Kim_Chest_X-Ray_Feature_Pyramid_Sum_Model_with_Diseased_Area_Data_ICCVW_2023_paper.html.

¹⁸ Palash Yuvraj Ingle und Young-Gab Kim, „Real-Time Abnormal Object Detection for Video Surveillance in Smart Cities“, Sensors, Band 22, Nr. 10, 2022, https://www.mdpi.com/1424-8220/22/10/3862.

¹⁹ Manisha Saini und Seba Susan, „Tackling class imbalance in computer vision: a contemporary review“, Artificial Intelligence Review, Band 56, 2023, S. 1279–1335, https://link.springer.com/article/10.1007/s10462-023-10557-6.

²⁰ Kai Kang, Hongsheng Li, Tong Xiao, Wanli Ouyang, Junjie Yan, Xihui Liu und Xiaogang Wang, „Object Detection in Videos With Tubelet Proposal Networks“, Protokolle der IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, S. 727-735, https://openaccess.thecvf.com/content_cvpr_2017/html/Kang_Object_Detection_in_CVPR_2017_paper.html

²¹ Sipeng Zheng, Shizhe Chen und Qin Jin, „VRDFormer: End-to-End Video Visual Relation Detection With Transformers“, Protokolle der IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022, S. 18836-18846, https://openaccess.thecvf.com/content/CVPR2022/html/Zheng_VRDFormer_End-to-End_Video_Visual_Relation_Detection_With_Transformers_CVPR_2022_paper.html.

²² Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov und Sergey Zagoruyko, „End-to-End Object Detection with Transformers“, Protokolle der European Conference on Computer Vision (ECCV), 2020, S. 213-229, https://link.springer.com/chapter/10.1007/978-3-030-58452-8_13, Mekhriddin Rakhimov, Jamshid Elov , Utkir Khamdamov , Shavkatjon Aminov und Shakhzod Javliev, „Parallel Implementation of Real-Time Object Detection using OpenMP“, International Conference on Information Science and Communications Technologies (ICISCT), 2021, https://ieeexplore.ieee.org/document/9670146. Yoon-Ki Kim und Yongsung Kim, „DiPLIP: Distributed Parallel Processing Platform for Stream Image Processing Based on Deep Learning Model Inference“, Electronics, Band 9, Nr. 10, 2020, https://www.mdpi.com/2079-9292/9/10/1664.