Was ist Objekterkennung?

Autoren

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

Die Objekterkennung ist eine Technik, die neuronale Netze verwendet, um Objekte in Bildern zu lokalisieren und zu klassifizieren. Diese Aufgabe von Computer Vision hat ein breites Anwendungsspektrum, von der medizinischen Bildgebung bis hin zu selbstfahrenden Autos.

Die Objekterkennung ist eine Aufgabe der Computer Vision, die darauf abzielt, Objekte in digitalen Bildern zu lokalisieren. Als solche ist sie ein Beispiel für künstliche Intelligenz, bei der Computer darauf trainiert werden, wie Menschen zu sehen, insbesondere durch Erkennen und Klassifizieren von Objekten nach semantischen Kategorien.1 Die Objektlokalisierung ist eine Technik zur Bestimmung der Position bestimmter Objekte in einem Bild durch Abgrenzung des Objekts durch einen Begrenzungsrahmen. Die Objektklassifizierung ist eine weitere Technik, mit der bestimmt wird, zu welcher Kategorie ein erkanntes Objekt gehört. Die Aufgabe der Objekterkennung kombiniert Teilaufgaben der Objektlokalisierung und -klassifizierung, um gleichzeitig den Standort und die Art von Objektinstanzen in einem oder mehreren Bildern zu schätzen.2

Aufgaben im Bereich Computer Vision

Die Objekterkennung überschneidet sich mit anderen Verfahren der Computer-Vision, wird von Entwicklern jedoch als eigenständiges Unterfangen behandelt.

Die Bildklassifizierung (oder Bilderkennung) zielt darauf ab, Bilder nach definierten Kategorien zu klassifizieren. Ein einfaches Beispiel hierfür sind CAPTCHA-Bildtests, bei denen eine Gruppe von Bildern als Bilder mit Stoppschildern und als Bilder ohne Stoppschilder organisiert werden kann. Bei der Bildklassifizierung wird einem ganzen Bild ein Etikett zugewiesen.

Die Objekterkennung hingegen grenzt einzelne Objekte in einem Bild nach bestimmten Kategorien ab. Während bei der Bildklassifizierung die Bilder in solche mit und solche ohne Stoppschilder unterteilt werden, werden bei der Objekterkennung alle Verkehrsschilder in einem Bild sowie andere Objekte wie Autos und Personen lokalisiert und kategorisiert.

Bildsegmentierung (oder semantische Segmentierung) ähnelt der Objekterkennung, ist jedoch präziser. Wie die Objekterkennung grenzt die Segmentierung Objekte in einem Bild nach semantischen Kategorien ab. Anstatt Objekte jedoch mit Kästchen zu markieren, werden sie bei der Segmentierung auf Pixelebene abgegrenzt.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

So funktioniert die Objekterkennung

Um die inneren Mechanismen der Objekterkennung zu verstehen, ist ein grundlegendes Verständnis von Computer Vision und digitaler Bildverarbeitung im weiteren Sinne erforderlich. Dieser Abschnitt bietet einen allgemeinen Überblick.

Bildverarbeitung

In der Computervision werden Bilder als kontinuierliche Funktionen auf einer 2D-Koordinatenebene ausgedrückt, die als f(x,y) dargestellt wird. Bei der Digitalisierung durchlaufen Bilder zwei Hauptprozesse, die als Sampling und Quantisierung bezeichnet werden und die zusammen die kontinuierliche Bildfunktion in eine diskrete Gitterstruktur aus Pixelelementen umwandeln. Der Computer kann dann ein Bild in einzelne Bereiche unterteilen, die sich in ihrer visuellen Ähnlichkeit und der Nähe der Pixel unterscheiden.3

Durch die Beschriftung von Bildern über eine Anmerkungsschnittstelle definieren Benutzer ein bestimmtes Objekt als einen Bereich mit bestimmten Merkmalen auf Pixelebene (z. B. Fläche, Grauwert usw.). Bei einem Eingabebild erkennt das Objekterkennungsmodell Regionen mit ähnlichen Merkmalen wie die, die im Trainingsdatensatz als dasselbe Objekt definiert sind. Auf diese Weise ist die Objekterkennung eine Form der Mustererkennung. Modelle zur Objekterkennung erkennen keine Objekte an sich, sondern eher Aggregate von Eigenschaften wie Größe, Form, Farbe usw. und klassifizieren Bereiche anhand visueller Muster, die aus manuell annotierten Trainingsdaten abgeleitet werden.4

Ein Objekterkennungsmodell für ein selbstfahrendes Auto erkennt beispielsweise keine Fußgänger, sondern eine Reihe von Merkmalen, die das allgemeine Muster bilden, das Fußgängerobjekte charakterisiert (wie in den Trainingsdaten definiert).

Modellarchitektur

Obwohl verschiedene Modellfamilien unterschiedliche Architekturen verwenden, folgen Deep-Learning-Modelle zur Objekterkennung einer allgemeinen Struktur. Sie bestehen aus einem Backbone, einem Hals und einem Kopf.

Der Backbone extrahiert Funktion aus einem Eingabebild. Oft wird der Backbone aus einem Teil eines vorab trainierten Klassifizierungsmodells abgeleitet. Die Merkmalsextraktion erzeugt eine Vielzahl von Merkmalskarten mit unterschiedlichen Auflösungen, die vom Backbone an den Hals weitergeleitet werden. Dieser letzte Teil der Struktur verkettet die Feature-Maps für jedes Bild. Die Architektur übergibt dann die überlagerten Feature-Maps an den Head, der Bounding-Boxes und Klassifizierungswerte für jedes Feature-Set vorhersagt.

Zweistufige Detektoren trennen die Objektlokalisierung und -klassifizierung im Kopf, während einstufige Detektoren diese Aufgaben kombinieren. Erstere liefern im Allgemeinen eine höhere Lokalisierungsgenauigkeit, während letztere schneller arbeiten.5

Bewertungsmetriken

„Intersection over Union“ (IoU) ist eine gängige Bewertungsmetrik, die in Objekterkennungsmodellen verwendet wird. Ein Begrenzungsrahmen ist der quadratische Output, der ein erkanntes Objekt gemäß der Vorhersage des Modells abgrenzt. IoU berechnet das Verhältnis der Schnittfläche zweier Begrenzungsrahmen (d. h. der überlappenden Abschnitte der Rahmen) zu ihrer Vereinigungsfläche (d. h. der Gesamtfläche beider Rahmen zusammen):6

Wir können uns diese Gleichung wie folgt vorstellen:

Modelle verwenden IoU, um die Vorhersagegenauigkeit zu messen, indem sie den IoU zwischen einer vorhergesagten Box und der Ground-Truth-Box berechnen. Modellarchitekturen verwenden auch IoU, um endgültige Begrenzungsrahmen-Vorhersagen zu generieren. Da Modelle anfangs oft mehrere hundert Begrenzungsrahmen-Vorhersagen für ein einzelnes erkanntes Objekt generieren, verwenden Modelle IoU, um Begrenzungsrahmen-Vorhersagen abzuwägen und zu einem einzigen Rahmen pro erkanntem Objekt zusammenzufassen.

Für verschiedene Auswertungen von Objekterkennungsmodellen können andere Metriken verwendet werden. Die verallgemeinerte Schnittmenge über Vereinigung (GIoU) ist eine modifizierte Version der Schnittmenge über Vereinigung, die Verbesserungen bei der Objektlokalisierung berücksichtigt, für die die grundlegende Schnittmenge über Vereinigung immer noch einen Nullwert zurückgeben kann.7 In der Objekterkennungsforschung werden auch gängige Metriken zur Informationsgewinnung verwendet, wie z. B. die mittlere durchschnittliche Präzision und der mittlere durchschnittliche Rückruf.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Algorithmen und Architekturen zur Objekterkennung

Es gibt eine Reihe von Ansätzen für das maschinelle Lernen bei der Objekterkennung. Beispiele hierfür sind das Viola-Jones-Framework8 und das Histogramm der orientierten Gradienten.9 Die jüngste Forschung und Entwicklung im Bereich der Objekterkennung hat sich jedoch weitgehend auf Convolutional Neural Networks (CNNs) konzentriert. Daher konzentriert sich diese Seite auf zwei Arten von CNNs, die in der Objekterkennungsforschung am meisten diskutiert werden. Beachten Sie, dass diese Modelle anhand von Benchmark-Datensätzen wie dem Microsoft COCO-Datensatz oder ImageNet getestet und verglichen werden.

R-CNN (Region-based Convolutional Neural Network) ist ein zweistufiger Detektor, der eine Methode namens „Region Proposals“ verwendet, um 2.000 Bereichsvorhersagen (Region Predictions) pro Bild zu generieren. R-CNN verzerrt dann die extrahierten Regionen auf eine einheitliche Größe und lässt diese Regionen durch separate Netzwerke zur Feature-Extraktion und Klassifizierung laufen. Jede Region wird nach dem Vertrauen in ihre Klassifizierung eingestuft. R-CNN lehnt dann Regionen ab, die eine bestimmte IoU-Überlappung mit einer ausgewählten Region mit höherer Bewertung aufweisen. Die verbleibenden nicht überlappenden und hochrangigen klassifizierten Regionen sind das Ergebnis des Modells.10 Wie erwartet ist diese Architektur rechenintensiv und langsam. Fast R-CNN und Faster R-CNN sind spätere Modifikationen, die die Größe der R-CNN-Architektur reduzieren und dadurch die Verarbeitungszeit verkürzen und gleichzeitig die Genauigkeit erhöhen.11

YOLO (You Only Look Once) ist eine Familie von einstufigen Erkennungsarchitekturen, die auf Darknet, einem Open-Source-CNN-Framework, basieren. Die YOLO-Architektur wurde erstmals 2016 entwickelt und legt den Schwerpunkt auf Geschwindigkeit. Tatsächlich ist YOLO aufgrund seiner Geschwindigkeit für die Objekterkennung in Echtzeit besser geeignet und wird daher allgemein als hochmoderner Objektdetektor bezeichnet. YOLO unterscheidet sich in mehreren Punkten von R-CNN. Während R-CNN extrahierte Bildbereiche durch mehrere Netzwerke leitet, die Merkmale separat extrahieren und Bilder klassifizieren, fasst YOLO diese Aktionen in einem zentralen Netzwerk zusammen. Zweitens: Im Vergleich zu den rund 2000 Regionenvorschlägen von R-CNN macht YOLO weniger als 100 Vorhersagen für Begrenzungsrahmen pro Bild. YOLO ist nicht nur schneller als R-CNN, sondern produziert auch weniger falsche Hintergrund-Positivmeldungen, weist jedoch einen höheren Lokalisierungsfehler auf.12 Seit seiner Einführung wurde YOLO mehrfach aktualisiert, wobei der Schwerpunkt im Allgemeinen auf Geschwindigkeit und Genauigkeit lag.13

Obwohl ursprünglich für die Objekterkennung entwickelt, können spätere Versionen von R-CNN und YOLO auch Klassifizierungs- und Segmentierungsmodelle trainieren. Insbesondere kombiniert Mask R-CNN sowohl die Objekterkennung als auch die Segmentierung, während YOLOv5 separate Klassifizierungs-, Erkennungs- und Segmentierungsmodelle trainieren kann.

Natürlich gibt es neben R-CNN und YOLO noch viele andere Modellarchitekturen. SSD und Retinanet sind zwei weitere Modelle, die eine vereinfachte Architektur ähnlich wie YOLO verwenden.14 DETR ist eine weitere von Facebook (jetzt Meta) entwickelte Architektur, die CNN mit einem Transformator-Modell kombiniert und eine mit Faster R-CNN vergleichbare Leistung aufweist.15

Beispielanwendungsfälle

In vielen Anwendungsfällen ist die Objekterkennung kein Selbstzweck, sondern eine Stufe in einer umfassenderen Aufgabe der Computervision.

Autonomes Fahren

Selbstfahrende Autos verwenden in großem Umfang die Objekterkennung, um Objekte wie Autos und Fußgänger zu erkennen. Ein solches Beispiel ist die Autopilot-KI von Tesla. Aufgrund ihrer höheren Geschwindigkeit sind einfache Architekturen wie YOLO und SimpleNet offensichtlich besser für das autonome Fahren geeignet.16

Medizinische Bildgebung

Die Objekterkennung kann bei Aufgaben der visuellen Inspektion helfen. So untersucht beispielsweise ein Gremium für Objekterkennung Metriken und Modelle zur Identifizierung physiologischer Krankheitsindikatoren in medizinischen Bildern wie Röntgenaufnahmen und MRT-Scans. In diesem Bereich hat sich die Forschung angesichts des Mangels an solchen medizinischen Krankheitsbildern stark auf die Verbesserung von Datensatzungleichgewichten konzentriert.17

Sicherheit

Bei der Videoüberwachung kann eine Echtzeit-Objekterkennung eingesetzt werden, um mit Straftaten in Verbindung stehende Objekte wie Schusswaffen oder Messer in den Aufnahmen von Sicherheitskameras zu verfolgen. Durch die Erkennung solcher Objekte können Sicherheitssysteme Straftaten besser vorhersagen und verhindern. Forscher haben Algorithmen zur Erkennung von Schusswaffen entwickelt, die sowohl R-CNN als auch YOLO verwenden.18

Aktuelle Forschung

Unausgewogene Datensätze sind ein Problem bei Objekterkennungsaufgaben, da in vielen bereichsspezifischen Datensätzen die Anzahl der negativen Proben (d. h. Bilder ohne das gesuchte Objekt) die der positiven Proben bei Weitem übersteigt. Dies ist ein besonderes Problem bei medizinischen Bildern, bei denen positive Krankheitsbeispiele schwer zu beschaffen sind. Aktuelle Forschungsarbeiten nutzen die Datenanreicherung, um begrenzte Datensätze zu erweitern und zu diversifizieren und so die Modellleistung zu verbessern.19

Frühere Entwicklungen im Bereich der Objekterkennung konzentrierten sich größtenteils auf 2D-Bilder. In jüngerer Zeit haben sich Forscher Anwendungen zur Objekterkennung für 3D-Bilder und Videos zugewandt. Bewegungsunschärfe und wechselnder Kamerafokus verursachen Probleme bei der Identifizierung von Objekten über Videobilder hinweg. Forscher haben eine Reihe von Methoden und Architekturen untersucht, um Objekte trotz solcher Bedingungen über Frames hinweg zu verfolgen, wie z. B. die Architektur des rekursiven neuronalen Netzwerks mit Langzeitgedächtnis (LSTM)20 und transformatorbasierte Modelle.21 Transformatoren wurden eingesetzt, um Modelle zur Objekterkennung für Echtzeit-Erkennungsaufgaben zu beschleunigen. Parallelverarbeitungstechniken sind ein weiterer wichtiger Forschungsbereich in diesem Zusammenhang.22

Weiterführende Lösungen
IBM Maximo Visual Inspection

Nutzen Sie No-Code-Computer-Vision für die Automatisierung von visuellen Inspektionen.

Erfahren Sie mehr über Maximo Visual Inspection
Beratung und Services zu künstlicher Intelligenz (KI)

Die KI-Services von IBM Consulting unterstützen Sie dabei, die Art und Weise, wie Unternehmen mit KI arbeiten, neu zu denken.

Erkunden Sie die Services im Bereich der künstlichen Intelligenz
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein
– mit branchenführendem Fachwissen im Bereich KI und dem umfassenden Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
Machen Sie den nächsten Schritt

Mit IBM Maximo Visual Inspection können Ihre Qualitätskontroll- und Inspektionsteams die Leistungsfähigkeit der KI-Funktionen von Computer Vision nutzen. Nutzen Sie das Potenzial von No-Code-Computer-Vision für die Automatisierung von visuellen Inspektionen.

Erfahren Sie mehr über Maximo Visual Inspection Produkttour starten