Was ist Computer Vision?

Autoren

Staff Writer

IBM Think

Staff Editor, AI Models

IBM Think

Was ist Computer Vision?

Computer Vision ist ein Teilgebiet der künstlichen Intelligenz (KI), das Maschinen mit der Fähigkeit ausstattet, visuelle Eingaben wie Bilder und Videos zu verarbeiten, zu analysieren und zu interpretieren. Es nutzt maschinelles Lernen, um Computern und anderen Systemen zu helfen, aussagekräftige Informationen aus visuellen Daten abzuleiten.

Computer Vision kann als das Zusammenspiel dreier umfassender Prozesse betrachtet werden, von denen jeder zusammenarbeitet und sich gegenseitig informiert: Erkennung, Rekonstruktion und Reorganisation. Bei der Bilderkennung geht es um die Identifizierung von Handlungen, Objekten, Personen, Orten und Schriften in digitalen Bildern oder Videos. Die Rekonstruktion leitet die dreidimensionalen Eigenschaften dieser Entitäten ab, während die Reorganisation die Beziehungen zwischen den Entitäten ableitet.¹

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

So funktioniert Computer Vision

Die radiologische Bildgebung bei der Diagnose von Pneumonien ist ein häufiger Anwendungsfall im Bereich Computer Vision. Radiologen müssen Röntgenaufnahmen des Brustkorbs sorgfältig interpretieren, ein Prozess, der aufgrund der Subtilität der Lungenentzündungssymptome und ihrer Ähnlichkeiten mit anderen Lungenerkrankungen fehleranfällig und zeitaufwändig sein kann.² Ein Computer-Vision-System kann dabei helfen.

Es gibt mehrere Arten von Modellen und Ansätzen für Computer-Vision-Aufgaben, aber das folgende hypothetische Beispiel veranschaulicht einen gängigen Workflow:

Datenerfassung
Vorverarbeitung
Modellauswahl
Modelltraining

Datenerfassung

Der erste Schritt besteht darin, die erforderlichen visuellen Daten zu sammeln. Krankenhäuser erzeugen riesige Mengen an Röntgenbildern des Brustkorbs, mit denen sie einen Computer-Vision-Algorithmus schulen können. Da das Ziel darin besteht, dass der Algorithmus klassifiziert, ob ein Röntgenbild eine Lungenentzündung darstellt oder nicht, müssen Krankenhäuser einen Datensatz mit Röntgenaufnahmen des Brustkorbs zusammenstellen und jede Aufnahme korrekt kennzeichnen oder mit Anmerkungen versehen, entweder als normal oder als Hinweis auf eine Lungenentzündung.

Für andere Anwendungsfälle können Bilder und Videos aus Quellen wie Kameras und Sensoren stammen. Datensätze wie COCO, ImageNet und Open Images bieten große Sammlungen von Bildern mit Anmerkungen.

Vorverarbeitung

Ein KI-Modell ist nur so gut wie die Daten, mit denen es trainiert wird, was qualitativ hochwertige Daten für die Computer Vision entscheidend macht. Die Vorverarbeitung kann dazu beitragen, die Datenqualität durch Datenbereinigung und Verbesserungen wie die Anpassung von Helligkeit oder Kontrast zur Schärfung von Bildern sowie durch Größenanpassung und Glättung zu verbessern.

Die Datensätze müssen außerdem ausreichend groß und vielfältig sein, damit die Algorithmen für Computer Vision präzise Ergebnisse liefern können. Die Generierung synthetischer Daten und die Datenanreicherung können dazu beitragen, die Größe und Vielfalt von Datensätzen zu erweitern. Krankenhäuser können beispielsweise geometrische Transformationen verwenden, um Röntgenbilder des Brustkorbs nach links oder rechts zu drehen oder Bilder auf den Kopf zu stellen, um ihre Daten zu erweitern.

Modellauswahl

Die Auswahl des richtigen Modells für maschinelles Lernen ist entscheidend für die Optimierung von Effizienz und Leistung. Convolutional Neural Networks (CNNs) sind weiterhin das wichtigste Deep-Learning-Modell für Bildverarbeitungsaufgaben, während Recurrent Neural Networks (RNNs) sich besonders für die Verarbeitung sequenzieller Daten wie Videobilder eignen.

Fortschritte in der KI treiben jedoch eine Verlagerung hin zu Transformermodellen voran. Ein Vision Transformer (ViT) wendet beispielsweise Elemente eines Transformer-basierten Sprachmodells auf Computer Vision an. ViTs verarbeiten ein Bild in Patches und behandeln diese als Sequenzen, ähnlich wie Tokens in einem Sprachtransformer. Der Vision-Transformator wendet dann die Selbstaufmerksamkeit auf diese Patches an, um eine transformatorbasierte Darstellung des Eingabebildes zu erstellen. ViTs erreichen oder übertreffen häufig die Leistung von CNNs bei Computer-Vision-Aufgaben wie der Bildklassifizierung.³

Modelltraining

Sobald ein Modell ausgewählt wurde, folgt die Modellausbildung. In der Trainingsphase wird das Modell mit Trainingsdaten ausgeführt, die für eine bestimmte Computer-Vision-Aufgabe spezifisch sind. Dabei wird die Leistung anhand der Grundwahrheit gemessen und die Parameter werden optimiert, um die Leistung im Laufe der Zeit zu verbessern.

CNNs bestehen aus drei Arten von Schichten: einer Faltungsschicht, einer Pooling-Schicht und einer vollständig verbundenen Schicht. In der konvolutionalen Schicht findet die Merkmalsextraktion statt. Bei der Funktionsextraktion werden wichtige visuelle Attribute wie Farben, Edge, Formen und Texturen aus Bildrohdaten bestimmt und erfasst. Im Fall von Röntgenbildern mit Lungenentzündung gehören zu den zu extrahierenden Funktionen asymmetrische Lungenkonturen, helle Bereiche, die auf eine Entzündung oder das Vorhandensein von Flüssigkeit hinweisen (im Gegensatz zu dunklen, luftgefüllten Regionen), getrübte oder undurchsichtige Lungenbereiche und grobe oder fleckige Strukturen.⁴ Die Merkmalsextraktion ermöglicht es Algorithmen, signifikante Beziehungen und Muster in visuellen Daten zu erkennen.

Ein Röntgenbild wird als Matrix von Pixelwerten behandelt. Eine weitere Matrix von Gewichten (Parameter, die den Einfluss einer bestimmten Eingabemerkmal auf die Ausgabe des Modells steuern), die als Filter oder Kernel bezeichnet wird, wird auf einen Bereich des Röntgenbildes angewendet, wobei ein Skalarprodukt zwischen den Eingabepixelwerten berechnet wird. Der Filter bewegt sich über das Bild, um Merkmale zu extrahieren, und dieser gesamte Vorgang wird als Faltung bezeichnet. Das Endergebnis der Reihe von Skalarprodukten wird als Aktivierungskarte oder Merkmalskarte bezeichnet. Jeder Filter ist so abgestimmt, dass er auf bestimmte Muster wie Kanten, Formen oder Texturen reagiert, sodass das CNN mehrere visuelle Merkmale gleichzeitig lernen kann.

Die Merkmalszuordnung wird in eine Pooling-Schicht eingespeist, um die Größe der Zuordnung weiter zu reduzieren und ihre Dimensionen zu komprimieren. Ein weiterer Filter durchläuft den gesamten Input und ermittelt die Maximal- oder Durchschnittswerte innerhalb einer Gruppe von Zellen in der Merkmalszuordnung. So bleiben die wichtigsten Funktionen erhalten, sodass das Modell seine Aufmerksamkeit auf diese richten kann.

Der Vorgang, ein Bild zu durchlaufen, um Merkmale zu extrahieren, Dimensionen zu reduzieren und eine Klassifizierung zu erstellen, wird als Vorwärtsdurchlauf bezeichnet. Nach diesem Vorwärtsdurchlauf wendet das Modell eine Verlustfunktion an, um seinen Fehler oder die Differenz zwischen seiner vorhergesagten Klassifizierung und der wahren Klassifizierung zu berechnen.

Um die Verlustfunktion zu minimieren, wird die Backpropagation eingesetzt. Die Backpropagation ist ein Rückwärtsdurchlauf zur Berechnung des Gradienten der Verlustfunktion in Bezug auf jede Gewichtung. Anschließend wird die Gradientenabstiegstechnik implementiert, um die Modellgewichtungen zu aktualisieren und das Modell zu optimieren.

Schließlich führt die vollständig verbundene Schicht die Klassifizierung auf der Grundlage der Merkmale durch, die durch die vorherigen Schichten und ihre verschiedenen Filter extrahiert wurden. Das CNN generiert dann seine Ergebnisse, bei denen es sich um Wahrscheinlichkeiten für jede Klasse handelt (in diesem Fall „normal“ vs. „Lungenentzündung“). Bei der Klassifizierung von Röntgenbildern der Brust gibt diese Ausgabe entweder einen normalen Befund an oder, wenn die Wahrscheinlichkeit einen vorgegebenen Schwellenwert überschreitet, einen positiven Befund für eine Lungenentzündung.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Alle Episoden von Mixture of Experts ansehen

Aufgaben im Bereich Computer Vision

Computer-Vision-Algorithmen können für eine Vielzahl von Aufgaben trainiert werden, darunter:

Bilderkennung
Bildklassifikation
Objekterkennung
Bildsegmentierung
Objekt-Tracking
Szenenverständnis
Gesichtserkennung
Posen-Schätzung
Optische Zeichenerkennung
Bildgenerierung
Visuelle Inspektion

Bilderkennung

Die Bilderkennung ist die umfassendste Form der Computer Vision. Dies umfasst die Identifizierung von Personen, Orten, Objekten und anderen Entitäten in digitalen Bildern und dient als Grundlage für Aufgaben wie Bildklassifizierung, Objekterkennung und Bildsegmentierung.

Bildklassifikation

Die Klassifizierung von Bildern ist eine zentrale Aufgabe der Bildverarbeitung, bei der Bilder in vordefinierte Gruppen oder Klassen eingeteilt werden. Dies sagt die passende Beschriftung für ein Bild oder Objekte innerhalb eines Bildes voraus. Das zuvor dargestellte Szenario der Pneumoniediagnose anhand von Röntgenbildern des Brustkorbs ist ein Beispiel für eine Bildklassifizierung.

Objekterkennung

Die Objekterkennung zielt darauf ab, genau zu bestimmen, wo sich Objekte in digitalen Bildern befinden. Es kombiniert zwei Lerntechniken: Objektlokalisierung und Bildklassifizierung.

Bei der Objektlokalisierung wird die Position bestimmter Objekte in einem Bild ermittelt, indem um sie herum begrenzte Rahmen gezogen werden. Anschließend unterscheidet die Bildklassifizierung die Kategorie, zu der die Objekte gehören. Bei Aufnahmen des Straßenverkehrs zum Beispiel können Computer-Vision-Apps mithilfe der Objekterkennung Fahrzeuge nicht nur klassifizieren, sondern auch auf der Straße lokalisieren.

Software zur Objekterkennung, die im Verkehr eingesetzt wird

Gängige CNN-Architekturen für die Erkennung umfassen R-CNN (Region-basiertes Convolutional Neural Network) und YOLO (You Only Look Once). R-CNN implementiert eine zweistufige Erkennung, indem zunächst Bereiche mit Objekten ermittelt werden und diese Bereiche anschließend zur Klassifizierung und genaueren Lokalisierung durch separate Netzwerke geleitet werden. YOLO führt eine einstufige Erkennung durch, indem es Lokalisierung und Klassifizierung in einem einzigen Netzwerkdurchlauf kombiniert, wodurch es schnell genug für die Objekterkennung in Echtzeit ist.

Bei der Objekterkennung in Videos werden in der Regel transformatorbasierte Modelle und RNNs verwendet, insbesondere die Long Short-Term Memory-Architektur.

Bildsegmentierung

Die Bildsegmentierung ist eine präzisere Version der Objekterkennung auf Pixelebene. Es unterteilt ein digitales Bild in diskrete Gruppen von Pixeln, die als Bildsegmente bezeichnet werden, und beschriftet die Pixel dann entsprechend ihrer Klasse oder Instanz.

Während die Objekterkennung mehrere Elemente innerhalb eines Bildes klassifizieren und die Breite und Höhe jedes Elements annähernd bestimmen kann, erkennt die Bildsegmentierung exakte Grenzen oder Formen. Dies macht die Bildsegmentierung besonders wertvoll für die Abgrenzung eng beieinander liegender Objekte mit sich überlappenden Begrenzungsrahmen.

Die Bildsegmentierung kann weiter in drei Aufgabentypen unterteilt werden:

Semantische Segmentierung ist der einfachste Typ. Sie weist jedem Pixel eine semantische Klasse zu – die spezifische Kategorie, zu der ein bestimmtes Pixel gehören könnte.
Instanzsegmentierung sagt die exakten pixelgenauen Grenzen (Boundaries) jeder einzelnen Objektinstanz in einem Bild voraus.
Die panoptische Segmentierung kombiniert semantische und Instanzsegmentierung, indem sie die semantische Klassifizierung aller Pixel bestimmt und jede Objektinstanz in einem Bild unterscheidet.

In einem Bild einer Stadtstraße könnte die semantische Segmentierung beispielsweise hintereinander geparkte Autos als ein langes Autosegment behandeln, während die Instanzsegmentierung jedes Auto separat betrachtet und dessen Form bestimmt.

Eine Grafik, die Quellbilder mit semantischer, Instanz- und panoptischer Segmentierung vergleicht.

Objekt-Tracking

Die Objektverfolgung verfolgt und lokalisiert ein Objekt, während es sich über eine Sequenz von Video- oder Bildframes bewegt. Sie identifiziert und unterscheidet das Objekt in jedem Bild und bewahrt die Kontinuität des Objekts während der Durchquerung.

Szenenverständnis

Das Szenenverständnis geht einen Schritt über die Objekterkennung hinaus und erfasst ein höheres Maß an visuellen Informationen. Nach der Identifizierung von Objekten in einem Bild prognostizieren Deep-Learning-Modelle Verbindungen zwischen ihnen, wie beispielsweise Handlungen, Ereignisse und Interaktionen.

Graph Neural Networks (GNNs) können verwendet werden, um die räumlichen Beziehungen zwischen Objekten in einem Bild darzustellen. Im Beispiel mit den Verkehrsaufnahmen können Computer-Vision-Systeme erkennen, dass sich ein Taxi vor einem Auto bewegt, ein Auto links neben einem Taxi geparkt ist oder ein Auto nach rechts abbiegt.

Vision-Sprachmodelle (VLMs) können ebenfalls beim Verständnis von Szenen helfen. Diese Kombination aus großen Sprachmodellen (LLMs) und Vision Transformers kann Objekte innerhalb eines Bildes erkennen und klassifizieren und kontextbezogene Beschreibungen liefern, wie beispielsweise die Position eines Objekts im Verhältnis zu anderen visuellen Elementen.

Gesichtserkennung

Die Gesichtserkennung wendet die Bilderkennung auf Funktionen an. Sie erfasst die Gestaltung eines Gesichts und erkennt wichtige Muster wie den Abstand zwischen den Augen, den Abstand von der Stirn zum Kinn, die Kontur der Nase und die Form der Mundwinkel.

Die Gesichtserkennung kann Personen in Echtzeit oder auf Fotos oder Videos identifizieren. Ein beliebtes Beispiel ist die biometrische Authentifizierung durch Gesichtserkennung zum Freischalten von Smartphones.

Schätzung der Pose

Die Posenschätzung misst die räumliche Position verschiedener Körperteile, um Gesten zu erkennen und Körperbewegungen zu verfolgen. Beispielsweise kann die Posenschätzung dabei helfen, die Ausrichtung der Arme und Hände eines Spielers während des Virtual-Reality-Spiels zu markieren. Ein praxisnaheres Beispiel ist die Computer-Vision-Software der NASA, die den Bedienern von Roboterarmen an Bord der Internationalen Raumstation Echtzeit-Posenschätzungen für das präzise Greifen von Zielen liefert.⁵

Optische Zeichenerkennung

Optische Zeichenerkennung (OCR), auch als Texterkennung bezeichnet, extrahiert und konvertiert Text aus Bildern, gescannten Dokumenten und anderen Quellen in ein maschinenlesbares Format. In dieser Funktion unterstützt es die Automatisierung der Digitalisierung von handschriftlichen Texten und Papierunterlagen.

Der OCR-Workflow führt die folgenden Schritte aus:

Bei der Bildaufnahme wird das Bild oder digitale Dokument in eine Schwarz-Weiß-Version umgewandelt, wobei helle Bereiche als Hintergrund und dunkle Bereiche als Zeichen zur Erkennung markiert werden.
Die Vorverarbeitung entfernt überflüssige Pixel und kann eine Entzerrung umfassen, um eine während des Scannens falsch ausgerichtete Bildposition zu korrigieren.
Die Texterkennung identifiziert Buchstaben, Ziffern oder Symbole, wobei jeweils ein Zeichen nach dem anderen erfasst wird. Anschließend werden Zeichen durch Mustererkennung identifiziert, indem Schriftart, Größe und Form eines Zeichens mit einer Vorlage abgeglichen werden.

CNNs und Transformer-basierte Modelle sind zu einer intelligenteren Zeichenerkennung in der Lage, indem sie Funktionen wie Kurven, Linienschnitte, Schleifen und die Anzahl der abgewinkelten Linien in einem Zeichen extrahieren. Diese Algorithmen sind auch in der Lage, eine intelligente Worterkennung durchzuführen und Wörter anstelle von Zeichen zu unterscheiden, um die Verarbeitung zu beschleunigen.

Bildgenerierung

Bildgenerierung verwendet generative KI-Modelle zur Erzeugung von Bildern. Hier sind einige gängige generative Modelle, die für die Bildgenerierung verwendet werden:

Diffusionsmodelle werden trainiert, um neuartige Bilder zu erzeugen, indem sie lernen, in ihren Trainingsdaten Proben zu entfernen oder zu rekonstruieren, die schrittweise mit zufälligem Rauschen gestreut und bis zur Unkenntlichkeit verschlüsselt wurden.
Generative Adversarial Networks (GANs) bestehen aus zwei Neural Networks: einem Generator, der Bilder erzeugt, und einem Diskriminator, der als Gegenspieler fungiert und zwischen künstlichen und echten Bildern unterscheidet. Beide Netzwerke werden iterativ trainiert, wobei das Feedback des Diskriminators die Ausgabe des Generators verbessert, bis der Diskriminator nicht mehr in der Lage ist, künstliche von realen Bildern zu unterscheiden.
Variational Autoencoders (VAEs) sind Deep-Learning-Modelle, die Variationen der Bilder erzeugen, für die sie trainiert wurden. Ein Encoder komprimiert die Eingabebilder in einen niedrigdimensionalen Raum, um die in den Bildern enthaltenen sinnvollen Informationen zu erfassen. Ein Decoder rekonstruiert dann neue Bilder aus dieser komprimierten Darstellung.

VLMs sind auch in der Lage, Bilder anhand einer Textbeschreibung zu erzeugen.

Visuelle Inspektion

Visuelle Inspektion automatisiert die Identifizierung von Mängeln. Durch die Objekterkennung prüfen Computer-Vision-Systeme Bilder oder Videos, um Fehler und Mängel zu erkennen. Die Bildsegmentierung kann auch implementiert werden, um Fehler genauer zu lokalisieren.

Mithilfe von Computer Vision entwickelte visuelle Inspektionsmaschinen können Unternehmen schnellere und sicherere Inspektionen mit erhöhter Konsistenz und Genauigkeit durchführen, sei es beim Aufzeigen von Korrosion an schwer zugänglichen Stellen von Brücken oder beim Auffinden fehlerhafter Steckverbinder in montierten elektronischen Produkten.

Computer Vision-Anwendungen

Als ausgereiftes Gebiet der KI hat die Computer Vision viele Fortschritte gemacht, die zu einer breiten Palette von Anwendungsfallen geführt haben. Hier sind einige reale Anwendungen von Computer Vision:

Landwirtschaft

Kameras, Drohnen und Satelliten erfassen hochauflösende Bilder von Nutzpflanzen und landwirtschaftlichen Gebieten. Computer-Vision-Technologien analysieren dann diese Bilder, um den Gesundheitszustand der Pflanzen zu beurteilen und Schädlinge und Unwesen für eine gezieltere Herbizidanwendung zu identifizieren.

Autonome Fahrzeuge

In der Automobilbranche erstellen selbstfahrende Autos mithilfe einer Mischung aus Kameras, Lidar, Radar und Sensoren ein 3D-Modell ihrer Umgebung. Anschließend setzen sie Objekterkennung, Bildsegmentierung und Szenenverständnis ein, um sicher zu navigieren, Hindernissen wie Fußgängern und anderen Fahrzeugen auszuweichen und Straßenfunktionen wie Fahrspuren, Ampeln und Verkehrszeichen präzise zu erkennen.

Gesundheitswesen

Die medizinische Bildgebung ist eine Anwendung für Computer Vision. So kann die Objekterkennung beispielsweise die Bildanalyse automatisieren und potenzielle Krankheitsmarker in Röntgen-, CT-, MRT- und Ultraschalluntersuchungen lokalisieren und identifizieren. Darüber hinaus kann die Instanzsegmentierung die spezifischen Grenzen (Boundary) von Organen, Geweben und Tumoren abgrenzen und so zu einer genaueren Diagnose beitragen, die eine fundiertere Entscheidungsfindung für Behandlungen und die Patientenversorgung ermöglicht.

Herstellung

Computer-Vision-Systeme helfen bei der Bestandsverwaltung, indem sie Artikel scannen, um Lagerbestände zu ermitteln. Sie können auch die Qualitätskontrolle unterstützen, indem sie Fehler in Echtzeit erkennen. Diese Systeme analysieren Produktbilder und können im Vergleich zu Inspektoren, die ihre eigene menschliche Vision verwenden, Fehler oder Unstimmigkeiten schnell und genauer kennzeichnen.

Einzelhandel und E-Commerce

Die „Just Walk Out“-Technologie von Amazon beispielsweise nutzt Computer Vision in kleinen Einzelhandel und Food-Service-Geschäften, um die Auswahl der Kunden zu verfolgen und den Bezahlvorgang zu automatisieren. Die Kunden können ihre Artikel einfach mitnehmen und gehen, ohne an den Kassen anzustehen.⁶

Online-Shops können auch Augmented Reality in Verbindung mit Gesichtserkennung und Posenschätzung für ihre virtuellen Anprobe-Erfahrungen nutzen, sodass die Kunden sich vor dem Kauf vorstellen können, wie Kleidung, Brillen oder Make-up auf ihnen aussehen würden.

Robotertechnik

Wie autonome Fahrzeuge verwenden Roboter Kameras, Lidar und Sensoren, um ihre Umgebung zu erfassen. Anschließend wenden sie Computer-Vision-Algorithmen an, um ihre Aufgaben zu erledigen, z. B. Chirurgen bei komplexen Verfahren zu unterstützen, durch Lagerhäuser zu navigieren, um Waren zu transportieren, nur Reifeprodukte zu kommissionieren und Objekte auf die Fließbänder zu bringen.

Erkundung dynamischer Räume

Die Erkennung kann Raumfahrzeugen helfen, Gefahren während der Landung zu lokalisieren und zu vermeiden, während Rover die gleiche Funktion für die Navigation im Gelände implementieren können.⁷ Die Bildklassifizierung kann zur Kategorisierung von Asteroiden, Meteoren und sogar Weltraumschrott eingesetzt werden, während die Objektverfolgung die Flugbahnen dieser astronomischen Objekte überwacht.

Werkzeuge für Computer Vision

Es gibt viele Tools für die Erstellung von Computer-Vision-Apps, die den Entwicklungsprozess rationalisieren. Einige beliebte Tools sind:

Keras
OpenCV
Scikit-image
TensorFlow
Torchvision

Keras

Keras ist eine Deep-Learning-Anwendungsprogrammierschnittstelle (API), die auf anderen KI-Frameworks wie PyTorch und TensorFlow ausgeführt werden kann. Sie bietet Dutzende von Tutorials und Beispielen für verschiedene Computer Vision-Aufgaben, einschließlich Bild- und Videoklassifizierung, Bildsegmentierung, Erkennung und OCR.

OpenCV

OpenCV ist eine der am weitesten verbreiteten Bibliotheken für Computer Vision. Diese Open-Source-Bibliothek beherbergt mehr als 2.500 Computer-Vision-Algorithmen und enthält Module für Bildverarbeitung, Objekterkennung, Videoanalyse und mehr. Sie ist in C++ geschrieben, verfügt aber auch über Wrapper für Programmiersprachen wie Java und Python.

Scikit-Bild

Scikit-image ist eine Open-Source-Sammlung von Algorithmen zur Bildverarbeitung in Python. Sie unterstützt u. a. Vorverarbeitung, Funktionsextraktion, Objekterkennung und Bildsegmentierung. Seine Einfachheit macht es für Anfänger zugänglich.

TensorFlow

TensorFlow ist eine Open-Source-Plattform für maschinelles Lernen von Google. TensorFlow dient zwar allgemeineren Deep-Learning-Anwendungen, bietet aber auch Computer-Vision-spezifische Datensätze, Tools für die Vorverarbeitung und Funktionen zur Bild- und Videoklassifizierung, Bildsegmentierung und Objekterkennung.

Torchvision

Die Bibliothek torchvision ist Teil des PyTorch-Ökosystems. Es umfasst gängige Bildtransformationen, Datensätze und andere Dienstprogrammfunktionen. Das Paket bietet auch Modelle für die Bild- und Videoklassifizierung, die Objekterkennung sowie die semantische und Instanzsegmentierung.

Eine kurze Geschichte der Computer Vision

Computer Vision ist eine der frühesten Disziplinen der KI. Seit Jahrzehnten entwickeln Informatiker Möglichkeiten, wie Maschinen visuelle Daten verstehen können.

Die Experimente begannen in den 1950er bis 1960er Jahren, als Neurophysiologen Katzen eine Reihe von Bildern zeigten, während sie die neuronale Aktivität aufzeichneten. Sie fanden heraus, dass die Tiere zuerst auf Linien reagierten, und schlossen daraus, dass die Bildverarbeitung mit einfachen Formen wie geraden Edges beginnt.⁸

Etwa zur gleichen Zeit wurde die erste Computertechnologie zur Bildscannung entwickelt, die Computer mit der Fähigkeit ausstattete, Bilder zu digitalisieren und zu erfassen.⁹ Ein weiterer Meilenstein wurde erreicht, als Computer die Fähigkeit entwickelten, zweidimensionale Bilder in dreidimensionale Formen umzuwandeln.¹⁰

1982 stellte der Neurowissenschaftler David Marr fest, dass das Sehen hierarchisch funktioniert, und führte Algorithmen ein, mit denen Maschinen Edge, Kurven, Kanten und ähnliche Grundformen erkennen können.¹¹ Im selben Jahrzehnt entwickelte der Informatiker Kunihiko Fukushima ein Netzwerk von Zellen, das Muster erkennen konnte. Er nannte es „Neocognitron“, das convolutional layers in einem neuronalen Netz umfasste.¹²

Im Jahr 2000 lag der Schwerpunkt der Untersuchungen auf der Bildklassifizierung und Objekterkennung.¹³ Im Jahr 2009 wurde der ImageNet-Datensatz eingeführt, der Millionen von beschrifteten Bildern zum Trainieren von Computer-Vision-Algorithmen enthält.¹⁴ Im Jahr 2012 entwickelte ein Team der University of Toronto das AlexNet CNN, das mit dem ImageNet-Datensatz trainiert wurde und die Fehlerquote bei der Bilderkennung erheblich reduzierte, was den Weg für die heutigen Computer-Vision-Modelle ebnete.^{Nr. 15}

Data Science und MLOps für Data Leader

Schließen Sie sich mit anderen Führungskräften zusammen, um die drei wesentlichen Säulen von MLOps und vertrauenswürdiger KI voranzutreiben: Vertrauen in Daten, Vertrauen in Modelle und Vertrauen in Prozesse.

Ressourcen

Zu mehr ML-Know-how

Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

Maschinelles Lernen erklärt

„Techsplainers“ von IBM erklärt die Grundlagen des maschinellen Lernens – von Schlüsselkonzepten bis hin zu realen Anwendungsfällen. Klare, kurze Folgen helfen Ihnen, die Grundlagen schnell zu erlernen.

KI zum Einsatz bringen: Mehr ROI dank generativer KI

Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.

IBM Granite erkunden

IBM Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Erkunden Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

Wie Sie im neuen KI-Zeitalter vertrauensvoll und zuversichtlich in eine erfolgreiche Zukunft blicken

Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.

Weiterführende Lösungen

IBM Maximo Visual Inspection

Nutzen Sie No-Code-Computer-Vision für die Automatisierung von visuellen Inspektionen.

Erfahren Sie mehr über Maximo Visual Inspection

Beratung und Services zu künstlicher Intelligenz (KI)

Die KI-Services von IBM Consulting unterstützen Sie dabei, die Art und Weise, wie Unternehmen mit KI arbeiten, neu zu denken.

Erkunden Sie die Services im Bereich der künstlichen Intelligenz

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein
– mit branchenführendem Fachwissen im Bereich KI und dem umfassenden Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

Machen Sie den nächsten Schritt

Mit IBM Maximo Visual Inspection können Ihre Qualitätskontroll- und Inspektionsteams die Leistungsfähigkeit der KI-Funktionen von Computer Vision nutzen. Nutzen Sie das Potenzial von No-Code-Computer-Vision für die Automatisierung von visuellen Inspektionen.

Fußnoten

1. The three R’s of computer vision: Recognition, reconstruction and reorganization, Pattern Recognition Letters, 8 February 2016
2. Efficient pneumonia detection using Vision Transformers on chest X-rays, Scientific Reports, 30. Januar 2024
3. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, arXiv, 3. Juni 2021
4. NGBoost Classifier Using Deep Features for Pneumonia Chest X-Ray Classification, Applied Sciences, 8. September 2025
5. Computer Vision Lends Precision to Robotic Grappling, NASA Technology Transfer Program, abgerufen am 11. September 2025
6. Amazon Just Walk Out, AWS, abgerufen am 11. September 2025
7. The Computer Vision Laboratory, NASA JPL Robotics, abgerufen am 11. September 2025
8. From Cats to the Cortex: Unravelling the Hierarchical Processing System of Vision and Brain Plasticity, Cureus, 2. September 2024
9. Your Engineering Heritage: Scanners and Computer Image Processing, IEEE-USA InSight, 8 Februar 2016
10. A Simple World: The Blocks World, Foundations of Computer Vision, 2024
11. Marr’s Computational Theory of Vision, Foundations of Computer Vision, 2024
12. Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position, Biological Cybernetics, 1980
13. Computer Vision, Foundations of Computer Vision, 2024
14. ImageNet: A large-scale hierarchical image database, IEEE Conference on Computer Vision and Pattern Recognition, 2009
15. CHM Releases AlexNet Source Code, Computer History Museum, 20. März 2025

Was ist Computer Vision?

Autoren

Was ist Computer Vision?

Die neuesten KI-Trends, präsentiert von Experten

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

So funktioniert Computer Vision

Datenerfassung

Vorverarbeitung

Modellauswahl

Modelltraining

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Aufgaben im Bereich Computer Vision

Bilderkennung

Bildklassifikation

Objekterkennung

Bildsegmentierung

Objekt-Tracking

Szenenverständnis

Gesichtserkennung

Schätzung der Pose

Optische Zeichenerkennung

Bildgenerierung

Visuelle Inspektion

Computer Vision-Anwendungen

Landwirtschaft

Autonome Fahrzeuge

Gesundheitswesen

Herstellung

Einzelhandel und E-Commerce

Robotertechnik

Erkundung dynamischer Räume

Werkzeuge für Computer Vision

Keras

OpenCV

Scikit-Bild

TensorFlow

Torchvision

Eine kurze Geschichte der Computer Vision

Ressourcen

Fußnoten