Was ist Computer Vision?

27. Juli 2021

Was ist Computer Vision?

Computer Vision ist ein Bereich der künstlichen Intelligenz (KI), der Machine Learning und neuronale Netze einsetzt, um Computern und Systemen beizubringen, aussagekräftige Informationen aus digitalen Bildern, Videos und anderen visuellen Eingaben zu gewinnen. Auf Grundlage dieser Informationen kann die KI direkt Maßnahmen ergreifen oder Empfehlungen abgeben.

Einfach ausgedrückt: Wenn KI Computern das Denken ermöglicht, ermöglicht Computer Vision ihnen das Sehen, Beobachten und Verstehen.  

Computer Vision funktioniert ähnlich wie das menschliche Sehvermögen – allerdings haben Menschen anfangs einen Vorteil. Das menschliche Sehvermögen wurde im Laufe der Evolution über Generationen hinweg für bestimmte Situationen optimiert. Zudem wird es bei jedem Menschen individuell seit der Geburt darin trainiert, Objekte zu unterscheiden, Distanzen einzuschätzen, Bewegungen wahrzunehmen sowie Unregelmäßigkeiten in einem Bild zu erkennen.

Computer Vision trainiert Maschinen darin, diese Funktionen auszuführen, muss dies allerdings in wesentlich kürzerer Zeit mithilfe von Kameras, Daten und Algorithmen an Stelle einer Netzhaut, Sehnerven und einem visuellen Cortex bewerkstelligen. Ein System, das auf Produktinspektion oder die Überwachung von Produktionsanlagen trainiert ist, kann Tausende Produkte oder Prozesse pro Minute überprüfen und kaum zu erkennende Mängel oder Probleme wahrnehmen. Dies kann menschliche Fähigkeiten schnell übersteigen.

Computer Vision wird in verschiedenen Branchen eingesetzt, von der Energie- und Versorgungswirtschaft bis hin zur Fertigungs- und Automobilindustrie – und der Markt wächst immer weiter. Laut dem Branchenanalysten Gartner wird der globale Markt für Computer Vision-Software, -Hardware und -Services bis 2031 386 Milliarden US-Dollar generieren, gegenüber 126 Milliarden US-Dollar im Jahr 2022.1

So funktioniert Computer Vision

Computer Vision benötigt große Datenmengen für ihr Training. Diese Daten werden wiederholt analysiert, bis Unterschiede festgestellt und letztendlich Bilder erkannt werden können. Soll ein Computer beispielsweise darauf trainiert werden, Autoreifen zu erkennen, muss er mit enormen Mengen an Bildern von Reifen und Elementen mit Bezug darauf gefüttert werden, um Unterschiede ermitteln und einen Reifen erkennen zu können. Besonders dann, wenn er erkennen soll, ob dieser Reifen ohne Mängel ist, steigt die erforderliche Datenmenge weiter an.

Dabei werden zwei wesentliche Technologien eingesetzt: eine Art des Machine Learning bzw. maschinellen Lernens und ein sogenanntes Convolutional Neural Network (CNN, auch „konvolutionales neuronales Netz“).

Machine Learning verwendet algorithmische Modelle, mit deren Hilfe ein Computer sich selbst den Kontext visueller Daten erschließen kann. Wenn genügend Daten in das Modell eingespeist werden, kann sich der Computer die Daten „ansehen“ und sich selbst beibringen, ein Bild vom anderen zu unterscheiden. Algorithmen ermöglichen der Maschine dabei ein eigenständiges Lernen, ohne dass dieses fest durch einen Entwickler einprogrammiert werden muss.

Ein CNN hilft einem Machine-Learning- oder Deep-Learning-Modell beim „Ansehen“ von Bildern, indem es diese in Pixel zerlegt, die mit Tags oder Labeln gekennzeichnet sind. Die Labels werden zur Durchführung von Faltungen (eine auch als „Convolution“ bezeichnete Rechenoperation, bei der zwei Funktionen eine dritte ergeben) und für Vorhersagen darüber verwendet, was der Computer „sieht“. Das neuronale Netz führt Faltungen aus und überprüft die Genauigkeit seiner Vorhersagen über mehrere Iterationen, bis sich die Vorhersagen mit der Zeit immer mehr bewahrheiten. Ab diesem Punkt erkennt oder sieht der Computer Bilder auf eine ähnliche Weise wie unsere Augen und unser Hirn. Ähnlich wie ein Mensch, der ein Bild aus der Ferne wahrnimmt, erkennt ein CNN zunächst harte Kanten und einfache Formen und fügt dann immer mehr Informationen hinzu. Dabei trifft es konstant Vorhersagen.

Ähnlich wie ein Mensch, der ein Bild aus der Ferne erkennt, erkennt ein CNN zunächst scharfe Kanten und einfache Formen und fügt dann Informationen hinzu, während es seine Vorhersagen wiederholt. Ein CNN wird genutzt, um einzelne Bilder zu verstehen. Auf eine ähnliche Weise werden für Videoanwendungen Recurrent Neural Networks (RNNs, wiederkehrende neuronale Netze) eingesetzt, um Computer dabei zu unterstützen, den Zusammenhang zwischen Bildern in einer Abfolge von Einzelbildern (Frames) zu verstehen.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Die Geschichte der Computer Vision

Wissenschaftler und Techniker arbeiten bereits seit über 60 Jahren daran, Maschinen das Betrachten und Verstehen visueller Daten zu ermöglichen. Erste Experimente begannen im Jahr 1959, als Neurophysiologen einer Katze eine Auswahl von Bildern zeigten und versuchten, eine Korrelation mit einer entsprechenden Reaktion in ihrem Gehirn herzustellen. Dabei fanden sie heraus, dass das Tier zuerst auf scharfe Kanten oder Linien reagierte. Aus wissenschaftlicher Sicht bedeutete dies, dass die Bildverarbeitung zunächst mit einfachen Formen wie geraden Kanten beginnt.2

Etwa zeitgleich wurde die erste Technologie zum Scannen von Bildern per Computer entwickelt, die das Digitalisieren und Erfassen von Bildern per Computer ermöglichte. Ein weiterer Meilenstein wurde 1963 erreicht, als es gelang, zweidimensionale Bilder per Computer in dreidimensionale Formen umzuwandeln. In den 1960er Jahren entstand zudem KI als akademischer Forschungsbereich, womit auch die Suche nach einer KI-Lösung für die Problemstellung des menschlichen Sehvermögens begann.

1974 wurde eine Technologie zur optischen Zeichenerkennung (Optical Character Recognition, OCR) eingeführt, die Drucktexte in jeder Schriftart und jedem Schrifttyp erkennen konnte.Ebenso konnte die intelligente Zeichenerkennung (Intelligent Character Recognition, ICR) handschriftliche Texte mithilfe neuronaler Netze entschlüsseln.4 Seitdem sind OCR und ICR auch zu wichtigen Bestandteilen der Bereiche der Dokumenten- und Rechnungsverarbeitung, Nummernschilderkennung, von mobilen Zahlungsmethoden, maschineller Übersetzung und weiteren gängigen Anwendungen geworden.

Im Jahr 1982 stellte der Neurowissenschaftler David Marr fest, dass das Sehvermögen hierarchisch aufgebaut ist und entwickelte Algorithmen, mit denen Maschinen Kanten, Ecken, Kurven und ähnlich einfache Formen erkennen sollten. Gleichzeitig entwickelte der Informatiker Kunihiko Fukushima ein Netz von Zellen, das Muster erkennen konnte. Dieses als Neocognitron bezeichnete Netz enthielt Faltungsebenen (Convolutional Layers) in einem neuronalen Netz.

Im Jahr 2000 stellte die Objekterkennung einen Forschungsschwerpunkt dar und 2001 erschienen die ersten Anwendungen mit Echtzeit-Gesichtserkennung. Zudem entstand in den 2000ern eine Standardisierung, die bestimmte, wie grafisch orientiert Datensätze in Tags eingeschlossen und mit Annotationen versehen werden sollten. Im Jahr 2010 wurde der Datensatz ImageNet bereitgestellt. Er enthielt Millionen von mit Tags versehenen Bildern aus tausenden von Objektklassen und fungiert als Grundlage für heutige CNNs und Deep-Learning-Modelle. Im Jahr 2012 nahm ein Team der University of Toronto mit einem CNN an einem Bilderkennungswettbewerb teil. Das Modell namens AlexNet konnte die Fehlerrate bei der Bilderkennung deutlich reduzieren. Im Zuge dieser bahnbrechenden Entwicklung fielen die Fehlerraten auf nur einige wenige Prozentpunkte.5

Mixture of Experts | 25. April, Folge 52

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Computer Vision-Anwendungen

Im Bereich Computer Vision wird umfassend Forschung betrieben, doch auch in der Praxis werden stets neue Meilensteine erreicht. Real genutzte Anwendungen verdeutlichen, wie wichtig Computer Vision für Vorhaben in der Geschäftswelt, der Unterhaltungsbranche, im Transport- und Gesundheitswesen sowie in unserem täglichen Leben ist. Ein zentraler Einflussfaktor für die zunehmende Bedeutung dieser Anwendungen ist die Menge visueller Informationen, die von Smartphones, Sicherheitssystemen, Verkehrsüberwachungskameras und anderen visuellen Geräten stammen. Während diese Daten eine wichtige Rolle für den Betrieb in verschiedenen Branchen spielen könnten, bleiben sie aktuell dennoch häufig ungenutzt. Die Informationen können allerdings als Testumgebung für das Training von Computer-Vision-Anwendungen dienen und eine Ausgangsbasis für deren Einsatz in zahlreichen menschlichen Aktivitäten bilden:

  • IBM nutzte Computer Vision für das Feature My Moments im Rahmen des Golfturniers 2018 Master. Dafür trainierte IBM® Watson mit hunderten Stunden an Filmmaterial der Master-Turniere und konnte so Ansichten (und Geräusche) wichtiger Schläge erkennen. Wichtige Momente wurden kuratiert und den Fans als personalisierte Highlights präsentiert.
  • Der Google Übersetzer ermöglicht es Benutzern, die Kamera ihres Smartphones auf Schilder oder Texte in einer anderen Sprache zu richten und sofort eine Übersetzung in ihrer bevorzugten Sprache zu erhalten.[6]

  • Die Entwicklung von selbstfahrenden Fahrzeugen wäre ohne Computer Vision undenkbar. Mithilfe dieser Technik werden visuelle Eingaben von den Kameras eines Autos und anderer Sensoren interpretiert. Nur so können andere Autos, Verkehrsschilder, Fahrbahnmarkierungen, Fußgänger, Fahrräder und all die anderen visuellen Informationen im Straßenverkehr erkannt werden.

  • IBM arbeitet in der Anwendung von Computer-Vision-Technologie mit Partnern wie Verizon zusammen, um intelligente KI in Edge-Umgebungen zu nutzen und Automobilherstellern dabei zu helfen, Qualitätsmängel festzustellen, bevor ein Fahrzeug das Werk verlässt. So lässt sich in kürzester Zeit der visuelle Zustand von Komponenten ermitteln – ein Prozess, der menschliche Mitarbeiter deutlich mehr Zeit kosten würde.

Beispiele für Computer Vision

Viele Organisationen haben nicht die Ressourcen zur Einrichtung eigener Computer-Vision-Labs und der Erstellung von Deep-Learning-Modellen und neuronalen Netzen. Auch die hohe Computerleistung, die für die Verarbeitung riesiger Mengen visueller Daten erforderlich ist, kann nicht jedes Unternehmen aufbringen. Um diese Herausforderungen zu lösen, bieten Unternehmen wie IBM Unterstützung mit Softwareentwicklungs-Services für Computer Vision. Diese Services liefern vordefinierte Lernmodelle, die direkt über die Cloud verfügbar sind. So können Datenverarbeitungsressourcen entlastet werden. Benutzer können sich über eine API (Application Programming Interface, Anwendungsprogrammierschnittstelle) mit den Services verbinden und sie zur Entwicklung von Computer-Vision-Anwendungen nutzen.

IBM hat außerdem eine Plattform für Computer Vision eingeführt, die Problemstellungen im Bereich der Entwicklungs- sowie der Rechenressourcen berücksichtigt. IBM Maximo Visual Inspection enthält Tools, die Fachleuten das Labeln, Trainieren und Bereitstellen von Deep-Learning-Vision-Modellen ermöglichen – ohne Fachwissen in den Bereichen Coding und Deep Learning. Die Vision-Modelle lassen sich auf lokalen Rechenzentren, in der Cloud und auf Edge-Geräten bereitstellen.

Während die Beschaffung von Ressourcen für die Entwicklung von Computer-Vision-Anwendungen einfacher wird, sollten sich Entwickler möglichst früh eine wichtige Frage stellen: Was genau sollen diese Anwendungen tun? Wenn Entwickler genauestens verstehen und definieren, welche Aufgaben Computer Vision in einem Projekt oder einer Anwendung erfüllen soll, können sie den Weg für einen erfolgreichen Start des Entwicklungsprozesses ebnen. Dabei können sie sich stets auf die zu erledigenden Herausforderungen konzentrieren und den Erfolg sämtlicher Maßnahmen überprüfen.

Hier sind einige Beispiele für bewährte Aufgaben im Bereich Computer Vision:

  • Bildklassifizierung (Image Classification) verarbeitet Bilder und kann sie klassifizieren (z. B. in Kategorien wie „Hund“, „Apfel“ oder „Gesicht einer Person“). Genauer gesagt: Sie ist in der Lage, korrekt vorherzusagen, dass ein vorgegebenes Bild zu einer bestimmten Klasse gehört. Ein Social-Media-Anbieter könnte derartige Funktionen beispielsweise einsetzen, um von Benutzern hochgeladene anstößige Bilder automatisch zu erkennen und herauszufiltern.

  • Objekterkennung (Object Detection) kann Bildklassifizierungen verwenden, um eine bestimmte Klasse von Bildern zu bestimmen und deren Auftreten dann in einem Bild oder Video zu erkennen und festzuhalten. So ist beispielsweise das Erkennen von beschädigten Waren auf einer Fertigungsstraße oder von wartungsbedürftigen Maschinen in einem Werk möglich.

  • Objektverfolgung (Object Tracking) folgt einem erkannten Objekt oder verfolgt es. Für diesen Vorgang werden häufig Bilder verwendet, die als Sequenz oder in Echtzeit-Video-Feeds aufgenommen wurden. Autonome Fahrzeuge müssen beispielsweise Objekte wie Fußgänger, andere Autos und Straßenbebauung nicht nur klassifizieren und erkennen können, sondern sie auch während der Bewegung verfolgen, um Zusammenstöße zu vermeiden und die Straßenverkehrsordnung einzuhalten.[7]

  • Inhaltsbasierte Bildsuche (Content-based Image Retrieval) nutzt Computer Vision zum Durchsichten, Suchen und Abrufen von Bildern aus großen Datenspeichern auf Grundlage des Inhalts der Bilder selbst anstatt der ihnen zugeordneten Metadaten-Tags. Diese Aufgabe kann auch eine automatische Bild-Annotation einschließen, die das manuelle Tagging ersetzt. Diese Aufgaben können im Rahmen von Digital-Asset-Management-Systemen wahrgenommen werden und die Genauigkeit von Such- und Abrufvorgängen erhöhen.
Weiterführende Lösungen
IBM Maximo Visual Inspection

Nutzen Sie No-Code-Computer-Vision für die Automatisierung von visuellen Inspektionen.

Erfahren Sie mehr über Maximo Visual Inspection
Beratung und Services zu künstlicher Intelligenz (KI)

Die KI-Services von IBM Consulting unterstützen Sie dabei, die Art und Weise, wie Unternehmen mit KI arbeiten, neu zu denken.

Erkunden Sie die Services im Bereich der künstlichen Intelligenz
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein
– mit branchenführendem Fachwissen im Bereich KI und dem umfassenden Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
Machen Sie den nächsten Schritt

Mit IBM Maximo Visual Inspection können Ihre Qualitätskontroll- und Inspektionsteams die Leistungsfähigkeit der KI-Funktionen von Computer Vision nutzen. Nutzen Sie das Potenzial von No-Code-Computer-Vision für die Automatisierung von visuellen Inspektionen.

Erfahren Sie mehr über Maximo Visual Inspection Produkttour starten