Was ist Computer Vision?

Computer Vision ist ein Bereich der künstlichen Intelligenz, der maschinelles Lernen und neuronale Netze einsetzt, um Computern und Systemen beizubringen, aussagekräftige Informationen aus digitalen Bildern, Videos und anderen visuellen Eingaben abzuleiten – und Empfehlungen auszusprechen oder Maßnahmen zu ergreifen, wenn Fehler oder Probleme erkannt werden.

Während KI Computer zum Denken befähigt, ermöglicht Computer Vision ihnen das Sehen, Beobachten und Verstehen. 

Computer Vision funktioniert ähnlich wie das menschliche Sehen, nur haben Menschen einen Vorsprung. Das menschliche Sehvermögen hat den Vorteil, dass es über einen lebenslangen Kontext verfügt, um zu trainieren, wie man Objekte voneinander unterscheidet, wie weit sie entfernt sind, ob sie sich bewegen oder ob mit einem Bild etwas nicht stimmt.

Computer Vision trainiert Maschinen, diese Funktionen auszuführen. Aber sie muss dies in viel kürzerer Zeit mit Kameras, Daten und Algorithmen erledigen, anstatt mit Netzhäuten, Sehnerven und einem visuellen Kortex. Da ein System, das darauf trainiert ist, Produkte zu inspizieren oder eine Produktionsanlage zu überwachen, Tausende von Produkten oder Prozessen pro Minute analysieren und dabei nicht wahrnehmbare Mängel oder Probleme erkennen kann, kann es die menschlichen Fähigkeiten schnell übertreffen.

Computer Vision wird in Branchen eingesetzt, die von der Energie- und Versorgungswirtschaft bis hin zur Fertigung und Automobilindustrie reichen – und der Markt wächst weiter. Bis 2022 wird ein Volumen von 48,6 Milliarden US-Dollar erwartet.¹

Unseren exklusiven Leitfaden zum CSRD der EU entdecken

ESG-Offenlegungen werden für einige Unternehmen bereits im Jahr 2025 verpflichtend. Stellen Sie mit unserem Leitfaden zur EU-Richtlinie zur Unternehmens-Nachhaltigkeitsberichterstattung sicher, dass Sie darauf vorbereitet sind.

Ähnliche Inhalte

Registrieren Sie sich für das Playbook zum intelligenteren Asset-Management

Wie funktioniert Computer Vision?

Computer Vision benötigt viele Daten. Es analysiert Daten immer wieder, bis es Unterschiede erkennt und schließlich Bilder erkennt. Um beispielsweise einen Computer für die Erkennung von Autoreifen zu trainieren, muss er mit großen Mengen von Reifenbildern und reifenbezogenen Gegenständen gefüttert werden, um die Unterschiede zu lernen und einen Reifen zu erkennen, insbesondere einen, der keine Mängel aufweist.

Dazu werden zwei wesentliche Technologien eingesetzt: eine Art maschinelles Lernen, das Deep Learning, und ein konvolutionales neuronales Netz (CNN).

Maschinelles Lernen verwendet algorithmische Modelle, die es einem Computer ermöglichen, sich den Kontext visueller Daten selbst beizubringen. Wenn das Modell mit genügend Daten gefüttert wird, wird der Computer die Daten „betrachten“ und sich selbst beibringen, ein Bild von einem anderen zu unterscheiden. Algorithmen ermöglichen es der Maschine, von selbst zu lernen, anstatt dass jemand sie programmiert, um ein Bild zu erkennen.

Ein CNN hilft einem maschinellen Lern- oder Deep-Learning-Modell beim „Sehen“, indem es Bilder in Pixel zerlegt, die mit Tags oder Labels versehen werden. Es verwendet die Beschriftungen, um Convolutions durchzuführen (eine mathematische Operation, bei der zwei Funktionen eine dritte Funktion erzeugen) und macht Vorhersagen darüber, was es „sieht“. Das neuronale Netz führt Convolutions durch und überprüft die Genauigkeit seiner Vorhersagen in einer Reihe von Iterationen, bis die Vorhersagen beginnen, sich zu bewahrheiten. Es erkennt oder sieht Bilder dann auf ähnliche Weise wie Menschen.

Ähnlich wie ein Mensch, der ein Bild aus der Ferne betrachtet, erkennt ein CNN zunächst harte Kanten und einfache Formen und füllt dann Informationen aus, während es seine Vorhersagen wiederholt. Ein CNN wird verwendet, um einzelne Bilder zu verstehen. Ein wiederkehrendes neuronales Netz (RNN) wird auf ähnliche Weise für Videoanwendungen verwendet, um Computern zu helfen, zu verstehen, wie Bilder in einer Reihe von Frames miteinander in Beziehung stehen.

Die Geschichte der Computer Vision

Seit etwa 60 Jahren versuchen Wissenschaftler und Ingenieure, Maschinen das Sehen und Verstehen visueller Daten beizubringen. Erste Experimente begannen 1959, als Neurophysiologen einer Katze eine Reihe von Bildern zeigten und versuchten, eine Reaktion in ihrem Gehirn zu korrelieren. Sie stellten fest, dass sie zuerst auf harte Kanten oder Linien reagierte, und wissenschaftlich gesehen bedeutete dies, dass die Bildverarbeitung mit einfachen Formen wie geraden Kanten beginnt.²

Etwa zur gleichen Zeit wurde die erste Technologie zum Scannen von Computerbildern entwickelt, mit der Computer Bilder digitalisieren und erfassen konnten. Ein weiterer Meilenstein wurde 1963 erreicht, als Computer zweidimensionale Bilder in dreidimensionale Formen umwandeln konnten. In den 1960er Jahren entwickelte sich die KI zu einem akademischen Forschungsgebiet und markierte auch den Beginn der KI-Suche nach einer Lösung für das Problem des menschlichen Sehvermögens.

1974 wurde die OCR-Technologie (Optical Character Recognition) eingeführt, die Text in jeder beliebigen Schriftart erkennen konnte.³Ähnlich könnte die intelligente Zeichenerkennung (ICR) handschriftlichen Text entschlüsseln, der neuronale Netze verwendet.⁴ Seitdem haben OCR und ICR ihren Weg in die Dokumenten- und Rechnungsbearbeitung, die Erkennung von Fahrzeugkennzeichen, mobile Zahlungen, die Maschinenumwandlung und andere gängige Anwendungen gefunden.

1982 stellte der Neurowissenschaftler David Marr fest, dass das Sehen hierarchisch funktioniert. Er führte Algorithmen für Maschinen ein, um Kanten, Ecken, Kurven und ähnliche Grundformen zu erkennen. Gleichzeitig entwickelte der Informatiker Kunihiko Fukushima ein Netzwerk von Zellen, die Muster erkennen konnten. Das als Neocognitron bezeichnete Netzwerk umfasste Convolutional-Schichten in einem neuronalen Netzwerk.

Im Jahr 2000 lag der Schwerpunkt der Forschung auf der Objekterkennung und im Jahr 2001 erschienen die ersten Echtzeit-Gesichtserkennungsanwendungen. In den 2000er Jahren wurde eine Standardisierung der Kennzeichnung und Kommentierung visueller Datensätze eingeführt. Im Jahr 2010 wurde der ImageNet-Datensatz zur Verfügung gestellt. Es enthielt Millionen von getaggten Bildern aus tausend Objektklassen und bildet die Grundlage für die heute verwendeten CNNs und Deep-Learning-Modelle. Im Jahr 2012 nahm ein Team der University of Toronto mit einem CNN an einem Bilderkennungswettbewerb teil. Das Modell mit dem Namen AlexNet reduzierte die Fehlerquote bei der Bilderkennung erheblich. Nach diesem Durchbruch sind die Fehlerquoten auf wenige Prozent gesunken.⁵

Computer Vision-Forschung

Computer Vision und Multimedia bei IBM Research

Greifen Sie auf Videos, Papiere, Workshops und mehr zu.

Computer Vision-Anwendungen

Es wird viel Forschung im Bereich Computer Vision betrieben, aber das ist noch nicht alles. Praxisnahe Anwendungen zeigen, wie wichtig Computer Vision für Unternehmen, Unterhaltung, Transport, Gesundheitswesen und den Alltag ist. Ein treibender Faktor für das Wachstum dieser Anwendungen ist die Flut an visuellen Informationen, die von Smartphones, Sicherheitssystemen, Verkehrskameras und anderen visuell instrumentierten Geräten stammen. Diese Daten könnten bei branchenübergreifenden Operationen eine wichtige Rolle spielen, werden aber derzeit nicht genutzt. Die Informationen bilden eine Testumgebung, um Computer Vision-Anwendungen zu trainieren und eine Ausgangsbasis, um Teil einer Reihe von menschlichen Aktivitäten zu werden:

IBM nutzte Computer Vision, um „My Moments“ für das Masters-Golfturnier 2018 zu erstellen. IBM Watson sichtete hunderte Stunden Filmmaterial der Masters und konnte die Höhepunkte (und Geräusche) bedeutender Aufnahmen identifizieren. Es kuratierte diese Schlüsselmomente und lieferte sie den Fans als personalisierte Highlight-Reels.
Mit Google Translate können Nutzer eine Smartphone-Kamera auf ein Schild in einer anderen Sprache richten und erhalten fast sofort eine Übersetzung des Schildes in ihrer bevorzugten Sprache.⁶
Die Entwicklung selbstfahrender Fahrzeuge beruht auf Computer Vision, um den visuellen Input der Kameras und anderer Sensoren eines Autos zu verstehen. Es ist wichtig, andere Autos, Verkehrsschilder, Fahrbahnmarkierungen, Fußgänger, Fahrräder und alle anderen visuellen Informationen auf der Straße zu erkennen.
IBM setzt gemeinsam mit Partnern wie Verizon Computer Vision-Technologie ein, um intelligente KI an die Edge zu bringen und Automobilherstellern dabei zu helfen, Qualitätsmängel zu erkennen, bevor ein Fahrzeug das Werk verlässt.

Beispiele für Computer Vision

Viele Unternehmen verfügen nicht über die Ressourcen, um Labore für Computer Vision zu finanzieren und Deep-Learning-Modelle und neuronale Netze zu erstellen. Möglicherweise fehlt ihnen auch die Rechenleistung, die für die Verarbeitung großer Mengen visueller Daten erforderlich ist. Unternehmen wie IBM helfen mit der Bereitstellung von Entwicklungsdienstleistungen für Computer Vision Software. Diese Dienste stellen vorkonfigurierte Lernmodelle bereit, die über die Cloud verfügbar sind, und entlasten zudem die Rechenressourcen. Benutzer stellen über eine Programmierschnittstelle (API) eine Verbindung zu den Diensten her und nutzen sie zur Entwicklung von Computer Vision-Anwendungen.

IBM hat außerdem eine Computer Vision-Plattform eingeführt, die sowohl Entwicklungs- als auch Rechenressourcenprobleme angeht. IBM Maximo Visual Inspection umfasst Tools, mit denen Fachexperten Deep-Learning-Bildverarbeitungsmodelle kennzeichnen, trainieren und bereitstellen können – ohne Programmier- oder Deep-Learning-Kenntnisse. Die Vision-Modelle können in lokalen Rechenzentren, der Cloud und Edge-Geräten bereitgestellt werden.

Während es immer einfacher wird, Ressourcen für die Entwicklung von Computer Vision-Anwendungen zu erhalten, ist es wichtig, frühzeitig eine wichtige Frage zu beantworten: Was genau werden diese Anwendungen leisten? Das Verständnis und die Definition spezifischer Aufgaben im Bereich Computer Vision können Projekte und Anwendungen fokussieren und validieren und den Einstieg erleichtern.

Hier sind einige Beispiele für bewährte Aufgaben im Bereich Computer Vision:

Bildklassifizierung: Ein Bild wird erkannt und klassifiziert (ein Hund, ein Apfel, das Gesicht einer Person). Genauer gesagt ist es in der Lage, genau vorherzusagen, dass ein bestimmtes Bild zu einer bestimmten Klasse gehört. Ein Social-Media-Unternehmen könnte es beispielsweise verwenden, um anstößige Bilder, die von Benutzern hochgeladen wurden, automatisch zu identifizieren und zu isolieren.
Objekterkennung: Mittels Bildklassifizierung kann eine bestimmte Bildklasse identifiziert und anschließend ihr Erscheinen in einem Bild oder Video erkannt und tabellarisch erfasst werden. Beispiele hierfür sind die Erkennung von Schäden an einer Montagelinie oder die Identifizierung von Maschinen, die gewartet werden müssen.
Objektverfolgung: Folgt oder verfolgt ein Objekt, sobald es erkannt wurde. Diese Aufgabe wird oft mit Bildern ausgeführt, die in einer bestimmten Reihenfolge aufgenommen wurden, oder mit Echtzeit-Videoübertragungen. Autonome Fahrzeuge müssen beispielsweise Objekte wie Fußgänger, andere Autos und Straßeninfrastruktur nicht nur klassifizieren und erkennen, sondern sie auch in Bewegung verfolgen, um Kollisionen zu vermeiden und Verkehrsregeln einzuhalten.⁷
Inhaltsbasierte Bildsuche: Verwendet Computer Vision, um Bilder aus großen Datenspeichern zu durchsuchen, zu suchen und abzurufen. Die geschieht basierend auf dem Inhalt der Bilder und nicht auf den mit ihnen verknüpften Metadaten-Tags. Diese Aufgabe kann automatische Bildanmerkungen beinhalten, die die manuelle Bildkennzeichnung ersetzen. Diese Aufgaben können für Digital-Asset-Management-Systeme verwendet werden und die Genauigkeit der Suche und des Abrufs erhöhen.

Weiterführende Lösungen

Software zur visuellen Inspektion

Geben Sie Ihren Qualitäts- und Inspektionsteams die Möglichkeiten von Computer Vision an die Hand. IBM Maximo Visual Inspection macht Computer Vision mit Deep Learning für Geschäftsanwender zugänglich – mit visuellen Inspektionstools, die Sie voranbringen.

IBM Maximo Visual Inspection erkunden

Ressourcen

IBM Research Blog

IBM Research ist eines der weltweit größten Forschungslabore für Unternehmen. Erfahren Sie mehr über branchenübergreifende Forschungsarbeiten.

Was ist visuelle Inspektion?

Erfahren Sie mehr über die Entwicklung der visuellen Inspektion und wie künstliche Intelligenz die Sicherheit und Qualität verbessert.

Ressourcen für Entwickler

Erfahren Sie mehr über die ersten Schritte mit visueller Inspektion und IBM Maximo Visual Inspection. Ressourcen und Kurse für Entwickler erkunden.

Sund & Bælt: Mit besseren Erkenntnissen Brücken bauen

Lesen Sie, wie Sund & Baelt Computer Vision einsetzte, um Inspektionen zu optimieren und die Produktivität zu steigern.

Verbesserung der Qualitätsprüfungen

Erfahren Sie, wie die Technologie der Computer Vision die Qualitätskontrolle in der Fertigung verbessern kann.

Machen Sie den nächsten Schritt

Nutzen Sie die Möglichkeiten der Computer Vision ohne Code für die automatisierte visuelle Inspektion mit IBM Maximo Visual Inspection: ein intuitives Toolset zum Kennzeichnen, Trainieren und Bereitstellen von Bildverarbeitungsmodellen mit künstlicher Intelligenz.

Erfahren Sie mehr über Maximo Visual Inspection

Demo ausprobieren

Was ist Computer Vision?