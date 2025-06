Wissenschaftler und Techniker arbeiten bereits seit über 60 Jahren daran, Maschinen das Betrachten und Verstehen visueller Daten zu ermöglichen. Erste Experimente begannen im Jahr 1959, als Neurophysiologen einer Katze eine Auswahl von Bildern zeigten und versuchten, eine Korrelation mit einer entsprechenden Reaktion in ihrem Gehirn herzustellen. Dabei fanden sie heraus, dass das Tier zuerst auf scharfe Kanten oder Linien reagierte. Aus wissenschaftlicher Sicht bedeutete dies, dass die Bildverarbeitung zunächst mit einfachen Formen wie geraden Kanten beginnt.2

Etwa zeitgleich wurde die erste Technologie zum Scannen von Bildern per Computer entwickelt, die das Digitalisieren und Erfassen von Bildern per Computer ermöglichte. Ein weiterer Meilenstein wurde 1963 erreicht, als es gelang, zweidimensionale Bilder per Computer in dreidimensionale Formen umzuwandeln. In den 1960er Jahren entstand zudem KI als akademischer Forschungsbereich, womit auch die Suche nach einer KI-Lösung für die Problemstellung des menschlichen Sehvermögens begann.

1974 wurde eine Technologie zur optischen Zeichenerkennung (Optical Character Recognition, OCR) eingeführt, die Drucktexte in jeder Schriftart und jedem Schrifttyp erkennen konnte.3 Ebenso konnte die intelligente Zeichenerkennung (Intelligent Character Recognition, ICR) handschriftliche Texte mithilfe neuronaler Netze entschlüsseln.4 Seitdem sind OCR und ICR auch zu wichtigen Bestandteilen der Bereiche der Dokumenten- und Rechnungsverarbeitung, Nummernschilderkennung, von mobilen Zahlungsmethoden, maschineller Übersetzung und weiteren gängigen Anwendungen geworden.

Im Jahr 1982 stellte der Neurowissenschaftler David Marr fest, dass das Sehvermögen hierarchisch aufgebaut ist und entwickelte Algorithmen, mit denen Maschinen Kanten, Ecken, Kurven und ähnlich einfache Formen erkennen sollten. Gleichzeitig entwickelte der Informatiker Kunihiko Fukushima ein Netz von Zellen, das Muster erkennen konnte. Dieses als Neocognitron bezeichnete Netz enthielt Faltungsebenen (Convolutional Layers) in einem neuronalen Netz.

Im Jahr 2000 stellte die Objekterkennung einen Forschungsschwerpunkt dar und 2001 erschienen die ersten Anwendungen mit Echtzeit-Gesichtserkennung. Zudem entstand in den 2000ern eine Standardisierung, die bestimmte, wie grafisch orientiert Datensätze in Tags eingeschlossen und mit Annotationen versehen werden sollten. Im Jahr 2010 wurde der Datensatz ImageNet bereitgestellt. Er enthielt Millionen von mit Tags versehenen Bildern aus tausenden von Objektklassen und fungiert als Grundlage für heutige CNNs und Deep-Learning-Modelle. Im Jahr 2012 nahm ein Team der University of Toronto mit einem CNN an einem Bilderkennungswettbewerb teil. Das Modell namens AlexNet konnte die Fehlerrate bei der Bilderkennung deutlich reduzieren. Im Zuge dieser bahnbrechenden Entwicklung fielen die Fehlerraten auf nur einige wenige Prozentpunkte.5