Computer Vision benötigt viele Daten. Es analysiert Daten immer wieder, bis es Unterschiede erkennt und schließlich Bilder erkennt. Um beispielsweise einen Computer für die Erkennung von Autoreifen zu trainieren, muss er mit großen Mengen von Reifenbildern und reifenbezogenen Gegenständen gefüttert werden, um die Unterschiede zu lernen und einen Reifen zu erkennen, insbesondere einen, der keine Mängel aufweist.
Dazu werden zwei wesentliche Technologien eingesetzt: eine Art maschinelles Lernen, das Deep Learning, und ein konvolutionales neuronales Netz (CNN).
Maschinelles Lernen verwendet algorithmische Modelle, die es einem Computer ermöglichen, sich den Kontext visueller Daten selbst beizubringen. Wenn das Modell mit genügend Daten gefüttert wird, wird der Computer die Daten „betrachten“ und sich selbst beibringen, ein Bild von einem anderen zu unterscheiden. Algorithmen ermöglichen es der Maschine, von selbst zu lernen, anstatt dass jemand sie programmiert, um ein Bild zu erkennen.
Ein CNN hilft einem maschinellen Lern- oder Deep-Learning-Modell beim „Sehen“, indem es Bilder in Pixel zerlegt, die mit Tags oder Labels versehen werden. Es verwendet die Beschriftungen, um Convolutions durchzuführen (eine mathematische Operation, bei der zwei Funktionen eine dritte Funktion erzeugen) und macht Vorhersagen darüber, was es „sieht“. Das neuronale Netz führt Convolutions durch und überprüft die Genauigkeit seiner Vorhersagen in einer Reihe von Iterationen, bis die Vorhersagen beginnen, sich zu bewahrheiten. Es erkennt oder sieht Bilder dann auf ähnliche Weise wie Menschen.
Ähnlich wie ein Mensch, der ein Bild aus der Ferne betrachtet, erkennt ein CNN zunächst harte Kanten und einfache Formen und füllt dann Informationen aus, während es seine Vorhersagen wiederholt. Ein CNN wird verwendet, um einzelne Bilder zu verstehen. Ein wiederkehrendes neuronales Netz (RNN) wird auf ähnliche Weise für Videoanwendungen verwendet, um Computern zu helfen, zu verstehen, wie Bilder in einer Reihe von Frames miteinander in Beziehung stehen.