Ilmuwan dan insinyur telah mencoba mengembangkan cara agar mesin dapat melihat dan memahami data visual selama sekitar 60 tahun. Eksperimen dimulai pada tahun 1959 ketika neurofisiologi memperlihatkan serangkaian gambar kepada seekor kucing, dalam upaya menghubungkan respons dalam otaknya. Mereka menemukan bahwa ia merespons terlebih dahulu terhadap tepi atau garis yang keras dan secara ilmiah, ini berarti bahwa pemrosesan gambar dimulai dengan bentuk-bentuk sederhana seperti tepi yang lurus.2
Pada waktu yang hampir bersamaan, teknologi pemindaian gambar komputer pertama dikembangkan, yang memungkinkan komputer mendigitalkan dan memperoleh gambar. Tonggak sejarah lainnya dicapai pada tahun 1963 ketika komputer mampu mengubah gambar dua dimensi menjadi bentuk tiga dimensi. Pada tahun 1960-an, AI muncul sebagai bidang studi akademis dan juga menandai dimulainya pencarian AI untuk memecahkan masalah penglihatan manusia.
Tahun 1974 menandai diperkenalkannya teknologi pengenalan karakter optik (OCR), yang dapat mengenali teks yang dicetak dengan jenis huruf atau font apa pun.3 Demikian pula, pengenalan karakter cerdas (ICR) dapat menguraikan teks tulisan tangan yang menggunakan neural networks.4 Sejak saat itu, OCR dan ICR telah digunakan dalam pemrosesan dokumen dan faktur, pengenalan pelat nomor kendaraan, mobile payments, konversi mesin, dan aplikasi umum lainnya.
Pada tahun 1982, ahli saraf David Marr menetapkan bahwa penglihatan bekerja secara hirarkis dan memperkenalkan algoritma bagi mesin untuk mendeteksi tepi, sudut, kurva, dan bentuk dasar yang serupa. Bersamaan dengan itu, ilmuwan komputer Kunihiko Fukushima mengembangkan jaringan sel yang dapat mengenali pola. Jaringan, yang disebut Neocognitron, termasuk lapisan konvolusi dalam neural networks.
Pada tahun 2000, fokus penelitian adalah pada pengenalan objek; dan pada tahun 2001, aplikasi pengenalan wajah real time pertama kali muncul. Standardisasi tentang bagaimana kumpulan data visual ditandai dan dianotasi muncul hingga tahun 2000-an. Pada tahun 2010, kumpulan data ImageNet tersedia. Data berisi jutaan gambar yang diberi tag di ribuan kelas objek dan menyediakan fondasi untuk CNN dan model pembelajaran mendalam yang digunakan saat ini. Pada tahun 2012, sebuah tim dari University of Toronto menyertakan CNN ke dalam kontes pengenalan gambar. Model, yang disebut AlexNet, secara signifikan mengurangi tingkat kesalahan untuk pengenalan gambar. Setelah terobosan ini, tingkat kesalahan telah turun menjadi hanya beberapa persen.5