Da circa 60 anni, scienziati e ingegneri cercano di sviluppare metodi che consentano alle macchine di vedere e comprendere i dati visivi. La sperimentazione iniziò nel 1959, quando alcuni neurofisiologi mostrarono a un gatto una serie di immagini, nel tentativo di correlare una risposta nel suo cervello. Scoprirono che rispondeva prima ai bordi o alle linee nette e, scientificamente, ciò significava che l'elaborazione delle immagini inizia con forme semplici come i bordi dritti.2
Più o meno nello stesso periodo, fu sviluppata la prima tecnologia di scansione delle immagini tramite computer, che consentì ai computer di digitalizzare e acquisire immagini. Un altro traguardo fu raggiunto nel 1963, quando i computer furono in grado di trasformare immagini bidimensionali in forme tridimensionali. Negli anni '60, l'AI si è affermata come campo di studio accademico, segnando anche l'inizio della ricerca sull'AI per risolvere il problema della vista umana.
Il 1974 ha visto l'introduzione della tecnologia di riconoscimento ottico dei caratteri (OCR), in grado di riconoscere il testo stampato in qualsiasi tipo di carattere o tipo di carattere.3 Analogamente, il riconoscimento intelligente dei caratteri (ICR) potrebbe decifrare il testo scritto a mano che utilizza reti neurali.4 Da allora, OCR e ICR si sono fatti strada nell'elaborazione di documenti e fatture, nel riconoscimento delle targhe dei veicoli, nei pagamenti con dispositivi mobili, nella conversione automatica e in altre applicazioni comuni.
Nel 1982, il neuroscienziato David Marr affermò che la visione funziona in modo gerarchico e introdusse algoritmi per le macchine per rilevare bordi, angoli, curve e forme di base simili. Contemporaneamente, l'informatico Kunihiko Fukushima sviluppò una rete di cellule in grado di riconoscere degli schemi. La rete, chiamata Neocognitron, includeva strati convoluzionali in una rete neurale.
Nel 2000, l'obiettivo dello studio era il riconoscimento degli oggetti. Nel 2001, sono apparse le prime applicazioni di riconoscimento facciale in tempo reale. La standardizzazione del modo in cui i set di dati visivi vengono etichettati e annotati è avvenuta nel corso degli anni 2000. Nel 2010 è stato introdotto il set di dati ImageNet. Conteneva milioni di immagini taggate in un migliaio di classi di oggetti e costituisce la base per le CNN e i modelli di deep learning utilizzati oggi. Nel 2012, un team dell'Università di Toronto ha partecipato con una CNN a un concorso di riconoscimento di immagini. Il modello, denominato AlexNet, ha ridotto significativamente il tasso di errore nel riconoscimento delle immagini. Dopo questa svolta, i tassi di errore sono scesi a una piccola percentuale.5