Cela fait environ 60 ans que les scientifiques et les ingénieurs tentent de développer des moyens permettant aux machines de voir et de comprendre les données visuelles. Les expérimentations commencent en 1959, lorsque des neurophysiologistes montrent à un chat une série d’images, en essayant de corréler les réponses dans son cerveau. Ils découvrent que le chat répond d’abord aux lignes ou arêtes dures, et scientifiquement, cela signifie que le traitement de l’image commence par des formes simples comme des bords droits.2
À peu près à la même époque, la première technologie de numérisation d’images par ordinateur est développée : elle permet aux ordinateurs de numériser et d’acquérir des images. Une autre étape est franchie en 1963 lorsque des ordinateurs réussissent à transformer des images en 2D en formes en 3D. Dans les années 1960, l’IA devient un domaine d’études universitaires. Cette époque marque également le début de l’utilisation de l’IA pour résoudre les problèmes de la vision humaine.
1974 voit l’introduction de la technologie OCR (reconnaissance optique de caractères), capable de reconnaître du texte imprimé dans n’importe quelle police de caractères.3 De même, la reconnaissance intelligente de caractères (ICR) permet de déchiffrer du texte écrit à la main à l’aide de réseaux neuronaux.4 Depuis lors, les technologies OCR et l’ICR ont trouvé leur place dans le traitement des documents et des factures, la reconnaissance des plaques d’immatriculation, les paiements mobiles, la conversion automatique et d’autres applications courantes.
En 1982, le neuroscientifique David Marr établit que la vision fonctionne de manière hiérarchique et introduit des algorithmes permettant aux machines de détecter les arêtes, les angles, les courbes et des formes de base similaires. Parallèlement, l’informaticien Kunihiko Fukushima développe un réseau de cellules capable de reconnaître des schémas. Le réseau, appelé Neocognitron, comprenait des couches convolutives dans un réseau neuronal.
En 2000, l’accent est mis sur la reconnaissance d’objets et en 2001, les premières applications de reconnaissance faciale en temps réel apparaissent. La standardisation de l’étiquetage et de l’annotation des jeux de données visuelles s’installe au cours des années 2000. En 2010, le jeu de données ImageNet devient accessible. Il contient des millions d’images étiquetées dans un millier de classes d’objets et fournit une fondation pour les CNN et les modèles d’apprentissage profond utilisés aujourd’hui. En 2012, une équipe de l’Université de Toronto inscrit un CNN à un concours de reconnaissance d’images. Le modèle, appelé AlexNet, réduit considérablement le taux d’erreur de reconnaissance d’images. Après cette avancée majeure, les taux d’erreur tombent à seulement quelques pour cent.5