Qu’est-ce que la vision par ordinateur ?

Employés d’entreprise travaillant dans un bureau dédié à la conception et au développement de logiciels

Qu’est-ce que la vision par ordinateur ?

La vision par ordinateur est un domaine de l’intelligence artificielle (IA) qui utilise le machine learning et les réseaux de neurones pour apprendre aux ordinateurs et aux systèmes à dériver des informations significatives à partir d’images numériques, de vidéos et d’autres entrées visuelles, et pour faire des recommandations ou prendre des mesures lorsque des défauts ou des problèmes sont identifiés.

Si l’IA permet aux ordinateurs de réfléchir, la vision par ordinateur leur permet de voir, d’observer et de comprendre. 

La vision par ordinateur fonctionne à peu près de la même manière que la vision humaine, à la différence près que les humains ont une longueur d’avance. La vue humaine bénéficie d’une vie entière de contexte pour s’entraîner à distinguer les objets, à évaluer leur distance, à savoir s’ils se déplacent ou à voir si quelque chose ne va pas dans une image.

La vision par ordinateur entraîne les machines à remplir ces fonctions, mais en accéléré, avec des caméras, des données et des algorithmes plutôt qu’avec des rétines, des nerfs optiques et un cortex visuel. Étant donné qu’un système entraîné à l’inspection de produits ou à la surveillance des actifs en production peut analyser des milliers de produits ou de processus à la minute, et remarquer des défauts ou des problèmes imperceptibles, il peut rapidement surpasser les capacités humaines.

La vision par ordinateur est utilisée aussi bien dans le secteur de l’énergie et des services publics que dans les industries manufacturières et automobiles, et le marché ne cesse de croître. Selon le cabinet d’analyse Gartner, le marché mondial des logiciels, du matériel et des services de vision par ordinateur générera 386 milliards de dollars d’ici 2031, contre 126 milliards en 2022.1

Fonctionnement de la vision par ordinateur

La vision par ordinateur nécessite de grandes quantités de données. Elle analyse et réanalyse ces dernières jusqu’à discerner des différences et reconnaître des images. Par exemple, pour entraîner un ordinateur à reconnaître les pneus d’automobile, il doit recevoir de grandes quantités d’images de pneus et d’accessoires connexes pour apprendre les différences entre eux et les reconnaître, en particulier un pneu sans défaut.

Pour y parvenir, deux technologies essentielles interviennent : un type de machine learning appelé apprentissage profond et un réseau de neurones convolutif (CNN).

Le machine learning utilise des modèles algorithmiques qui permettent à l’ordinateur de s’entraîner lui-même sur le contexte des données visuelles. Si suffisamment de données sont transmises au modèle, l’ordinateur « regardera » les données et apprendra lui-même à distinguer une image d’une autre. Les algorithmes permettent à la machine d’apprendre par elle-même : inutile de la programmer à reconnaître une image.

Un CNN permet à un modèle de machine learning ou d’apprentissage profond de « regarder » en décomposant les images en pixels auxquels sont attribuées des balises ou des étiquettes. Il utilise les étiquettes pour effectuer des convolutions (une opération mathématique sur deux fonctions pour produire une troisième fonction) et fait des prédictions sur ce qu’il « voit ». Le réseau neuronal exécute des convolutions et vérifie l’exactitude de ses prédictions dans une série d’itérations jusqu’à ce que les prédictions commencent à se réaliser. C’est à ce stade qu’il reconnaît ou voit les images d’une manière similaire à celles des humains.

Tout comme un humain déchiffre une image à distance, un CNN commence par discerner les contours nets et les formes simples, puis il complète les informations au fur et à mesure des itérations de ses prédictions. Un CNN est utilisé pour comprendre des images uniques. Un réseau de neurones récurrent (RNN) est utilisé de manière similaire pour les applications vidéo afin d’aider les ordinateurs à comprendre comment les éléments d’une série d’images sont liés les uns aux autres.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

L’histoire de la vision par ordinateur

Cela fait environ 60 ans que les scientifiques et les ingénieurs tentent de développer des moyens permettant aux machines de voir et de comprendre les données visuelles. Les expérimentations commencent en 1959, lorsque des neurophysiologistes montrent à un chat une série d’images, en essayant de corréler les réponses dans son cerveau. Ils découvrent que le chat répond d’abord aux lignes ou arêtes dures. Scientifiquement, cela signifie que le traitement de l’image commence par des formes simples comme des bords droits.2

À peu près à la même époque, la première technologie de numérisation d’images par ordinateur est développée : elle permet aux ordinateurs de numériser et d’acquérir des images. Une autre étape est franchie en 1963 lorsque des ordinateurs réussissent à transformer des images en 2D en formes en 3D. Dans les années 1960, l’IA devient un domaine d’études universitaires. Cette époque marque également le début de l’utilisation de l’IA pour résoudre les problèmes de la vision humaine.

1974 voit l’introduction de la technologie OCR (reconnaissance optique de caractères), capable de reconnaître du texte imprimé dans n’importe quelle police de caractères.De même, la reconnaissance intelligente de caractères (ICR) permet de déchiffrer du texte écrit à la main à l’aide de réseaux de neurones.4 Depuis lors, les technologies OCR et l’ICR ont trouvé leur place dans le traitement des documents et des factures, la reconnaissance des plaques d’immatriculation, les paiements mobiles, la conversion automatique et d’autres applications courantes.

En 1982, le neuroscientifique David Marr établit que la vision fonctionne de manière hiérarchique et introduit des algorithmes permettant aux machines de détecter les arêtes, les angles, les courbes et des formes de base similaires. Parallèlement, l’informaticien Kunihiko Fukushima développe un réseau de cellules capable de reconnaître des schémas. Le réseau, appelé Neocognitron, comprenait des couches convolutives dans un réseau neuronal.

En 2000, l’accent est mis sur la reconnaissance d’objets et, en 2001, les premières applications de reconnaissance faciale en temps réel apparaissent. La standardisation de l’étiquetage et de l’annotation des jeux de données visuelles s’installe au cours des années 2000. En 2010, le jeu de données ImageNet devient accessible. Il contient des millions d’images étiquetées dans un millier de classes d’objets et fournit une fondation pour les CNN et les modèles d’apprentissage profond utilisés aujourd’hui. En 2012, une équipe de l’Université de Toronto inscrit un CNN à un concours de reconnaissance d’images. Appelé AlexNet, le modèle réduit considérablement le taux d’erreur de reconnaissance d’images. Après cette avancée majeure, les taux d’erreur tombent à seulement quelques pour cent.5

Mixture of Experts | 28 août, épisode 70

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Applications de la vision par ordinateur

De nombreuses recherches sont menées dans le domaine de la vision par ordinateur, mais cela ne s’arrête pas là. Les applications dans le monde réel montrent à quel point la vision par ordinateur est importante dans les affaires, le divertissement, les transports, la santé et la vie de tous les jours. L’un des principaux moteurs de la croissance de ces applications est le flot d’informations visuelles provenant des smartphones, des systèmes de sécurité, des caméras de circulation et d’autres appareils dotés d’instruments visuels. Ces données pourraient jouer un rôle majeur dans les opérations de tous les secteurs, mais elles ne sont pas utilisées aujourd’hui. Ces informations créent un banc d’essai pour développer des applications de vision par ordinateur et une rampe de lancement qui leur permettra d’intégrer diverses activités humaines :

  • IBM a utilisé la vision par ordinateur pour créer la fonctionnalité My Moments pour les Masters de golf 2018. IBM Watson a regardé des centaines d’heures de séquences des Masters et a pu identifier les images (et les sons) des coups importants. Il a organisé ces moments clés et les a présentés aux fans sous forme de séquences vidéo personnalisées.

  • Avec Google Translate, les utilisateurs peuvent pointer l’appareil photo de leur smartphone sur un panneau écrit dans une autre langue et en obtenir presque immédiatement une traduction dans la langue de leur choix.[6]

  • Le développement des véhicules autonomes s’appuie sur la vision par ordinateur pour interpréter les informations visuelles des caméras et des autres capteurs de la voiture. Elle est essentielle pour identifier les autres véhicules, les panneaux de signalisation, les marqueurs de voie, les piétons, les deux-roues et toutes les autres informations visuelles présentes sur la route.

  • IBM applique la technologie de vision par ordinateur avec des partenaires tels que Verizon pour apporter une IA intelligente à la périphérie et pour aider les constructeurs automobiles à identifier les défauts de qualité des véhicules avant qu’ils ne quittent l’usine.

Exemples d’utilisation de la vision par ordinateur

De nombreuses organisations ne possèdent pas les ressources nécessaires pour financer des laboratoires de vision par ordinateur et créer des modèles d’apprentissage profond et des réseaux neuronaux. Il arrive aussi qu’elles ne disposent pas de la puissance de calcul suffisante pour traiter d’énormes jeux de données visuelles. Des entreprises comme IBM apportent leur contribution en proposant des services de développement de logiciels de vision par ordinateur. Ces services fournissent des modèles d’apprentissage prédéfinis, disponibles dans le cloud, et réduisent également la demande en ressources informatiques. Les utilisateurs peuvent se connecter à ces services via une interface de programmation d’applications (API) et les utiliser pour développer des applications de vision par ordinateur.

IBM a également introduit une plateforme de vision par ordinateur en réponse à des préoccupations relatives au développement et aux ressources informatiques. IBM Maximo Visual Inspection comprend des outils qui permettent aux experts d’étiqueter, d’entraîner et de déployer des modèles de vision basés sur l’apprentissage profond, sans expertise en codage ou en apprentissage profond. Les modèles de vision peuvent être déployés dans des centres de données locaux, sur le cloud et sur des dispositifs edge.

Même s’il devient plus facile de trouver des ressources pour le développement d’applications de vision par ordinateur, la réponse à la question suivante est tout de même importante : quelle sera exactement la fonction de ces applications ? La compréhension et la définition de tâches spécifiques de vision par ordinateur pourront orienter et valider les projets et les applications, et faciliter vos premiers pas.

Voici quelques exemples de tâches de vision informatique établies :

  • La tâche de classification des images voit une image et peut la classer (un chien, une pomme, le visage d’une personne). Plus précisément, elle est capable de prédire avec précision qu’une image donnée appartient à une certaine classe. Un réseau social pourrait y avoir recours pour identifier et séparer automatiquement les images répréhensibles chargées par les utilisateurs.

  • La détection d’objets peut utiliser la classification d’images pour identifier une certaine classe d’images, puis détecter et compiler leur apparence dans une image ou une vidéo. Elle sert par exemple à détecter des dommages sur une chaîne de montage ou à identifier les machines nécessitant une intervention de maintenance.

  • Le suivi des objets permet de suivre un objet une fois qu’il a été détecté. Cette tâche est souvent exécutée sur des images capturées dans une séquence ou dans des flux vidéo en temps réel. Les véhicules autonomes, par exemple, doivent non seulement pouvoir classer et détecter des objets tels que les piétons, les autres voitures et les infrastructures routières, mais aussi les suivre lorsqu’ils sont en mouvement pour éviter les collisions et respecter le Code de la route.[7]

  • La récupération d’images basée sur le contenu utilise la vision par ordinateur pour parcourir, rechercher et récupérer des images dans de grands entrepôts de données, en se basant sur le contenu des images plutôt que sur les balises de métadonnées qui leur sont associées. Cette tâche peut intégrer une annotation automatique des images en remplacement du balisage manuel. Elle peut intervenir sur les systèmes de gestion des actifs numériques et augmenter la précision de la recherche et de la récupération.
Solutions connexes
IBM Maximo Visual Inspection

Exploitez toute la puissance de la vision par ordinateur no-code pour l'automatisation des inspections visuelles.

Explorez Maximo Visual Inspection
Conseil et services en Intelligence Artificielle (IA)

IBM Consulting et ses services d'IA accompagnent les entreprises dans la redéfinition de leurs activités avec l'intelligence artificielle pour mener leur transformation.

Découvrez les services d’intelligence artificielle
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise grâce à l’expertise de pointe d’IBM en matière d’IA et à son portefeuille de solutions.

Découvrir les solutions d’IA
Passez à l’étape suivante

IBM Maximo Visual Inspection met la puissance de la vision par ordinateur basée sur l’IA entre les mains de vos équipes en charge du contrôle qualité et des inspections. Libérez tout le potentiel de la vision par ordinateur no-code pour automatiser vos inspections visuelles.

Explorez Maximo Visual Inspection Découvrir le produit