Qu’est-ce que la vision par ordinateur ?

La vision par ordinateur est un domaine de l’intelligence artificielle (IA) qui utilise le machine learning et les réseaux neuronaux pour apprendre aux ordinateurs et aux systèmes à dériver des informations significatives à partir d’images numériques, de vidéos et d’autres entrées visuelles, et pour faire des recommandations ou prendre des mesures lorsque des défauts ou des problèmes sont identifiés.

Si l’IA permet aux ordinateurs de réfléchir, la vision par ordinateur leur permet de voir, d’observer et de comprendre.

La vision par ordinateur fonctionne à peu près de la même manière que la vision humaine, à la différence près que les humains ont une longueur d’avance. La vue humaine bénéficie d’une vie entière de contexte pour s’entraîner à distinguer les objets, à évaluer leur distance, à savoir s’ils se déplacent ou à voir si quelque chose ne va pas dans une image.

La vision par ordinateur entraîne les machines à remplir ces fonctions, mais en accéléré, avec des caméras, des données et des algorithmes plutôt qu’avec des rétines, des nerfs optiques et un cortex visuel. Étant donné qu’un système entraîné à l’inspection de produits ou à la surveillance des actifs en production peut analyser des milliers de produits ou de processus à la minute, et remarquer des défauts ou des problèmes imperceptibles, il peut rapidement surpasser les capacités humaines.

La vision par ordinateur est utilisée aussi bien dans le secteur de l’énergie et des services publics que dans les industries manufacturières et automobiles, et le marché ne cesse de croître. Il devrait atteindre 48,6 milliards de dollars d’ici 2022.¹

Consulter notre guide exclusif sur la CSRD de l'UE

Les processus de divulgation ESG débutant dès 2025 pour certaines entreprises, assurez votre préparation grâce à notre guide.

Contenu connexe

Recevoir le guide sur la gestion intelligente des actifs

Comment fonctionne la vision par ordinateur ?

La vision par ordinateur nécessite de grandes quantités de données. Elle analyse et réanalyse ces dernières jusqu’à discerner des différences et reconnaître des images. Par exemple, pour entraîner un ordinateur à reconnaître les pneus d’automobile, il doit recevoir de grandes quantités d’images de pneus et d’accessoires connexes pour apprendre les différences entre eux et les reconnaître, en particulier un pneu sans défaut.

Pour y parvenir, deux technologies essentielles interviennent : un type de machine learning appelé apprentissage profond et un réseau neuronal convolutif (CNN).

Le machine learning utilise des modèles algorithmiques qui permettent à l’ordinateur de s’entraîner lui-même sur le contexte des données visuelles. Si suffisamment de données sont transmises au modèle, l’ordinateur « regardera » les données et apprendra lui-même à distinguer une image d’une autre. Les algorithmes permettent à la machine d’apprendre par elle-même : inutile de la programmer à reconnaître une image.

Un CNN permet à un modèle de machine learning ou d’apprentissage profond de « regarder » en décomposant les images en pixels auxquels sont attribuées des balises ou des étiquettes. Il utilise les étiquettes pour effectuer des convolutions (une opération mathématique sur deux fonctions pour produire une troisième fonction) et fait des prédictions sur ce qu’il « voit ». Le réseau neuronal exécute des convolutions et vérifie l’exactitude de ses prédictions dans une série d’itérations jusqu’à ce que les prédictions commencent à se réaliser. C’est à ce stade qu’il reconnaît ou voit les images d’une manière similaire à celles des humains.

Tout comme un humain déchiffre une image à distance, un CNN commence par discerner les contours nets et les formes simples, puis il complète les informations au fur et à mesure des itérations de ses prédictions. Un CNN est utilisé pour comprendre des images uniques. Un réseau neuronal récurrent (RNN) est utilisé de manière similaire pour les applications vidéo afin d’aider les ordinateurs à comprendre comment les éléments d’une série d’images sont liés les uns aux autres.

L’histoire de la vision par ordinateur

Cela fait environ 60 ans que les scientifiques et les ingénieurs tentent de développer des moyens permettant aux machines de voir et de comprendre les données visuelles. Les expérimentations commencent en 1959, lorsque des neurophysiologistes montrent à un chat une série d’images, en essayant de corréler les réponses dans son cerveau. Ils découvrent que le chat répond d’abord aux lignes ou arêtes dures, et scientifiquement, cela signifie que le traitement de l’image commence par des formes simples comme des bords droits.²

À peu près à la même époque, la première technologie de numérisation d’images par ordinateur est développée : elle permet aux ordinateurs de numériser et d’acquérir des images. Une autre étape est franchie en 1963 lorsque des ordinateurs réussissent à transformer des images en 2D en formes en 3D. Dans les années 1960, l’IA devient un domaine d’études universitaires. Cette époque marque également le début de l’utilisation de l’IA pour résoudre les problèmes de la vision humaine.

1974 voit l’introduction de la technologie OCR (reconnaissance optique de caractères), capable de reconnaître du texte imprimé dans n’importe quelle police de caractères.³De même, la reconnaissance intelligente de caractères (ICR) permet de déchiffrer du texte écrit à la main à l’aide de réseaux neuronaux.⁴ Depuis lors, les technologies OCR et l’ICR ont trouvé leur place dans le traitement des documents et des factures, la reconnaissance des plaques d’immatriculation, les paiements mobiles, la conversion automatique et d’autres applications courantes.

En 1982, le neuroscientifique David Marr établit que la vision fonctionne de manière hiérarchique et introduit des algorithmes permettant aux machines de détecter les arêtes, les angles, les courbes et des formes de base similaires. Parallèlement, l’informaticien Kunihiko Fukushima développe un réseau de cellules capable de reconnaître des schémas. Le réseau, appelé Neocognitron, comprenait des couches convolutives dans un réseau neuronal.

En 2000, l’accent est mis sur la reconnaissance d’objets et en 2001, les premières applications de reconnaissance faciale en temps réel apparaissent. La standardisation de l’étiquetage et de l’annotation des jeux de données visuelles s’installe au cours des années 2000. En 2010, le jeu de données ImageNet devient accessible. Il contient des millions d’images étiquetées dans un millier de classes d’objets et fournit une fondation pour les CNN et les modèles d’apprentissage profond utilisés aujourd’hui. En 2012, une équipe de l’Université de Toronto inscrit un CNN à un concours de reconnaissance d’images. Le modèle, appelé AlexNet, réduit considérablement le taux d’erreur de reconnaissance d’images. Après cette avancée majeure, les taux d’erreur tombent à seulement quelques pour cent.⁵

Recherche sur la vision par ordinateur

Vision par ordinateur et multimédia chez IBM Research

Accédez à des vidéos, des articles, des ateliers et plus encore.

Applications de la vision par ordinateur

De nombreuses recherches sont menées dans le domaine de la vision par ordinateur, mais cela ne s’arrête pas là. Les applications dans le monde réel montrent à quel point la vision par ordinateur est importante dans les affaires, le divertissement, les transports, la santé et la vie de tous les jours. L’un des principaux moteurs de la croissance de ces applications est le flot d’informations visuelles provenant des smartphones, des systèmes de sécurité, des caméras de circulation et d’autres appareils dotés d’instruments visuels. Ces données pourraient jouer un rôle majeur dans les opérations de tous les secteurs, mais elles ne sont pas utilisées aujourd’hui. Ces informations créent un banc d’essai pour développer des applications de vision par ordinateur et une rampe de lancement qui leur permettra d’intégrer diverses activités humaines :

IBM a utilisé la vision par ordinateur pour créer la fonctionnalité My Moments pour les Masters de golf 2018. IBM Watson a regardé des centaines d’heures de séquences des Masters et a pu identifier les images (et les sons) des coups importants. Il a organisé ces moments clés et les a présentés aux fans sous forme de séquences vidéo personnalisées.
Avec Google Translate, les utilisateurs peuvent pointer l’appareil photo de leur smartphone sur un panneau écrit dans une autre langue et en obtenir presque immédiatement une traduction dans la langue de leur choix.⁶
Le développement des véhicules autonomes s’appuie sur la vision par ordinateur pour interpréter les informations visuelles des caméras et des autres capteurs de la voiture. Elle est essentielle pour identifier les autres véhicules, les panneaux de signalisation, les marqueurs de voie, les piétons, les deux-roues et toutes les autres informations visuelles présentes sur la route.
IBM applique la technologie de vision par ordinateur avec des partenaires tels que Verizon pour apporter une IA intelligente à la périphérie et pour aider les constructeurs automobiles à identifier les défauts de qualité des véhicules avant qu’ils ne quittent l’usine.

Exemples d’utilisation de la vision par ordinateur

De nombreuses organisations ne possèdent pas les ressources nécessaires pour financer des laboratoires de vision par ordinateur et créer des modèles d’apprentissage profond et des réseaux neuronaux. Il arrive aussi qu’elles ne disposent pas de la puissance de calcul suffisante pour traiter d’énormes jeux de données visuelles. Des entreprises comme IBM apportent leur contribution en proposant des services de développement de logiciels de vision par ordinateur. Ces services fournissent des modèles d’apprentissage prédéfinis, disponibles dans le cloud, et réduisent également la demande en ressources informatiques. Les utilisateurs peuvent se connecter à ces services via une interface de programmation d’applications (API) et les utiliser pour développer des applications de vision par ordinateur.

IBM a également introduit une plateforme de vision par ordinateur en réponse à des préoccupations relatives au développement et aux ressources informatiques. IBM Maximo Visual Inspection comprend des outils qui permettent aux experts d’étiqueter, d’entraîner et de déployer des modèles de vision basés sur l’apprentissage profond, sans expertise en codage ou en apprentissage profond. Les modèles de vision peuvent être déployés dans des centres de données locaux, sur le cloud et sur des dispositifs edge.

Même s’il devient plus facile de trouver des ressources pour le développement d’applications de vision par ordinateur, la réponse à la question suivante est tout de même importante : quelle sera exactement la fonction de ces applications ? La compréhension et la définition de tâches spécifiques de vision par ordinateur pourront orienter et valider les projets et les applications, et faciliter vos premiers pas.

Voici quelques exemples de tâches de vision informatique établies :

La tâche de classification des images voit une image et peut la classer (un chien, une pomme, le visage d’une personne). Plus précisément, elle est capable de prédire avec précision qu’une image donnée appartient à une certaine classe. Un réseau social pourrait y avoir recours pour identifier et séparer automatiquement les images répréhensibles chargées par les utilisateurs.
La détection d’objets peut utiliser la classification d’images pour identifier une certaine classe d’images, puis détecter et compiler leur apparence dans une image ou une vidéo. Elle sert par exemple à détecter des dommages sur une chaîne de montage ou à identifier les machines nécessitant une intervention de maintenance.
Le suivi des objets permet de suivre un objet une fois qu’il a été détecté. Cette tâche est souvent exécutée sur des images capturées dans une séquence ou dans des flux vidéo en temps réel. Les véhicules autonomes, par exemple, doivent non seulement pouvoir classer et détecter des objets tels que les piétons, les autres voitures et les infrastructures routières, mais aussi les suivre lorsqu’ils sont en mouvement pour éviter les collisions et respecter le Code de la route.⁷
La récupération d’images basée sur le contenu utilise la vision par ordinateur pour parcourir, rechercher et récupérer des images dans de grands magasins de données, en se basant sur le contenu des images plutôt que sur les balises de métadonnées qui leur sont associées. Cette tâche peut intégrer une annotation automatique des images en remplacement du balisage manuel. Elle peut intervenir sur les systèmes de gestion des actifs numériques et augmenter la précision de la recherche et de la récupération.

Solutions connexes

Logiciel d’inspection visuelle

Mettez la puissance de la vision par ordinateur entre les mains de vos équipes de qualité et d'inspection. IBM Maximo Visual Inspection rend la vision par ordinateur et l’apprentissage profond plus accessibles aux utilisateurs professionnels grâce à des outils d’inspection visuelle qui leur donne les moyens de réussir.

Découvrir Maximo Visual Inspection

Ressources

Blog IBM Research

IBM Research est l’un des plus grands laboratoires de recherche d’entreprise au monde. En savoir plus sur les recherches menées dans tous les secteurs.

Qu’est-ce que l’inspection visuelle ?

Explorez l’évolution de l’inspection visuelle et découvrez comment l’intelligence artificielle améliore la sécurité et la qualité des produits.

Ressources pour les développeurs

Découvrez comment faire vos premiers pas avec la reconnaissance visuelle et IBM Maximo Visual Inspection. Explorez les ressources et les cours destinés aux développeurs.

Sund & Baelt : construire des ponts pour une meilleure compréhension

Découvrez comment Sund & Baelt a utilisé la technologie de vision par ordinateur pour rationaliser les inspections et améliorer la productivité.

Améliorer les inspections qualité

Découvrez comment la technologie de vision par ordinateur peut améliorer les inspections qualité dans le secteur manufacturier.

Passez à l’étape suivante

Exploitez la puissance de la vision par ordinateur sans code pour une inspection visuelle automatisée avec IBM Maximo Visual Inspection, un ensemble d’outils intuitifs destinés à l’étiquetage, à l’entraînement et au déploiement de modèles de vision par intelligence artificielle.

Explorez Maximo Visual Inspection

Essayer la démo

Qu’est-ce que la vision par ordinateur ?