Accueil
Thèmes
Vision par ordinateur
La vision par ordinateur est un domaine de l’intelligence artificielle (IA) qui utilise le machine learning et les réseaux neuronaux pour apprendre aux ordinateurs et aux systèmes à dériver des informations significatives à partir d’images numériques, de vidéos et d’autres entrées visuelles, et pour faire des recommandations ou prendre des mesures lorsque des défauts ou des problèmes sont identifiés.
Si l’IA permet aux ordinateurs de réfléchir, la vision par ordinateur leur permet de voir, d’observer et de comprendre.
La vision par ordinateur fonctionne à peu près de la même manière que la vision humaine, à la différence près que les humains ont une longueur d’avance. La vue humaine bénéficie d’une vie entière de contexte pour s’entraîner à distinguer les objets, à évaluer leur distance, à savoir s’ils se déplacent ou à voir si quelque chose ne va pas dans une image.
La vision par ordinateur entraîne les machines à remplir ces fonctions, mais en accéléré, avec des caméras, des données et des algorithmes plutôt qu’avec des rétines, des nerfs optiques et un cortex visuel. Étant donné qu’un système entraîné à l’inspection de produits ou à la surveillance des actifs en production peut analyser des milliers de produits ou de processus à la minute, et remarquer des défauts ou des problèmes imperceptibles, il peut rapidement surpasser les capacités humaines.
La vision par ordinateur est utilisée aussi bien dans le secteur de l’énergie et des services publics que dans les industries manufacturières et automobiles, et le marché ne cesse de croître. Il devrait atteindre 48,6 milliards de dollars d’ici 2022.1
Les processus de divulgation ESG débutant dès 2025 pour certaines entreprises, assurez votre préparation grâce à notre guide.
La vision par ordinateur nécessite de grandes quantités de données. Elle analyse et réanalyse ces dernières jusqu’à discerner des différences et reconnaître des images. Par exemple, pour entraîner un ordinateur à reconnaître les pneus d’automobile, il doit recevoir de grandes quantités d’images de pneus et d’accessoires connexes pour apprendre les différences entre eux et les reconnaître, en particulier un pneu sans défaut.
Pour y parvenir, deux technologies essentielles interviennent : un type de machine learning appelé apprentissage profond et un réseau neuronal convolutif (CNN).
Le machine learning utilise des modèles algorithmiques qui permettent à l’ordinateur de s’entraîner lui-même sur le contexte des données visuelles. Si suffisamment de données sont transmises au modèle, l’ordinateur « regardera » les données et apprendra lui-même à distinguer une image d’une autre. Les algorithmes permettent à la machine d’apprendre par elle-même : inutile de la programmer à reconnaître une image.
Un CNN permet à un modèle de machine learning ou d’apprentissage profond de « regarder » en décomposant les images en pixels auxquels sont attribuées des balises ou des étiquettes. Il utilise les étiquettes pour effectuer des convolutions (une opération mathématique sur deux fonctions pour produire une troisième fonction) et fait des prédictions sur ce qu’il « voit ». Le réseau neuronal exécute des convolutions et vérifie l’exactitude de ses prédictions dans une série d’itérations jusqu’à ce que les prédictions commencent à se réaliser. C’est à ce stade qu’il reconnaît ou voit les images d’une manière similaire à celles des humains.
Tout comme un humain déchiffre une image à distance, un CNN commence par discerner les contours nets et les formes simples, puis il complète les informations au fur et à mesure des itérations de ses prédictions. Un CNN est utilisé pour comprendre des images uniques. Un réseau neuronal récurrent (RNN) est utilisé de manière similaire pour les applications vidéo afin d’aider les ordinateurs à comprendre comment les éléments d’une série d’images sont liés les uns aux autres.
Cela fait environ 60 ans que les scientifiques et les ingénieurs tentent de développer des moyens permettant aux machines de voir et de comprendre les données visuelles. Les expérimentations commencent en 1959, lorsque des neurophysiologistes montrent à un chat une série d’images, en essayant de corréler les réponses dans son cerveau. Ils découvrent que le chat répond d’abord aux lignes ou arêtes dures, et scientifiquement, cela signifie que le traitement de l’image commence par des formes simples comme des bords droits.2
À peu près à la même époque, la première technologie de numérisation d’images par ordinateur est développée : elle permet aux ordinateurs de numériser et d’acquérir des images. Une autre étape est franchie en 1963 lorsque des ordinateurs réussissent à transformer des images en 2D en formes en 3D. Dans les années 1960, l’IA devient un domaine d’études universitaires. Cette époque marque également le début de l’utilisation de l’IA pour résoudre les problèmes de la vision humaine.
1974 voit l’introduction de la technologie OCR (reconnaissance optique de caractères), capable de reconnaître du texte imprimé dans n’importe quelle police de caractères.3 De même, la reconnaissance intelligente de caractères (ICR) permet de déchiffrer du texte écrit à la main à l’aide de réseaux neuronaux.4 Depuis lors, les technologies OCR et l’ICR ont trouvé leur place dans le traitement des documents et des factures, la reconnaissance des plaques d’immatriculation, les paiements mobiles, la conversion automatique et d’autres applications courantes.
En 1982, le neuroscientifique David Marr établit que la vision fonctionne de manière hiérarchique et introduit des algorithmes permettant aux machines de détecter les arêtes, les angles, les courbes et des formes de base similaires. Parallèlement, l’informaticien Kunihiko Fukushima développe un réseau de cellules capable de reconnaître des schémas. Le réseau, appelé Neocognitron, comprenait des couches convolutives dans un réseau neuronal.
En 2000, l’accent est mis sur la reconnaissance d’objets et en 2001, les premières applications de reconnaissance faciale en temps réel apparaissent. La standardisation de l’étiquetage et de l’annotation des jeux de données visuelles s’installe au cours des années 2000. En 2010, le jeu de données ImageNet devient accessible. Il contient des millions d’images étiquetées dans un millier de classes d’objets et fournit une fondation pour les CNN et les modèles d’apprentissage profond utilisés aujourd’hui. En 2012, une équipe de l’Université de Toronto inscrit un CNN à un concours de reconnaissance d’images. Le modèle, appelé AlexNet, réduit considérablement le taux d’erreur de reconnaissance d’images. Après cette avancée majeure, les taux d’erreur tombent à seulement quelques pour cent.5
Accédez à des vidéos, des articles, des ateliers et plus encore.
De nombreuses recherches sont menées dans le domaine de la vision par ordinateur, mais cela ne s’arrête pas là. Les applications dans le monde réel montrent à quel point la vision par ordinateur est importante dans les affaires, le divertissement, les transports, la santé et la vie de tous les jours. L’un des principaux moteurs de la croissance de ces applications est le flot d’informations visuelles provenant des smartphones, des systèmes de sécurité, des caméras de circulation et d’autres appareils dotés d’instruments visuels. Ces données pourraient jouer un rôle majeur dans les opérations de tous les secteurs, mais elles ne sont pas utilisées aujourd’hui. Ces informations créent un banc d’essai pour développer des applications de vision par ordinateur et une rampe de lancement qui leur permettra d’intégrer diverses activités humaines :
De nombreuses organisations ne possèdent pas les ressources nécessaires pour financer des laboratoires de vision par ordinateur et créer des modèles d’apprentissage profond et des réseaux neuronaux. Il arrive aussi qu’elles ne disposent pas de la puissance de calcul suffisante pour traiter d’énormes jeux de données visuelles. Des entreprises comme IBM apportent leur contribution en proposant des services de développement de logiciels de vision par ordinateur. Ces services fournissent des modèles d’apprentissage prédéfinis, disponibles dans le cloud, et réduisent également la demande en ressources informatiques. Les utilisateurs peuvent se connecter à ces services via une interface de programmation d’applications (API) et les utiliser pour développer des applications de vision par ordinateur.
IBM a également introduit une plateforme de vision par ordinateur en réponse à des préoccupations relatives au développement et aux ressources informatiques. IBM Maximo Visual Inspection comprend des outils qui permettent aux experts d’étiqueter, d’entraîner et de déployer des modèles de vision basés sur l’apprentissage profond, sans expertise en codage ou en apprentissage profond. Les modèles de vision peuvent être déployés dans des centres de données locaux, sur le cloud et sur des dispositifs edge.
Même s’il devient plus facile de trouver des ressources pour le développement d’applications de vision par ordinateur, la réponse à la question suivante est tout de même importante : quelle sera exactement la fonction de ces applications ? La compréhension et la définition de tâches spécifiques de vision par ordinateur pourront orienter et valider les projets et les applications, et faciliter vos premiers pas.
Voici quelques exemples de tâches de vision informatique établies :
Mettez la puissance de la vision par ordinateur entre les mains de vos équipes de qualité et d'inspection. IBM Maximo Visual Inspection rend la vision par ordinateur et l’apprentissage profond plus accessibles aux utilisateurs professionnels grâce à des outils d’inspection visuelle qui leur donne les moyens de réussir.
IBM Research est l’un des plus grands laboratoires de recherche d’entreprise au monde. En savoir plus sur les recherches menées dans tous les secteurs.
Explorez l’évolution de l’inspection visuelle et découvrez comment l’intelligence artificielle améliore la sécurité et la qualité des produits.
Découvrez comment faire vos premiers pas avec la reconnaissance visuelle et IBM Maximo Visual Inspection. Explorez les ressources et les cours destinés aux développeurs.
Découvrez comment Sund & Baelt a utilisé la technologie de vision par ordinateur pour rationaliser les inspections et améliorer la productivité.
Découvrez comment la technologie de vision par ordinateur peut améliorer les inspections qualité dans le secteur manufacturier.
1. https://www.forbes.com/sites/bernardmarr/2019/04/08/7-amazing-examples-of-computer-and-machine-vision-in-practice/#3dbb3f751018 (lien externe à ibm.com)
2. https://hackernoon.com/a-brief-history-of-computer-vision-and-convolutional-neural-networks-8fe8aacc79f3 (lien externe à ibm.com)
3. Reconnaissance optique de caractères, Wikipédia (lien externe à ibm.com)
4. Reconnaissance intelligente de caractères, Wikipédia (lien externe à ibm.com)
5. A Brief History of Computer Vision (and Convolutional Neural Networks), Rostyslav Demush, Hacker Noon, 27 février 2019 (lien externe à ibm.com)
6. 7 Amazing Examples of Computer And Machine Vision In Practice, Bernard Marr, Forbes, 8 avril 2019 (lien externe à ibm.com)
7. The 5 Computer Vision Techniques That Will Change How You See The World, James Le, Heartbeat, 12 avril 2018 (lien externe à ibm.com)