Qu’est-ce que la vision par ordinateur ?

Auteurs

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

Qu’est-ce que la vision par ordinateur ?

La vision par ordinateur est un sous-domaine de l’intelligence artificielle (IA) qui donne aux machines la capacité de traiter, d’analyser et d’interpréter des entrées visuelles telles que les images et les vidéos. Elle s’appuie sur le machine learning pour aider les ordinateurs et autres systèmes à tirer des informations significatives à partir des données visuelles.

La vision par ordinateur peut être considérée comme l’interaction entre trois grands processus qui fonctionnent ensemble et s’informent mutuellement : la reconnaissance, la reconstruction et la réorganisation. La reconnaissance d’images consiste à identifier des actions, des objets, des personnes, des lieux et des écrits dans des images numériques ou des vidéos. La reconstruction déduit les caractéristiques tridimensionnelles de ces entités, tandis que la réorganisation déduit les relations entre les entités.1

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Fonctionnement de la vision par ordinateur

L’imagerie radiologique dans le diagnostic de la pneumonie est un cas d’utilisation courant de la vision par ordinateur. Les radiologues doivent interpréter soigneusement les radiographies du thorax, un processus qui peut être source d’erreurs et prendre du temps en raison de la subtilité des symptômes de la pneumonie et de leurs similitudes avec d’autres affections pulmonaires.2 Un système de vision par ordinateur peut vous aider.

S’il existe plusieurs types de modèles et d’approches pour les tâches de vision par ordinateur, l’exemple hypothétique suivant illustre un workflow courant :

  1. Collecte de données
  2. Prétraitement
  3. Sélection du modèle
  4. Entraînement du modèle

Collecte de données

La première étape consiste à collecter les données visuelles nécessaires. Les hôpitaux génèrent d’énormes volumes de radiographies thoraciques, qu’ils peuvent utiliser pour entraîner un algorithme de vision par ordinateur. L’objectif étant de permettre à l’algorithme de déterminer si une image radiographique révèle ou non une pneumonie, les hôpitaux devront compiler un jeu de données de radiographies thoraciques et étiqueter ou annoter correctement chaque image comme étant normale ou révélant une pneumonie.

Pour d’autres cas d’utilisation, les images et les vidéos peuvent provenir de sources telles que les caméras et les capteurs. Les jeux de données tels que COCO, ImageNet et Open Images fournissent de grandes collections d’images annotées.

Prétraitement

La qualité des modèles d’IA dépend des données utilisées pour les entraîner. Des données de qualité sont donc essentielles pour la vision par ordinateur. Le prétraitement permet d’améliorer la qualité des données en les nettoyant et en les optimisant, par exemple en ajustant la luminosité ou le contraste pour rendre les images plus nettes, ainsi qu’en les redimensionnant et en les lissant.

Les jeux de données doivent également être suffisamment volumineux et diversifiés pour que les algorithmes de vision par ordinateur produisent des résultats précis. La génération de données synthétiques et l’augmentation de données peuvent contribuer à augmenter la taille et la diversité des jeux de données. Par exemple, les hôpitaux peuvent utiliser des transformations géométriques telles que la rotation des radiographies thoraciques vers la gauche ou la droite ou le retournement des images pour enrichir leurs données.

Sélection du modèle

Le choix du bon modèle de machine learning est crucial pour optimiser l’efficacité et les performances. Les réseaux neuronaux convolutifs (CNN) continuent d’être le principal modèle d’apprentissage profond pour les tâches de traitement d’images, tandis que les réseaux neuronaux récurrents (RNN) sont particulièrement adaptés au traitement de données séquentielles telles que les images vidéo.

Cependant, les progrès de l’IA entraînent une évolution vers des modèles de type transformers. Par exemple, un transformer de vision (ViT) applique à la vision par ordinateur les éléments d’un modèle de langage basé sur un transformer. Les ViT divisent l’image en patches qu’il traite comme des séquences, qui s’apparentent aux tokens des transformers de langage. Le transformer de vision implémente ensuite l’auto-attention sur ces patches pour créer une représentation de l’image en entrée basée sur un transformer. Les ViT ont souvent des performances équivalentes ou supérieures à celles des CNN pour les tâches de vision par ordinateur telles que la classification des images.3

Entraînement des modèles

Une fois le modèle choisi, il convient de l’entraîner. La phase d’entraînement consiste à exécuter le modèle sur des données d’entraînement spécifiques à une tâche de vision par ordinateur, à mesurer sa performance par rapport à la vérité terrain et à optimiser ses paramètres pour améliorer la performance au fil du temps.

Les CNN se composent de trois types de couches : une couche de convolution, une couche de pooling et une couche entièrement connectée. La couche de convolution est l’endroit où se produit l’extraction des caractéristiques. L’extraction des caractéristiques consiste à déterminer et à capturer des attributs visuels clés à partir de données d’image brutes, tels que les couleurs, les bordures, les formes et les textures. Dans le cas d’images radiographiques de pneumonie, les caractéristiques à extraire comprennent les contours pulmonaires asymétriques, les régions claires qui indiquent une inflammation ou la présence de liquide (par opposition aux régions sombres remplies d’air), les zones pulmonaires nuageuses ou opaques, et les textures grossières ou inégales.4 L’extraction des caractéristiques permet aux algorithmes de distinguer des modèles et des relations significatives dans les données visuelles.

Une image aux rayons X est traitée comme une matrice de valeurs de pixels. Une autre matrice de pondération (paramètres qui contrôlent l’influence d’une fonctionnalité sur la production du modèle), appelée filtre ou noyau, est appliquée à une zone de l’image radiographique, avec un produit scalaire calculé entre les valeurs de pixel d’entrée. Le filtre se déplace, ou « convolue », sur l’image pour extraire les caractéristiques et l’ensemble du processus est connu sous le nom de convolution. La production finale de la série de produits scalaires est appelée carte d’activation ou carte des caractéristiques. Chaque filtre est réglé pour répondre à des modèles spécifiques, tels que des bordures, des formes ou des textures, ce qui permet au CNN d’acquérir plusieurs caractéristiques visuelles simultanément.

 La carte des caractéristiques est introduite dans une couche de pooling pour réduire davantage la taille de la carte et compresser ses dimensions. Un autre filtre balaie toute l’entrée, en prenant les valeurs maximales ou moyennes d’un groupe de cellules de la carte des caractéristiques. Les caractéristiques les plus essentielles sont ainsi conservées, ce qui permet au modèle de concentrer son attention sur elles.

 Le fait de se déplacer sur une image pour extraire des caractéristiques, réduire les dimensions et produire une classification est connu sous le nom de passage avant. Après ce transfert, le modèle applique une fonction de perte pour calculer son erreur ou la différence entre sa classification prédite et la classification réelle.

Pour minimiser la fonction de perte, la rétropropagation est utilisée. La rétropropagation est un passage en arrière pour calculer le gradient de la fonction de perte par rapport à chaque poids. Ensuite, la technique de descente de gradient est mise en œuvre pour mettre à jour les poids du modèle et l’optimiser.

Enfin, la couche entièrement connectée effectue la tâche de classification en fonction des caractéristiques extraites à partir des couches précédentes et de leurs différents filtres. Le CNN génère ensuite ses sorties, qui sont des probabilités pour chaque classe (dans ce cas, normal versus pneumonie). Pour la tâche de classification des radiographies thoraciques, cette sortie indiquera soit une image normale, soit, si la probabilité dépasse un seuil prédéterminé, une positive pour une pneumonie.

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Tâches de vision par ordinateur

Les algorithmes de vision par ordinateur peuvent être entraînés sur un large éventail de tâches, notamment :

  • Reconnaissance d’images
  • Classification des images
  • Détection d’objets
  • Segmentation d’image
  • Suivi d’objets
  • Compréhension des scènes
  • Reconnaissance faciale
  • Estimation de pose
  • Reconnaissance optique de caractères
  • Génération d’images
  • Inspection visuelle

Reconnaissance d’images

La reconnaissance d’images est la forme la plus vaste de vision par ordinateur. Elle permet l’identification de personnes, de lieux, d’objets et d’autres entités dans les images numériques, et sert de base à des tâches telles que la classification d’images, la détection d’objets et la segmentation d’images.

Classification d’images

La classification des images est une tâche essentielle de vision par ordinateur, qui consiste à classer les images en groupes ou classes prédéfinis. Il prédit l’étiquette la plus adaptée à une image ou à des objets au sein d’une image. Le scénario de diagnostic d’une pneumonie à l’aide de radiographies thoraciques illustré précédemment est un exemple de classification d’images.

Détection d’objets

La détection d’objets vise à identifier l’emplacement de ces derniers dans les images numériques. Elle fusionne deux techniques d’apprentissage : la localisation d’objets et la classification d’images.

La localisation d’objets identifie l’emplacement d’objets spécifiques dans une image en dessinant des cadres de délimitation autour d’eux. Ensuite, la classification des images permet de distinguer les catégories auxquelles appartiennent les objets. Dans les images de trafic routier, par exemple, les applications de vision par ordinateur peuvent utiliser la détection d’objets non seulement pour classer les véhicules, mais aussi pour les localiser sur la route.

Logiciel de détection d’objets utilisé dans le trafic

Les architectures CNN courantes pour la détection d’objets incluent R-CNN (region-based convolutional neural network) et YOLO (you only look once). R-CNN implémente une détection en deux étapes en déterminant d’abord les régions portant des objets, puis en exécutant ces régions à travers des réseaux distincts pour la classification et la localisation plus précise. En parallèle, YOLO effectue une détection en une seule étape en combinant la localisation et la classification dans un seul passage de réseau, ce qui le rend suffisamment rapide pour détecter des objets en temps réel.

La détection d’objets pour les vidéos applique généralement des modèles et des RNN basés sur des transformers, en particulier les architectures mémoire à long terme.

Segmentation d’images

La segmentation d’images est une version plus précise de la détection d’objets, au niveau du pixel. Elle partitionne les images numériques en groupes distincts de pixels appelés segments d’image, puis elle étiquète les pixels en fonction de leur classe ou de leur instance.

Bien que la détection d’objets puisse classer plusieurs éléments d’une image et déterminer approximativement la largeur et la hauteur de chacun, la segmentation d'images permet de discerner les bordures ou les formes exactes. La segmentation d’images s’avère donc particulièrement utile pour délimiter les objets très rapprochés avec des cadres de délimitation superposés.

La segmentation d’image peut être divisée en trois types de tâches :

  • La segmentation sémantique est le type le plus simple, en attribuant à chaque pixel une classe sémantique, la catégorie à laquelle un pixel donné peut appartenir.
  • La segmentation des instances prédit les limites exactes en pixels de chaque instance d'objet individuel dans une image.
  • La segmentation panoptique combine segmentation sémantique et segmentation d’instances en déterminant la classification sémantique de chaque pixel et en différenciant chaque instance d’objet dans une image.

Par exemple, dans une image représentant une rue d’une ville, la segmentation sémantique peut traiter les voitures garées l’une devant l’autre comme un long segment de voiture, tandis que la segmentation d’instance les sépare et détermine la forme de chaque voiture.

Graphique comparant les images sources à la segmentation sémantique, d’instances et panoptique.

Suivi d’objets

Le suivi d’objet suit et trace un objet dans une séquence d’images vidéo ou d’image. Il identifie et distingue l’objet dans chaque trame et préserve la continuité de l’objet pendant la traversée.

Compréhension des scènes

La compréhension des scène va au-delà de la reconnaissance d’objets, en capturant un niveau plus élevé d’informations visuelles. Lors de l’identification d’objets dans une image, les modèles d’apprentissage profond prédisent les connexions entre eux, telles que les actions, les événements et les interactions.

Les réseaux neuronaux graphiques (GNN) peuvent être utilisés pour représenter les relations spatiales entre les objets dans une image. Dans l’exemple de séquence de circulation, les systèmes de vision par ordinateur peuvent déduire qu’un taxi se déplace devant une voiture, qu’une voiture est garée à gauche d’un taxi ou qu’une voiture tourne à droite.

Les modèles de langage visuel (VLM) peuvent également aider à la compréhension des scènes. Cette association de grands modèles de langage (LLM) avec des transformers de vision permet de reconnaître et de classer les objets au sein d’une image et de fournir des descriptions contextuelles telles que la position d’un objet par rapport à d’autres éléments visuels.

Reconnaissance faciale

La reconnaissance faciale applique la reconnaissance d’images aux fonctionnalités du visage. Il capture la géométrie d’un visage et détecte les modèles clés tels que la distance entre les yeux, la distance entre le front et le menton, le contour du nez et la forme des lèvres.

La reconnaissance faciale peut identifier les individus en temps réel ou sur des photos ou des vidéos. Un exemple populaire est l’authentification biométrique par reconnaissance faciale pour déverrouiller les smartphones.

 

Authentification biométrique faciale

Estimation de pose

L’estimation de la pose évalue la position spatiale des différentes parties du corps pour reconnaître les gestes et suivre les mouvements du corps. Par exemple, l’estimation de la posture peut aider à marquer l’orientation des bras et des mains d’un joueur pendant une partie de réalité virtuelle. Un exemple plus concret est le logiciel de vision par ordinateur de la NASA, qui fournit aux opérateurs d’ARM à bord de la Station spatiale internationale une estimation de pose en temps réel pour une saisie précise des cibles.5

Reconnaissance optique de caractères

La reconnaissance optique de caractères (OCR), également appelée reconnaissance de texte, extrait et convertit le texte des images, des documents numérisés et d’autres sources dans un format lisible par les machines. À ce titre, il permet d’automatiser la numérisation des textes manuscrits et des dossiers papier.

Le workflow OCR suit les étapes suivantes :

  1. L’acquisition d’images convertit l’image ou le document numérique en une version en noir et blanc, avec des zones claires marquées comme arrière-plan et les zones sombres comme caractères pour la reconnaissance.
  2. Le prétraitement supprime les pixels superflus et peut inclure un redressement pour corriger le mauvais alignement de l’image lors de la numérisation.
  3. La reconnaissance de texte détecte les lettres, les chiffres et les symboles en ciblant un caractère à la fois. Il identifie ensuite les caractères grâce à la reconnaissance de modèles, en faisant correspondre la police, l’échelle et la forme d’un caractère à un modèle.

Les CNN et les modèles basés sur des transformers disposent d’une reconnaissance de caractères plus intelligente, en extrayant des caractéristiques telles que les courbes, les intersections de lignes, les boucles et le nombre de lignes angulaires dans un caractère. Ces algorithmes sont également capables d’une reconnaissance intelligente des mots, en distinguant les mots au lieu des caractères pour un traitement plus rapide.

Génération d’images

La génération d’images utilise des modèles d’IA générative pour produire des images. Voici quelques modèles génératifs couramment utilisés pour la génération d’images :

  • Les modèles de diffusion sont entraînés à créer de nouvelles images en apprenant à débruiter ou à reconstruire des échantillons dans leurs données d’entraînement qui ont été progressivement diffusés avec un bruit aléatoire et brouillés au-delà de la reconnaissance.
  • Les réseaux antagonistes génératifs (GAN) sont constitués de deux réseaux neuronaux : un générateur qui crée des images et un discriminateur qui agit comme un adversaire en distinguant les données artificielles des données réelles. Ces deux réseaux sont entraînés de manière itérative, les commentaires du discriminateur améliorant la production du générateur jusqu’à ce que le discriminateur ne soit plus capable de distinguer les données artificielles des données réelles.
  • Les auto-encodeurs variationnels (VAE) sont des modèles d’apprentissage profond qui génèrent des variations des données sur lesquelles ils sont entraînés. Un encodeur compresse les images d’entrée dans un espace de dimension inférieure, capturant les informations significatives contenues dans les images. Un décodeur reconstruit ensuite les nouvelles images à partir de cette représentation compressée.

Les VLM sont également capables de générer des images à partir d’une description textuelle.

Inspection visuelle

L’inspection visuelle automatise l’identification des défauts. Grâce à la détection d’objets, les systèmes de vision par ordinateur inspectent les images ou les vidéos pour repérer les imperfections et les défauts. La segmentation d’image peut également être mise en œuvre pour localiser plus précisément les défauts.

Les machines d’inspection visuelle alimentées par la vision par ordinateur peuvent aider les entreprises à effectuer des inspections plus rapides et plus sûres avec une cohérence et une précision accrues, qu’elles signalent la corrosion sur les zones difficiles d’accès de ponts ou la recherche de connecteurs défectueux dans les produits électroniques finis.

Applications de la vision par ordinateur

En tant que domaine mature de l’IA, la vision par ordinateur a connu de nombreuses avancées et propose désormais un large éventail de cas d’utilisation. Voici quelques applications concrètes de la vision par ordinateur :

Agriculture

Les caméras, les drones et les satellites capturent des images haute résolution des cultures et des zones agricoles. Les technologies de vision par ordinateur analysent ensuite ces images afin d’évaluer la santé des plantes et d’identifier les nuisibles et les mauvaises herbes pour une application d’herbicides plus ciblée.

Véhicules autonomes

Dans l’industrie automobile, les voitures autonomes composent un modèle 3D de leur environnement en utilisant une combinaison de caméras, de lidar, de radar et de capteurs. Ils appliquent ensuite la détection, la segmentation d’images et la compréhension des scènes pour assurer une navigation sûre, en évitant les obstacles tels que les piétons et les autres véhicules et en détectant avec précision les caractéristiques de la route telles que les voies, les feux de circulation et les panneaux de signalisation.

Soins de santé

L’imagerie médicale est un domaine d’application essentiel de la vision par ordinateur. Par exemple, la détection d’objets peut automatiser l’analyse d’images, en localisant et en identifiant les marqueurs potentiels de maladies dans les radiographies, les scanners, les IRM et les échographies. En outre, la segmentation d’instances peut délimiter les limites spécifiques des organes, des tissus et des tumeurs, ce qui permet d’établir un diagnostic plus précis qui peut mieux éclairer la prise de décision concernant les traitements et les soins aux patients.

Fabrication

Les systèmes de vision par ordinateur facilitent la gestion des stocks en scannant les articles pour déterminer les niveaux de stock. Ils peuvent également alimenter le contrôle qualité, en reconnaissant les défauts en temps réel. Ces systèmes analysent les images des produits et peuvent signaler rapidement et plus précisément les défauts ou les incohérences que les inspecteurs qui utilisent leur propre vision humaine.

Vente au détail et e-commerce

La technologie Just Walk Out d’Amazon, par exemple, utilise la vision par ordinateur dans les petits magasins de vente au détail et de service alimentaire pour suivre les sélections des clients et automatiser l’expérience de paiement. Les clients peuvent simplement retirer leurs articles sans faire la queue aux comptoirs de paiement.6

Les magasins en ligne peuvent également utiliser la réalité augmentée associée à la reconnaissance faciale et à l’estimation de pose pour leurs expériences d’essai virtuelles, ce qui permet aux clients de visualiser comment les vêtements, les lunettes ou le maquillage leur iront avant d’acheter.

Robotique

Comme les véhicules autonomes, les robots utilisent des caméras, un lidar et des capteurs pour cartographier leur environnement. Ils appliquent ensuite des algorithmes de vision par ordinateur pour accomplir leurs tâches, par exemple pour aider les chirurgiens à effectuer des procédures complexes, naviguer dans des entrepôts pour transporter des marchandises, cueillir uniquement des produits mûrs et placer des objets dans les chaînes de montage.

Exploration spatiale

La détection d’objets peut aider les engins spatiaux à localiser et à éviter les dangers pendant l’atterrissage, tandis que les rovers peuvent mettre en œuvre la même fonctionnalité pour naviguer sur le terrain.7 La classification des images peut être utilisée pour classer les astéroïdes, les météores et même les débris spatiaux, tandis que le suivi des objets surveille les trajectoires de ces objets astronomiques.

Outils de vision par ordinateur

Il existe de nombreux outils pour créer des applications de vision par ordinateur, ce qui permet de rationaliser le processus de développement. Voici quelques outils très utilisés :

  • Keras
  • OpenCV
  • Scikit-image
  • TensorFlow
  • Torchvision

Keras

Keras est une interface de programmation d’application (API) d’apprentissage profond qui peut s’exécuter sur d’autres cadres d’IA, comme PyTorch et TensorFlow. Elle fournit des dizaines de tutoriels et d’exemples pour diverses tâches de vision par ordinateur, notamment la classification d’images et de vidéos, la segmentation d’images, la détection d’objets et l’OCR.

OpenCV

OpenCV est l’une des bibliothèques de vision par ordinateur les plus utilisées. Cette bibliothèque open source contient plus de 2 500 algorithmes de vision par ordinateur, ainsi que des modules pour le traitement d’image, la détection d’objets, l’analyse vidéo, et plus encore. OpenCV est écrit en C++, mais dispose également de wrappers pour des langages de programmation tels que Java et Python.

Scikit-image

Scikit-image est une collection open source d’algorithmes pour le traitement d’images en Python. Sont pris en charge le prétraitement, l’extraction de caractéristiques, la détection d’objets et la segmentation d’images, entre autres. Sa simplicité le rend accessible aux débutants.

TensorFlow

TensorFlow est une plateforme de machine learning open source proposée par Google. S’il permet des applications d’apprentissage profond plus générales, TensorFlow fournit également des jeux de données pour la vision par ordinateur, des outils de prétraitement et des fonctionnalités de classification d’images et de vidéos, de segmentation d’images et de détection d’objets.

Torchvision

La bibliothèque torchvision fait partie de l’écosystème PyTorch. Elle englobe transformations d’images courantes, jeux de données et autres fonctionnalités utilitaires. Elle propose également des modèles pour la classification des images et des vidéos, la détection d’objets, la segmentation sémantique et la segmentation d’instances.

Bref historique de la vision par ordinateur

La vision par ordinateur est l’une des premières disciplines de l’IA. Depuis des décennies, les chercheurs en informatique développent des méthodes permettant aux machines de comprendre les données visuelles.

Les expériences ont commencé dans les années 1950 et 1960, lorsque des neurophysiologistes ont montré à des chats une série d’images tout en enregistrant leur activité neuronale. Ils ont découvert que les animaux réagissaient d’abord aux lignes, concluant que le traitement de l’image commence avec des formes simples comme les bordures.8

À peu près à la même époque, la première technologie de numérisation d’images par ordinateur est développée en permettant aux ordinateurs de numériser et d’acquérir des images.9 Une autre étape a été franchie lorsque les ordinateurs ont développé la capacité de transformer des images bidimensionnelles dans un format tridimensionnel.10

En 1982, le neuroscientifique David Marr a établi que la vision fonctionne de manière hiérarchique et a introduit des algorithmes permettant aux machines de détecter les coins, les courbes, les arêtes et les formes de base similaires.11 Au cours de la même décennie, l’informaticien Kunihiko Fukushima a mis au point un réseau de cellules capables de reconnaître des modèles et l’a baptisé « neocognitron », qui comprenait des couches convolutives dans un réseau neuronal.12

En 2000, l’étude s’est concentrée sur la classification d’images et la reconnaissance d’objets.13 En 2009, le jeu de données ImageNet a été introduit, contenant des millions d’images étiquetées pour l’entraînement d’algorithmes de vision par ordinateur.14 En 2012, une équipe de l’Université de Toronto a créé le CNN AlexNet, qui a été formé sur le jeu de données ImageNet et a considérablement réduit le taux d’erreur pour la reconnaissance d’images, ouvrant ainsi la voie aux modèles de vision par ordinateur d’aujourd’hui.15

Solutions connexes
IBM Maximo Visual Inspection

Exploitez toute la puissance de la vision par ordinateur no-code pour l'automatisation des inspections visuelles.

Explorez Maximo Visual Inspection
Conseil et services en Intelligence Artificielle (IA)

IBM Consulting et ses services d'IA accompagnent les entreprises dans la redéfinition de leurs activités avec l'intelligence artificielle pour mener leur transformation.

Découvrez les services d’intelligence artificielle
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise grâce à l’expertise de pointe d’IBM en matière d’IA et à son portefeuille de solutions.

Découvrir les solutions d’IA
Passez à l’étape suivante

IBM Maximo Visual Inspection met la puissance de la vision par ordinateur basée sur l’IA entre les mains de vos équipes en charge du contrôle qualité et des inspections. Libérez tout le potentiel de la vision par ordinateur no-code pour automatiser vos inspections visuelles.

Explorez Maximo Visual Inspection Découvrir le produit
Notes de bas de page

1. The three R’s of computer vision : Recognition, reconstruction and reorganization, Pattern Recognition Letters, 8 février 2016
2. Efficient pneumonia detection using Vision Transformers on chest X-rays, Scientific Reports, 30 janvier 2024
3. An Image is Worth 16x16 Words : Transformers for Image Recognition at Scale, arXiv, 3 juin 2021
4. NGBoost Classifier Using Deep Features for Pneumonia Chest X-Ray Classification, Applied Sciences, 8 septembre 2025
5. Computer Vision Lends Precision to Robotic Grappling, NASA Technology Transfer Program, consulté le 11 septembre 2025
6. Amazon Just Walk Out, AWS, consulté le 11 septembre 2025
7. The Computer Vision Laboratory, NASA JPL Robotics, consulté le 11 septembre 2025
8. From Cats to the Cortex : Unravelling the Hierarchical Processing System of Vision and Brain Plasticity, Cureus, 2 septembre 2024
9. Your Engineering Heritage : Scanners and Computer Image Processing, IEEE-USA InSight, 8 février 2016
10. A Simple World : The Blocks World, Foundations of Computer Vision, 2024
11. Marr’s Computational Theory of Vision, Foundations of Computer Vision, 2024
12. Neocognitron : A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position, Biological Cybernetics, 1980
13. Computer Vision, Foundations of Computer Vision, 2024
14. ImageNet : A large-scale hierarchical image database, IEEE Conference on Computer Vision and Pattern Recognition, 2009
15. CHM Releases AlexNet Source Code, Computer History Museum, 20 mars 2025