La détection d’objets est une technique qui s’appuie sur les réseaux neuronaux pour localiser et classer les objets présents dans les images. Cette tâche de vision par ordinateur comporte un large éventail d’applications, de l’imagerie médicale aux voitures autonomes.
La détection d’objets est une tâche de vision par ordinateur qui vise à localiser les objets présents dans les images numériques. Il s’agit d’un exemple d’intelligence artificielle qui consiste à entraîner les ordinateurs à voir comme les humains, notamment en reconnaissant et en classant les objets par catégorie sémantique.1 La localisation d’objet est une technique qui permet de déterminer la position d’un objet dans une image en le délimitant à l’aide d’une boîte englobante. La classification des objets est une autre technique qui permet de déterminer la catégorie à laquelle appartient l’objet détecté. La tâche de détection d’objets associe des sous-tâches de localisation et de classification d’objets pour estimer simultanément l’emplacement et le type des instances d’objets dans une ou plusieurs images.2
Bien que la détection d’objets se chevauche avec d’autres techniques de vision par ordinateur, les développeurs la traitent comme une méthode distincte.
La classification d’images (ou reconnaissance d’images) consiste à classer les images selon les catégories définies. Les tests d'images CAPTCHA en sont l’exemple le plus simple : un groupe d’images est organisé en images avec et sans panneau « Stop ». La classification d’images consiste à attribuer une étiquette à l’ensemble de l’image.
La détection d’objets, quant à elle, délimite les différents objets de l’image selon les categories spécifiées. Alors que la classification d’images distingue les images qui comportent un panneau « Stop » de celles qui n’en comportent pas, la détection d’objets localise et classe tous les panneaux « Stop » présents dans l’image, ainsi que d’autres objets comme les voitures et les personnes.
La segmentation d’images (ou segmentation sémantique) est similaire à la détection d’objets, bien que plus précise. À l’instar de la détection d’objets, la segmentation délimite les objets d’une image selon des categories sémantiques. Cependant, la délimitation se fait non plus à l’aide de boîtes, mais au niveau du pixel.
Pour comprendre les mécanismes internes de la détection d’objets, il est nécessaire d’avoir quelques connaissances de base en vision par ordinateur et, plus généralement, en traitement d'images numériques. Cette section en fournit un aperçu.
En vision par ordinateur, les images sont exprimées sous forme de fonctions continues sur un plan de coordonnées en 2D représenté par f(x,y). Lorsqu’elles sont numérisées, les images subissent principalement deux processus, à savoir l’échantillonnage et la quantification, qui, en gros, convertissent ensemble la fonction d’image continue en grille discrète d’éléments de pixel. L’ordinateur peut ensuite segmenter une image en régions distinctes en fonction de la similarité visuelle et de la proximité des pixels.3
Les utilisateurs étiquettent les images à l’aide d’une interface d’annotation pour définir un objet donné comme région présentant des caractéristiques de pixel spécifiques (zone, valeur de gris, etc.). Lorsqu’il reçoit une image en entrée, le modèle de détection d’objets reconnaît les régions présentant des caractéristiques similaires à celles définies dans le jeu de données d’entraînement comme étant le même objet. La détection d’objets est donc un type de reconnaissance des formes. Les modèles de détection d’objets ne reconnaissent pas les objets en tant que tels, mais comme étant des agrégats de propriétés (taille, forme, couleur, etc.), et classent les régions en fonction de schémas visuels déduits des données d’entraînement annotées manuellement.4
Les modèles de détection d’objets pour voitures autonomes, par exemple, ne reconnaissent pas les piétons, mais l’ensemble de caractéristiques qui forment le schéma général propre aux objets piétons (tels que définis dans les données d'entraînement).
Si chaque famille de modèles comporte sa propre architecture, les modèles d’apprentissage profond employés dans la détection d’objets suivent une structure générale. Ils sont constitués d’une épine dorsale, d’un cou et d’une tête.
L’épine dorsale extrait les caractéristiques de l’image d’entrée. Souvent, l’épine dorsale est dérivée d’une partie d’un modèle de classification pré-entraîné. L’extraction des caractéristiques produit une myriade de cartes de caractéristiques de résolutions variables, que l’épine dorsale transmet au cou. Cette dernière partie de la structure regroupe les cartes de caractéristiques de chaque image. L’architecture transmet ensuite les cartes de caractéristiques multicouches à la tête, qui prédit les boîtes englobantes et les scores de classification pour chaque ensemble de caractéristiques.
Les détecteurs à deux étapes séparent la localisation et la classification des objets au niveau de la tête, tandis que les détecteurs à étape unique combinent ces tâches. Les premiers offrent généralement une plus grande précision, tandis que les seconds sont plus rapides.5
L’intersection over réunion (IoU) est un indicateur d’évaluation couramment utilisé dans les modèles de détection d’objets. La boîte englobante est la sortie quadratique qui délimite l’objet détecté tel que prédit par le modèle. L’IoU calcule le rapport entre l’aire d’intersection de deux boîtes englobantes (c’est-à-dire, la zone où les sections de boîte se chevauchent) et leur aire d’union (c’est-à-dire l’aire totale des deux boîtes) :6
Cette équation peut être visualisée comme suit :
Les modèles s’appuient sur l’IoU pour mesurer la précision de la prédiction. Pour ce faire, ils calculent l’IoU entre une boîte prédite et une boîte de vérité terrain. Les architectures de modèles s’appuient également sur l’IoU pour générer les prévisions finales de la boîte englobante. Étant donné que les modèles génèrent initialement plusieurs centaines de prédictions de boîte englobante pour un même objet détecté, l’IoU leur permet de pondérer et de consolider les prédictions pour obtenir une seule boîte par objet détecté.
D’autres indicateurs peuvent être utilisés pour réaliser différents types d’évaluation des modèles de détection d’objets. L’indicateur GIoU (generalized intersection over union) est une version modifiée de l’IoU, qui prend en compte les améliorations apportées à la localisation des objets pour lesquelles l’IoU peut continuer à retourner une valeur nulle.7 La recherche en matière de détection d’objets s’appuie également sur des indicateurs de récupération d’informations courants, comme la précision et le rappel moyens.
Il existe différentes approches de machine learning pour les tâches de détection d’objets.Parmi les exemples, citons la méthode de Viola-Jones8 et l’histogramme de gradients orientés.9 La recherche et le développement en matière de détection d’objets privilégient toutefois les réseaux de neurones convolutifs (CNN). Cette page traite des deux types de CNN les plus abordés dans la recherche en détection d’objets. Notez que ces modèles sont testés et comparés à l’aide de jeux de données de référence, comme le jeu de données Microsoft COCO ou encore ImageNet.
Un R-CNN (réseau neuronal convolutif basé sur les régions) est un détecteur en deux étapes qui utilise une méthode appelée propositions de régions pour générer 2 000 prédictions de régions par image. Le R-CNN déforme ensuite les régions extraites pour en uniformiser la taille, et il les fait passer par des réseaux distincts pour extraire et classer leurs caractéristiques. Chaque région est notée en fonction de la fiabilité de sa classification. Le R-CNN rejette ensuite les régions dont les IoU se chevauchent au profit de la région sélectionnée ayant obtenu le meilleur score. Les autres régions classées les mieux notées qui ne se chevauchent pas constituent la sortie du modèle.10 Comme on peut s’y attendre, cette architecture est lente et coûteuse en termes de calcul. Les Fast R-CNN et les Faster R-CNN sont des évolutions qui réduisent la taille de l’architecture du R-CNN et donc le temps de traitement, tout en augmentant la précision.11
Les algorithmes YOLO (You Only Look Once) forment une famille d’architectures de détection en une seule étape basée sur Darknet, un framework CNN open source. Développée pour la première fois en 2016, l’architecture YOLO privilégie la vitesse. En effet, sa rapidité en fait l’option de choix pour la détection d’objets en temps réel, et c’est d’ailleurs pour cela qu’on le qualifie communément de détecteur d’objets de pointe. L’algorithme YOLO se distingue des R-CNN à plusieurs égards. Alors que les R-CNN font passer les régions d’images extraites à travers plusieurs réseaux qui en extraient les caractéristiques et classent les images séparément, YOLO condense ces étapes dans un réseau unique. Ensuite, tandis que les R-CNN font environ 2 000 propositions de régions, YOLO fait moins de 100 prédictions de boîtes englobantes par image. Outre sa rapidité supérieure à celle des R-CNN, YOLO produit également moins de faux positifs pour les régions d’arrière-plan, avec des erreurs de localisation toutefois plus élevées.12 L’algorithme YOLO a fait l’objet de nombreuses mises à jour depuis sa création, généralement axées sur sa vitesse et sa précision.13
Bien que développées à l’origine pour la détection d’objets, les versions plus récentes de R-CNN et de YOLO permettent également d’entraîner les modèles de classification et de segmentation. Plus précisément, Mask R-CNN associe détection d'objets et segmentation, tandis que YOLOv5 permet d’entraîner différents modèles de classification, de détection et de segmentation.
Bien sûr, il existe bien d’autres architectures de modèles outre R-CNN et YOLO.SSD et Retinanet reposent sur une architecture simplifiée similaire à YOLO.14 Développée par Facebook (aujourd’hui Meta), l’architecture DETR associe le CNN à un modèle de type transformateur et offre une performance comparable à celle de Faster R-CNN.15
Dans bon nombre de cas d’utilisation, la détection d’objets n’est pas une fin en soi, mais l’étape d’une tâche de vision par ordinateur plus complexe.
Les voitures autonomes s’appuient largement sur la détection d’objets pour reconnaître des objets tels que les véhicules et les piétons. L’Autopilot de Tesla en est un exemple. En raison de leur rapidité, les architectures simples comme YOLO et SimpleNet sont évidemment plus adaptées à la conduite autonome.16
La détection d’objets peut faciliter les tâches d’inspection visuelle. Par exemple, dans un corpus important de recherche en détection d’objets, peuvent être examinés les mesures et les modèles permettant d’identifier les indicateurs physiologiques de maladie dans des images médicales telles que les radiographies et les IRM. Dans ce domaine, de nombreuses recherches se sont concentrées sur l’amélioration des déséquilibres des jeux de données dus à la rareté de ce type d’imagerie.17
La vidéosurveillance peut faire appel à la détection d’objets en temps réel pour suivre les objets associés au crime, comme des armes à feu ou des outils, dans les images des caméras de sécurité. En détectant ces objets, les systèmes de sécurité peuvent davantage prédire et prévenir les crimes. Les chercheurs ont développé des algorithmes de détection d’armes à feu utilisant à la fois les R-CNN et YOLO.18
Les jeux de données déséquilibrés freinent énormément les tâches de détection d’objets, car les échantillons négatifs (c’est-à-dire les images sans l’objet d’intérêt) sont beaucoup plus nombreux que les échantillons positifs dans nombre de jeux de données propres à certains domaines. C’est un problème qui touche particulièrement l’imagerie médicale, un domaine où il est difficile d’acquérir des échantillons positifs des maladies. Des recherches récentes utilisent l’augmentation des données pour étendre et diversifier les jeux de données limités et améliorer ainsi la performance des modèles.19
Les développements antérieurs en matière de détection d’objets se concentraient largement sur les images 2D. Plus récemment, les chercheurs se sont tournés vers des applications de détection d’objets dans les images et les vidéos 3D. Le flou cinétique et le changement de mise au point de la caméra causent des problèmes dans l’identification des objets sur les images vidéo. Les chercheurs ont exploré toute une série de méthodes et d’architectures pour faciliter le suivi des objets dans les images malgré ces conditions, comme l’architecture LSTM (long short-term memory) des réseaux neuronaux récurrents20 et les modèles basés sur les transformeurs.21 Les transformeurs ont été utilisés pour accélérer les modèles de détection d’objets dans les tâches de détection en temps réel. Les techniques de traitement parallèle constituent un autre domaine d’étude important dans ce domaine.22
Nous avons interrogé 2 000 entreprises à propos de leurs initiatives d’IA pour découvrir ce qui fonctionne, ce qui ne fonctionne pas et comment progresser.
IBM Granite est notre famille de modèles d’IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d’IA. Explorez les options de langage, de code, de séries temporelles et de garde-fous.
Accédez à notre catalogue complet de plus de 100 cours en ligne en souscrivant aujourd’hui un abonnement individuel ou multiutilisateur afin d’élargir vos compétences dans certains de nos produits à un prix avantageux.
Dirigé par des leaders d’opinion IBM, le programme a pour but d’aider les chefs d’entreprise à acquérir les connaissances nécessaires qui leur permettront d’orienter leurs investissements IA vers les opportunités les plus prometteuses.
Découvrez ce qu’est la latence du réseau, pourquoi elle est importante et comment elle affecte les performances. Explorez les causes et découvrez des solutions pour mesurer et réduire la latence afin de bénéficier de connexions plus rapides et plus efficaces.
Découvrez comment la réalité augmentée (AR) et la réalité virtuelle (VR) peuvent améliorer la productivité et la flexibilité de votre organisation. Accédez à nos dernières informations sur l’utilisation de la technologie XR pour transformer votre espace de travail et booster votre efficacité.
Découvrez comment l’edge computing transforme les opérations avec une vitesse accrue, une sécurité renforcée et une évolutivité inégalée. Vous souhaitez exploiter le potentiel de l’edge ? Lancez-vous dès maintenant.
Découvrez comment le découpage du réseau 5G révolutionne les opérations de télécommunications en permettant une connectivité personnalisée, rapide et fiable pour des secteurs tels que la santé, la fabrication et les villes intelligentes.
1 Bogusław Cyganek, Object Detection and Recognition in Digital Images : Theory and Practice, Wiley, 2013.
2 Kemal Oksuz, Baris Can Cam, Sinan Kalkan et Emre Akbas, « Imbalance Problems in Object Detection : A Review », IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 43, n° 10, 2021, pages 3388-3415, https://ieeexplore.ieee.org/document/9042296.
3 Archangelo Disante et Cosimo Disante, Handbook of Image Processing and Computer Vision, vol. 1, Springer, 2020. Milan Sonka, Vaclav Hlavac et Roger Boyle, Image Processing, Analysis, and Machine Vision, 4e édition, Cengage, 2015.
4 Archangelo Disante et Cosimo Disante, Handbook of Image Processing and Computer Vision, vol. 1, Springer, 2020. Milan Sonka, Vaclav Hlavac et Roger Boyle, Image Processing, Analysis, and Machine Vision, 4e édition, Cengage, 2015.
5 Benjamin Planche et Eliot Andres, Hands-On Computer Vision with TensorFlow 2, Packt Publishing, 2019. Van Vung Pham et Tommy Dang, Hands-On Computer Vision with Detectron2, Packt Publishing, 2023. Licheng Jiao, Fan Zhang, Fang Liu, Shuyuan Yang, Lingling Li, Zhixi Feng, Rong Qu, « A survey of deep learning-based object detection » IEEE Access, vol. 7, 2019, pages 128837-128868, https://ieeexplore.ieee.org/document/8825470. Richard Szeliski, Computer Vision : Algorithms and Applications, 2e édition, Springer, 2021.
6 Richard Szeliski, Computer Vision : Algorithms and Applications, 2e édition, Springer, 2021.
7 Hamid Rezatofighi, Nathan Tsoi, JunYoung Gwak, Amir Sadeghian, Ian Reid et Silvio Savarese, « Generalized intersection over union : A metric and a loss for bounding box regression », Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pages 658-666, accessible ici.
8 P. Viola et M. Jones, « Rapid object detection using a boosted cascade of simple features », Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2001, https://ieeexplore.ieee.org/document/990517.
9 N. Dalal et B. Triggs, « Histograms of oriented gradients for human detection » Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2005, pages 886-893, https://ieeexplore.ieee.org/document/1467360 .
10 Ross Girshick, Jeff Donahue, Trevor Darrell et Jitendra Malik, « Rich feature hierarchies for accurate object detection and semantic segmentation », Proceedings of the 2014 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2014, https://arxiv.org/abs/1311.2524 .
11 Ross Girschick, « Fast R-CNN », Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV), 2015, pages 1440-1448, https://arxiv.org/abs/1504.08083 . Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun, « Faster R-CNN : Towards Real-Time Object Detection with Region Proposal Networks », Advances in Neural Information Processing Systems (NIPS 2015), vol. 28, https://proceedings.neurips.cc/paper_files/paper/2015/hash/14bfa6bb14875e45bba028a21ed38046-Abstract.html .
12 Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, « You Only Look Once : Unified, Real-Time Object Detection », 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pages 779-788, https://arxiv.org/abs/1506.02640.
13 Joseph Redmon et Ali Farhadi, « YOLOv3 : An Incremental Improvement », 2018, https://arxiv.org/abs/1804.02767 . Alexey Bochkovskiy, Chien-Yao Wang et Hong-Yuan Mark Liao, « YOLOv4 : Optimal Speed and Accuracy of Object Detection », European Conference on Computer Vision, 2020, https://arxiv.org/abs/2004.10934 . Xin Huang, Xinxin Wang, Wenyu Lv, Xiaying Bai, Xiang Long, Kaipeng Deng, Qingqing Dang, Shumin Han, Qiwen Liu, Xiaoguang Hu, Dianhai Yu, Yanjun Ma et Osamu Yoshie, « PP-YOLOv2 : A Practical Object Detector », 2021, https://arxiv.org/abs/2104.10419 . Chien-Yao Wang, Alexey Bochkovskiy et Hong-Yuan Mark Liao, « YOLOv7 : Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors », 2022, https://arxiv.org/abs/2207.02696.
14 Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu et Alexander C. Berg, « SSD : Single Shot MultiBox Detector », Proceedings of the European Conference of Computer Vision (ECCV), 2016, pages 21-37, https://arxiv.org/abs/1512.02325. Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He et Piotr Dollár, « Focal Loss for Dense Object Detection , IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 42, n° 2, 2020, pages 318-327,https://arxiv.org/abs/1708.02002.
15 Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov et Sergey Zagoruyko, « End-to-End Object Detection with Transformers », Proceedings of the European Conference of Computer Vision (ECCV), 2020, https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123460205.pdf .
16 Abhishek Balasubramaniam et Sudeep Pasricha, « Object Detection in Autonomous Vehicles : Status and Open Challenges », 2022, https://arxiv.org/abs/2201.07706. Gene Lewis, « Object Detection for Autonomous Vehicles », 2016, https://web.stanford.edu/class/cs231a/prev_projects_2016/object-detection-autonomous.pdf.
17 Trong-Hieu Nguyen-Mau, Tuan-Luc Huynh, Thanh-Danh Le, Hai-Dang Nguyen et Minh-Triet Tran, « Advanced Augmentation and Ensemble Approaches for Classifying Long-Tailed Multi-Label Chest X-Rays », Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, pages 2729-2738, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Nguyen-Mau_Advanced_Augmentation_and_Ensemble_Approaches_for_Classifying_Long-Tailed_Multi-Label_Chest_ICCVW_2023_paper.html. Changhyun Kim, Giyeol Kim, Sooyoung Yang, Hyunsu Kim, Sangyool Lee et Hansu Cho, « Chest X-Ray Feature Pyramid Sum Model with Diseased Area Data Augmentation Method », Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, pages 2757-2766, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Kim_Chest_X-Ray_Feature_Pyramid_Sum_Model_with_Diseased_Area_Data_ICCVW_2023_paper.html.
18 Palash Yuvraj Ingle et Young-Gab Kim, « Real-Time Abnormal Object Detection for Video Surveillance in Smart Cities », Sensors, vol. 22, n°10, 2022, https://www.mdpi.com/1424-8220/22/10/3862.
19 Manisha Saini et Seba Susan, « Tackling class imbalance in computer vision : a contemporary review », Artificial Intelligence Review, vol. 56, 2023, pages 1279–1335, https://link.springer.com/article/10.1007/s10462-023-10557-6.
20 Kai Kang, Hongsheng Li, Tong Xiao, Wanli Ouyang, Junjie Yan, Xihui Liu et Xiaogang Wang, « Object Detection in Videos With Tubelet Proposal Networks », Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pages 727-735, https://openaccess.thecvf.com/content_cvpr_2017/html/Kang_Object_Detection_in_CVPR_2017_paper.html
21 Sipeng Zheng, Shizhe Chen et Qin Jin, « VRDFormer : End-to-End Video Visual Relation Detection With Transformers », Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022, pages 18836-18846, https://openaccess.thecvf.com/content/CVPR2022/html/Zheng_VRDFormer_End-to-End_Video_Visual_Relation_Detection_With_Transformers_CVPR_2022_paper.html.
22 Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov et Sergey Zagoruyko, « End-to-End Object Detection with Transformers », Proceedings of the European Conference on Computer Vision (ECCV), 2020, pages 213-229, https://link.springer.com/chapter/10.1007/978-3-030-58452-8_13, Mekhriddin Rakhimov, Jamshid Elov , Utkir Khamdamov , Shavkatjon Aminov et Shakhzod Javliev, « Parallel Implementation of Real-Time Object Detection using OpenMP », International Conference on Information Science and Communications Technologies (ICISCT), 2021, https://ieeexplore.ieee.org/document/9670146. Yoon-Ki Kim et Yongsung Kim, « DiPLIP: Distributed Parallel Processing Platform for Stream Image Processing Based on Deep Learning Model Inference », Electronics, vol. 9, n° 10, 2020, https://www.mdpi.com/2079-9292/9/10/1664.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io