La principale différence entre les tâches de segmentation d’instances et la détection conventionnelle d’objets, c’est que la segmentation d’instances prédit les limites au niveau du pixel de chaque objet, tandis que la détection d’objets prédit uniquement l’emplacement approximatif d’un objet.
Les méthodes de détection d’objets conventionnelles utilisent une combinaison évoluée de classification d’images et de localisation d’objets. Un modèle de détection d’objets est entraîné à partir de divers algorithmes de machine learning pour reconnaître les schémas visuels des catégories d’objets pertinentes (par exemple, un modèle de conduite autonome peut être entraîné à reconnaître des éléments comme une « voiture » ou un « piéton »). Il analyse les données visuelles d’une image en entrée pour annoter toutes les instances d’objets pertinentes et générer des régions rectangulaires, appelées « cadres de délimitation », pour chaque instance.
Les systèmes de segmentation d’instances détectent également les objets dans une image, mais de manière beaucoup plus détaillée : au lieu d’un cadre de délimitation indiquant l’emplacement approximatif d’une instance d’objet, les algorithmes de segmentation d’instances génèrent un « masque de segmentation » pixel par pixel de la forme et de la surface précises de chaque instance.
Nombre d’architectures de modèles de segmentation d’instances de premier plan, comme Mask R-CNN, effectuent une détection d’objets conventionnelle préliminaire dans le cadre du processus de génération de masques de segmentation. Ces modèles « en deux étapes » permettent généralement d’obtenir une précision de pointe, mais en faisant un compromis sur la vitesse.