La segmentation d’image est un processus d’analyse d’image de bout en bout qui consiste à diviser une image numérique en plusieurs segments et à classer les informations contenues dans chaque région.
Lors des trois types de tâches de segmentation d’image (segmentation sémantique, d’instance et panoptique), on attribue une étiquette à chaque pixel de l’image afin de délimiter les contours et la forme des différents objets et régions de l’image. Leur classement se fait selon divers critères : couleur, contraste, position dans l’image, etc.
La segmentation sémantique associe une étiquette à chaque pixel contenu dans une image selon sa classe sémantique, tandis la segmentation d’instance et la segmentation panoptique sont utilisées à des fin de classification différentes.
Les modèles de segmentation d’instance se concentrent uniquement sur les classes sémantiques que l’on peut compter dans une image (entités et objets tels que les personnes, les animaux, les arbres, les voitures ou encore les hydrants). Ces modèles détectent chaque objet, ou instance, puis ils génèrent un masque de segmentation et une étiquette d’identification qu’ils lui attribuent.
Les modèles de segmentation panoptique combinent les deux types d’informations : en plus de procéder à une segmentation sémantique, ils détectent et segmentent chaque instance d’objet. Ils attribuent à chaque pixel une étiquette sémantique, mais aussi un identifiant d’instance unique (le cas échéant).