La classification des images applique une étiquette de classe à une image entière. Par exemple, un simple modèle de classification des images peut être formé pour catégoriser les images des véhicules comme « voiture » ou « camion ». Les systèmes de classification des images conventionnels sont généralement peu sophistiqués, car ils ne traitent pas séparément les caractéristiques d'image individuelles.
La détection d'objets associe la classification d'image et la localisation d'objets, en générant des régions rectangulaires, appelées « cadres de délimitation », dans lesquelles les objets sont situés. Ainsi, au lieu de simplement étiqueter une image de véhicule comme « voiture » ou « camion », un modèle de détection d'objets pourrait indiquer où se trouvent la (les) voiture(s) ou le(s) camion(s) dans l'image. Bien que la détection d'objets puisse classer plusieurs éléments au sein d'une image et déterminer approximativement la largeur et la hauteur de chaque élément, elle ne peut pas discerner des formes ou des contours précis. Cela restreint la capacité des modèles conventionnels de détection d'objets à délimiter les objets très rapprochés avec des cadres de délimitation superposés.
La segmentation d'image traite les données visuelles au niveau du pixel, en utilisant diverses techniques pour annoter des pixels individuels comme appartenant à une classe ou une instance spécifique. Les techniques de segmentation d’image dites classiques déterminent les annotations en analysant les qualités inhérentes à chaque pixel (que l'on désigne comme « heuristiques ») telles que la couleur et l’intensité, tandis que les modèles d’apprentissage profond utilisent des réseaux neuronaux complexes pour une reconnaissance sophistiquée des formes. Les résultats de ce processus d'annotation sont des masques de segmentation, représentant la limite et la forme spécifiques, pixel par pixel, de chaque classe, ce qui correspond généralement à différents objets, entités ou régions au sein de l’image.
D'une manière générale, la segmentation d'image est utilisée pour trois types de tâches : la segmentation sémantique, la segmentation d'instance et la segmentation panoptique.