La classificazione delle immagini applica un'etichetta di classe a un'intera immagine. Ad esempio, un semplice modello di classificazione delle immagini potrebbe essere addestrato a classificare le immagini di veicoli come "auto" o "camion". I sistemi convenzionali di classificazione delle immagini hanno un livello di sofisticazione limitato, poiché non elaborano separatamente le singole caratteristiche dell'immagine.
Il rilevamento degli oggetti combina la classificazione delle immagini con la localizzazione degli oggetti, generando regioni rettangolari, chiamate "riquadri di delimitazione", in cui si trovano gli oggetti: piuttosto che etichettare semplicemente un'immagine di un veicolo come "auto" o "camion", un modello di rilevamento degli oggetti potrebbe indicare dove si trovano le auto o i camion nell'immagine. Anche se il rilevamento degli oggetti è in grado di classificare più elementi all'interno di un'immagine e approssimare la larghezza e l'altezza di ciascun elemento, non può rilevare confini o forme precisi. Ciò limita la capacità dei modelli di rilevamento degli oggetti convenzionali di delineare oggetti strettamente raggruppati con riquadri di delimitazione sovrapposti.
La segmentazione delle immagini elabora i dati visivi a livello di pixel, utilizzando diverse tecniche per annotare singoli pixel come appartenenti a una specifica classe o istanza. Le tecniche di segmentazione delle immagini "classiche" determinano le annotazioni analizzando le qualità intrinseche di ciascun pixel (chiamate "euristiche") come il colore e l'intensità, mentre i modelli di deep learning impiegano complesse reti neurali per un riconoscimento sofisticato dei modelli. I risultati di questa annotazione sono maschere di segmentazione, che rappresentano il confine e la forma specifica, pixel per pixel, di ciascuna classe, solitamente corrispondente a diversi oggetti, caratteristiche o regioni dell'immagine.
In generale, la segmentazione delle immagini viene utilizzata per tre tipi di attività: segmentazione semantica, segmentazione delle istanze e segmentazione panottica.