Klasifikasi gambar menerapkan label kelas ke seluruh gambar. Sebagai contoh, model klasifikasi gambar sederhana dapat dilatih untuk mengkategorikan gambar kendaraan sebagai "mobil" atau "truk". Sistem klasifikasi gambar konvensional memiliki kecanggihan yang terbatas, karena tidak memproses fitur gambar secara terpisah.
Deteksi objek menggabungkan klasifikasi gambar dengan lokalisasi objek, menghasilkan daerah persegi panjang, yang disebut "kotak pembatas," tempat objek berada: daripada hanya memberi label gambar kendaraan sebagai "mobil" atau "truk," model deteksi objek dapat menunjukkan di mana dalam gambar mobil atau truk dapat ditemukan. Sementara deteksi objek dapat mengklasifikasikan beberapa elemen dalam gambar dan memperkirakan lebar dan tinggi setiap elemen, ia tidak dapat membedakan batas atau bentuk yang tepat. Hal ini membatasi kemampuan model deteksi objek konvensional untuk menggambarkan objek yang bergerombol secara dekat dengan kotak pembatas yang tumpang tindih.
Segmentasi gambar memproses data visual pada tingkat piksel, menggunakan berbagai teknik untuk membubuhi keterangan piksel individu sebagai milik kelas atau instance tertentu. Teknik segmentasi gambar "klasik" menentukan anotasi dengan menganalisis kualitas yang melekat pada setiap piksel (disebut "heuristik") seperti warna dan intensitas, sementara model pembelajaran mendalam menggunakan jaringan neural yang kompleks untuk pengenalan pola yang canggih. Output dari anotasi ini adalah mask segmentasi, mewakili batas dan bentuk piksel demi piksel tertentu dari setiap kelas, biasanya sesuai dengan objek, fitur, atau wilayah yang berbeda dalam gambar.
Secara garis besar, segmentasi gambar digunakan untuk tiga jenis tugas: segmentasi semantik, segmentasi instance dan segmentasi panoptik.