L'attività di classificazione accurata dei dati delle immagini richiede dataset costituiti da valori pixel che rappresentano maschere per i diversi oggetti o etichette di classe contenuti in un'immagine. In genere, a causa della complessità dei dati di formazione relativi alla segmentazione delle immagini, questi dataset sono più grandi e complessi rispetto ad altri dataset di apprendimento automatico.
Sono disponibili molti set di dati di segmentazione delle immagini open source, che spaziano su una vasta gamma di classi semantiche con migliaia di esempi e annotazioni dettagliate per ciascuno. Basti pensare, ad esempio, a un problema di segmentazione in cui la computer vision di un'auto senza conducente debba riconoscere tutti i vari oggetti davanti ai quali dovrà frenare, come pedoni, biciclette e altre auto. La computer vision dell'auto deve essere addestrata a riconoscere tutti questi oggetti, altrimenti l'auto potrebbe non frenare; inoltre, l'addestramento deve essere estremamente accurato e preciso, altrimenti l'auto potrebbe frenare continuamente qualora avesse classificato in modo errato come segnali di pericolo delle immagini innocue.
Ecco alcuni tra i più diffusi dataset open source utilizzati nella segmentazione semantica e di immagini:
Pascal Visual Object Classes (Pascal VOC): il set di dati Pascal VOC è composto da diverse classi di oggetti, caselle di contorno e robuste mappe di segmentazione.
MS COCO: MS COCO contiene circa 330.000 immagini e annotazioni per molte attività, tra cui il rilevamento, la segmentazione e le didascalie delle immagini.
Cityscapes: il popolare set di dati cityscapes interpreta i dati dagli ambienti urbani e comprende 5.000 immagini con 20.000 annotazioni e 30 etichette di classe.