A tarefa de classificar os dados da imagem com precisão exige conjuntos de dados que consistam em valores de pixels que representem máscaras para diversos objetos ou rótulos de classe contidos em uma imagem. Normalmente, devido à complexidade dos dados de treinamento envolvidos na segmentação de imagens, esses tipos de conjuntos de dados são maiores e mais complexos do que outros conjuntos de dados de aprendizado de máquina.
Existem vários conjuntos de dados de segmentação de imagens de código aberto disponíveis, abrangendo uma ampla variedade de classes semânticas, com milhares de exemplos e anotações detalhadas para cada um. Por exemplo, imagine um problema de segmentação em que a visão computacional em um carro sem motorista esteja sendo ensinada a reconhecer todos os vários objetos para os quais ele precisará frear, como pedestres, bicicletas e outros carros. A visão computacional do carro deve ser treinada para reconhecer todos eles de maneira uniforme, ou então nem sempre pode dizer ao carro para frear. Seu treinamento também deve ser extremamente preciso, sob pena de frear constantemente depois de classificar incorretamente imagens inócuas como objetos de preocupação.
Veja a seguir alguns dos conjuntos de dados de código aberto mais populares utilizados na segmentação semântica e de imagens:
Classes de Objetos Visuais de Pascal (Pascal VOC): o conjunto de dados de Pascal VOC consiste em muitas classes de objetos diferentes, caixas delimitadoras e mapas de segmentação robustos.
MS COCO: O MS COCO contém cerca de 330 mil imagens e anotações para muitas tarefas, incluindo detecção, segmentação e legendagem de imagens.
Cityscapes: o popular conjunto de dados Cityscapes interpreta dados de ambientes urbanos e é composto por 5.000 imagens com 20.000 anotações e 30 rótulos de classes.