La tarea de clasificar con precisión los datos de la imagen requiere conjuntos de datos que consten de valores de píxel que representen máscaras para diferentes objetos o etiquetas de clase contenidas en una imagen. Normalmente, debido a la complejidad de los datos de entrenamiento involucrados en la segmentación de imágenes, estos tipos de conjuntos de datos son más grandes y complejos que otros conjuntos de datos de machine learning.
Existen muchos conjuntos de datos de segmentación de imágenes de código abierto disponibles, que abarcan una amplia variedad de clases semánticas con miles de ejemplos y anotaciones detalladas para cada uno. Por ejemplo, imagine un problema de segmentación en el que se enseña a la visión artificial en un automóvil sin conductor a reconocer todos los distintos objetos ante los que tendrá que frenar, como peatones, bicicletas y otros automóviles. La visión artificial del coche debe estar entrenada para reconocerlos todos sistemáticamente o, de lo contrario, no siempre le indicará que frene; su entrenamiento también debe ser extremadamente exacto y preciso o, de lo contrario, podría frenar constantemente tras clasificar erróneamente visuales inocuos como objetos preocupantes.
Estos son algunos de los conjuntos de datos de código abierto más populares utilizados en la segmentación semántica y de imágenes:
Clases de objetos visuales de Pascal (Pascal VOC): el conjunto de datos de Pascal VOC incluye muchas clases de objetos diferentes, cuadros delimitadores y mapas de segmentación sólidos.
MS COCO: MS COCO contiene alrededor de 330 000 imágenes y anotaciones para muchas tareas, como la detección, la segmentación y el subtitulado de imágenes.
Cityscapes: el popular conjunto de datos de cityscapes interpreta datos de entornos urbanos y está compuesto por 5000 imágenes con 20 000 anotaciones y 30 etiquetas de clase.