La tarea de clasificar los datos de imagen con precisión requiere conjuntos de datos que consistan en valores de píxeles que representan máscaras para diferentes objetos o etiquetas de clase contenidas en una imagen. Normalmente, debido a la complejidad de los datos de entrenamiento involucrados en la segmentación de imágenes, estos tipos de conjuntos de datos son más grandes y complejos que otros conjuntos de datos que se utilizan para el aprendizaje automático.
Existen muchos conjuntos de datos de segmentación de imágenes de código abierto disponibles, que abarcan una amplia variedad de clases semánticas con miles de ejemplos y anotaciones detalladas para cada uno. Por ejemplo, imagine un problema de segmentación en el que se enseña a la visión artificial en un automóvil sin conductor a reconocer todos los distintos objetos ante los que tendrá que frenar, como peatones, bicicletas y otros automóviles. La visión artificial del automóvil debe estar entrenada para reconocerlos a todos de manera consistente o, de lo contrario, es posible que no siempre le indique al automóvil que frene. Además, el entrenamiento también debe ser extremadamente exacto y preciso, de lo contrario, podría frenar constantemente después de clasificar de manera errónea imágenes inocuas como objetos de preocupación.
Estos son algunos de los conjuntos de datos de código abierto más populares utilizados en la segmentación semántica y de imagen:
Clases de objetos visuales de Pascal (Pascal VOC): el conjunto de datos VOC de Pascal consta de muchas clases de objetos diferentes, cuadros delimitadores y mapas de segmentación sólidos.
MS COCO: MS COCO contiene alrededor de 330 000 imágenes y anotaciones para muchas tareas, incluso la detección, segmentación y subtítulos de imágenes.
Cityscapes: el popular conjunto de datos de paisajes urbanos interpreta datos de entornos urbanos y está compuesto por 5.000 imágenes con 20.000 anotaciones y 30 etiquetas de clase.