La clasificación de imágenes aplica una etiqueta de clase a toda una imagen. Por ejemplo, un modelo simple de clasificación de imágenes podría ser entrenado para categorizar imágenes de vehículos como “automóvil” o “camión”. Los sistemas convencionales de clasificación de imágenes son poco sofisticados, ya que no procesan las características individuales de la imagen por separado.
La detección de objetos combina la clasificación de imágenes con la localización de objetos, generando regiones rectangulares, llamadas “cuadros delimitadores”, en las que se ubican los objetos: en lugar de simplemente etiquetar la imagen de un vehículo como “automóvil” o “camión”, un modelo de detección de objetos podría indicar en qué parte de la imagen se encuentra/n el/los automóvil/es o camión/es. Si bien la detección de objetos puede clasificar varios elementos dentro de una imagen y aproximar el ancho y la altura de cada elemento, no puede discernir límites o formas precisos. Esto limita la capacidad de los modelos convencionales para delinear objetos que se encuentran demasiado juntos con cuadros delimitadores superpuestos.
La segmentación de imágenes procesa datos visuales a nivel de píxel, utilizando varias técnicas para anotar píxeles individuales como pertenecientes a una clase o instancia específica. Las técnicas “clásicas” de segmentación de imágenes determinan anotaciones mediante el análisis de cualidades inherentes de cada píxel (llamado “análisis heurístico”) como el color y la intensidad, mientras que los modelos de aprendizaje profundo emplean redes neuronales complejas para el reconocimiento de patrones sofisticados. Los resultados de esta anotación son máscaras de segmentación, que representan el límite y la forma específicos píxel por píxel de cada clase, que generalmente corresponde a diferentes objetos, características o regiones, en la imagen.
A grandes rasgos, la segmentación de imágenes se utiliza para tres tipos de tareas: segmentación semántica, segmentación de instancias y segmentación panóptica.