La diferencia principal entre las tareas de segmentación de instancias y la detección convencional de objetos es que la segmentación de instancias predice los límites del nivel de píxeles de cada objeto, mientras que la detección de objetos solo predice la ubicación aproximada de un objeto.
Los métodos convencionales de detección de objetos son una combinación evolucionada de clasificación de imágenes y localización de objetos. Un modelo de detección de objetos, entrenado con varios algoritmos de machine learning para reconocer los patrones visuales de categorías relevantes de objetos (por ejemplo, un modelo de conducción autónoma podría entrenarse para reconocer cosas como “automóvil” o “peatón”), analiza los datos visuales de una imagen de entrada para anotar cualquier instancia de objeto relevante y generar regiones rectangulares, llamadas “cuadros delimitadores”, en las que se ubica cada instancia.
Del mismo modo, los sistemas de segmentación de instancias detectan objetos en una imagen, pero con mucho más detalle: en lugar de un cuadro delimitador que aproxima la ubicación de una instancia de objeto, los algoritmos de segmentación de instancias generan una “máscara de segmentación” píxel por píxel de la forma precisa y área de cada instancia.
Muchas arquitecturas de modelos de segmentación de instancias líderes, como Mask R-CNN, realizan la detección convencional de objetos como un paso preliminar en el proceso de generación de máscaras de segmentación. Tales modelos de “dos etapas” suelen ofrecer una precisión de última generación, aunque con una desventaja respecto de la velocidad.