Ciertas aplicaciones de segmentación de instancias, como la detección de artículos defectuosos en una cadena de montaje de fabricación, requieren resultados en tiempo real. Los modelos de una sola etapa se desarrollaron para casos prácticos en los que la velocidad es una prioridad absoluta.

Los modelos de dos etapas como máscara R-CNN son muy precisos, pero su enfoque inherentemente secuencial es difícil de acelerar. Los modelos de segmentación de instancias en una sola etapa, como YOLACT (You Only Look At CoefficienTs), se basan en modelos de detección de objetos en una sola etapa, como YOLO (You Only Look Once).

En YOLACT, una FPN crea mapas de características de alta resolución, que se introducen en dos ramas paralelas: una rama FCN propone k "máscaras prototipo" de posibles instancias de objetos; simultáneamente, una rama de capas totalmente conectadas produce muchos "cuadros de anclaje", similares a las propuestas de regiones, y también predice k "coeficientes de máscara", uno por cada máscara prototipo, que representan la probabilidad de que un objeto propuesto se alinee con una máscara de segmentación propuesta. La supresión no máxima (NMS) se utiliza para filtrar las instancias propuestas con los coeficientes de máscara más altos.