Alcune applicazioni di segmentazione delle istanze, come il rilevamento di articoli difettosi in una catena di montaggio di produzione, richiedono risultati in tempo reale. Sono stati sviluppati modelli monostadio per casi d'uso in cui la velocità è una priorità assoluta.

I modelli a due stadi come Mask R-CNN sono estremamente accurati, ma il loro approccio intrinsecamente sequenziale è difficile da accelerare. I modelli di segmentazione delle istanze one-shot come YOLACT (You Only Look At CoefficienTs) si basano invece su modelli di rilevamento di oggetti a fase singola come YOLO (You Only Look Once).

In YOLACT, un FPN crea mappe di funzioni ad alta risoluzione, che vengono inserite in due rami paralleli: un ramo FCN propone migliaia di "maschere prototipo" di potenziali istanze di oggetti; contemporaneamente, un ramo di strati completamente connessi produce molte "scatole di ancoraggio", simili alle proposte di regione, e predice anche migliaia di "coefficienti di maschera", uno per ogni maschera prototipo, che rappresentano la probabilità che un oggetto proposto si allinei con una maschera di segmentazione proposta. La soppressione non massima (NMS) viene utilizzata per filtrare le istanze proposte con i coefficienti di maschera più elevati.