製造組立ラインでの欠陥品の検出など、特定の用途のインスタンス・セグメンテーションでは、リアルタイムの結果が必要です。シングル・ステージ・モデルは、速度が最優先されるユースケース向けに開発されました。

Mask R-CNNのような2段階モデルでは、精度は高くなりますが、本質的に逐次的なアプローチを高速化することは困難です。YOLACT(You Only Look At Coefficients)のようなワンショット・インスタンス・セグメンテーション・モデルは、代わりにYOLO(You Only Look Once)のようなシングル・ステージの物体検出モデルをベースにして構築されています。

YOLACTでは、FPNが高解像度の特徴マップを作成し、それを2つの並列ブランチに供給します。FCNブランチは、潜在的なオブジェクト・インスタンスのk個の「プロトタイプ・マスク」を提案します。同時に、全結合層の分岐により、領域提案に似た多くの「アンカー・ボックス」が生成され、k個の「マスク係数」(プロトタイプ・マスクごとに1つ)も予測されます。これは、提案されたオブジェクトが、提案されたセグメンテーション・マスクと一致する可能性を表します。最も高いマスク係数を持つ提案されたインスタンスをフィルタリングするために、非極大値抑制(NMS)が使用されます。