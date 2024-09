O desafio é unificar duas metodologias contraditórias: modelos de segmentação semântica tratam todos os pixels como elementos do ambiente, desconsiderando instâncias individuais de objetos; modelos de segmentação de instância isolam objetos individuais, ignorando elementos do ambiente. Nenhum tipo de modelo pode absorver adequadamente as responsabilidades do outro.

As tentativas iniciais de modelos de segmentação panótica simplesmente combinaram os dois modelos, realizando cada tarefa separadamente e, em seguida, combinando sua saída em uma fase de pós-processamento. Essa abordagem apresenta duas principais desvantagens: exige um grande esforço computacional e enfrenta dificuldades com as discrepâncias entre os pontos de dados de saída da rede de segmentação semântica e os pontos de dados de saída da rede de segmentação de instâncias.

Arquiteturas de segmentação panóptica mais recentes visam evitar essas desvantagens com uma abordagem mais unificada à deep learning. A maioria desses sistemas é construída sobre uma "rede principal", como uma rede de pirâmide de características (FPN), que extrai características da imagem de entrada, alimenta esses dados extraídos em ramos paralelos, como um "ramo de primeiro plano" e um "ramo de fundo", ou "cabeça semântica" e "cabeça de instância", e depois mescla a saída de cada ramo usando um sistema ponderado. Arquiteturas panópticas propostas incluem EfficientPS, OANet, PanopticFPN, UPSNet, SOGNet, BGRNet, AUNet, FPSNet e SpatialFlow.