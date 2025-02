Há várias abordagens de aprendizado de máquina para tarefas de detecção de objetos. São exemplos a estrutura Viola-Jones8 e o histograma de gradientes orientados.9 A pesquisa e o desenvolvimento recentes de detecção de objetos, no entanto, concentraram-se amplamente em redes neurais convolucionais (CNNs). Dessa forma, esta página concentra-se em dois tipos de CNNs mais discutidos na pesquisa de detecção de objetos. Observe que esses modelos são testados e comparados utilizando-se conjuntos de dados de referência, como o conjunto de dados Microsoft COCO ou ImageNet.

A R-CNN (rede neural convolucional) é um detector de dois estágios que utiliza um método chamado propostas de região para gerar duas mil previsões de região por imagem. Em seguida, a R-CNN distorce as regiões extraídas para um tamanho uniforme e executa essas regiões por meio de redes separadas para extração e classificação de recursos. Cada região é classificada de acordo com a confiança de sua classificação. Em seguida, o R-CNN rejeita as regiões que têm uma certa sobreposição de IoU com uma região selecionada com pontuação mais alta. As regiões restantes não sobrepostas e classificadas com a pontuação mais alta são a produção do modelo10 Como esperado, essa arquitetura é cara e lenta em termos de computação. O Fast R-CNN e o Faster R-CNN são modificações posteriores que reduzem o tamanho da arquitetura do R-CNN e assim diminuem o tempo de processamento e também aumentam a precisão11

YOLO (You Only Look Once) é uma família de arquiteturas de detecção de estágio único baseada em Darknet, uma estrutura de código aberto CNN. Desenvolvida pela primeira vez em 2016, a arquitetura YOLO prioriza a velocidade. De fato, a velocidade da YOLO a torna preferível para a detecção de objetos em tempo real e lhe rendeu o descritor comum de detector de objetos de última geração. A YOLO difere da R-CNN em vários aspectos. Enquanto a R-CNN passa regiões de imagens extraídas por várias redes que extraem recursos e classificam imagens em separado, a YOLO condensa essas ações em uma única rede. Em segundo lugar, em comparação com as cerca de duas mil propostas de regiões da R-CNN, a YOLO faz menos de cem previsões de caixas delimitadoras por imagem. Além de ser mais rápida do que a R-CNN, a YOLO também produz menos falsos positivos em segundo plano, embora tenha um erro de localização mais alto12 A YOLO passou por muitas atualizações desde sua criação, geralmente com foco na velocidade e na precisão13

Embora originalmente desenvolvidos para detecção de objetos, versões posteriores do R-CNN e do YOLO também podem treinar modelos de classificação e segmentação. Especificamente, o Mask R-CNN combina detecção e segmentação de objetos, enquanto o YOLOv5 pode treinar modelos separados de classificação, detecção e segmentação.

Obviamente há muitas outras arquiteturas de modelo além de R-CNN e YOLO. SSD e Retinanet são dois modelos adicionais que utilizam uma arquitetura simplificada semelhante à YOLO.14 DETR é outra arquitetura desenvolvida pelo Facebook (agora Meta) que combina CNN com um modelo de transformador e mostra desempenho comparável ao R-CNN mais rápido.15