객체 감지 작업에는 다양한 머신 러닝 접근 방식이 있습니다. 비올라-존스 프레임워크8와 HOG(histogram of oriented gradient)9이 그 예입니다. 그러나 최근의 객체 감지 연구 및 개발은 주로 컨볼루션 신경망(CNN)에 초점을 맞추고 있기에 이 페이지에서는 객체 감지 연구에서 가장 많이 논의되는 두 가지 유형의 CNN에 중점을 둡니다. 이러한 모델은 Microsoft COCO 데이터 세트 또는 ImageNet과 같은 벤치마크 데이터 세트를 사용하여 테스트하고 비교합니다.

R-CNN(영역 기반 컨볼루션 신경망)은 이미지당 2,000개의 영역 예측을 생성하기 위해 영역 제안이라는 방법을 사용하는 2단계 감지기입니다. 그런 다음 R-CNN은 추출된 영역을 균일한 크기로 워핑하고 해당 영역을 별도의 네트워크를 통해 실행하여 특징을 추출하고 분류합니다. 각 영역은 분류의 신뢰도에 따라 순위가 매겨지고, 그런 다음 R-CNN은 점수가 높은 선택된 영역과 특정 IoU가 겹치는 영역을 거부합니다. 나머지 비중첩 영역 및 최상위 분류 영역이 모델의 아웃풋입니다.10 예상대로 이 아키텍처는 계산 비용이 많이 들고 느립니다. Fast R-CNN과 Faster R-CNN은 R-CNN 아키텍처의 크기를 줄여 처리 시간을 단축하고 정확도를 높이는 수정 버전입니다.11

YOLO(You Only Look Once)는 오픈 소스 CNN 프레임워크인 Darknet을 기반으로 하는 단일 단계 탐지 아키텍처 제품군입니다. 2016년에 처음 개발된 YOLO 아키텍처는 속도를 우선시합니다. 실제로 YOLO는 빠른 속도 덕분에 실시간 물체 감지에 적합하며 최첨단 물체 감지기의 대명사로 통용되고 있습니다. YOLO는 R-CNN과 여러 가지 면에서 다릅니다. R-CNN은 특징을 개별적으로 추출하고 영상을 분류하는 여러 신경망을 통해 추출된 영상 영역을 전달하는 반면, YOLO는 이러한 동작을 단일 신경망으로 압축합니다. 둘째, R-CNN의 ~2000개 영역 제안과 비교했을 때, YOLO는 이미지당 100개 미만의 경계 상자 예측을 수행합니다. YOLO는 R-CNN보다 빠를 뿐만 아니라 지역화 오류가 더 높지만 배경 위양성(false positive)을 더 적게 생성합니다.12 YOLO는 창립 이래 지속적으로 개선되었으며 이 과정에서 속도와 정확성에 특히 중점을 두었습니다.13

원래 객체 감지용으로 개발되었지만, 최신 버전의 R-CNN과 YOLO는 분류 및 세분화 모델도 학습할 수 있습니다. 특히 Mask R-CNN은 객체 감지와 분할을 모두 결합하는 반면, YOLOv5는 별도의 분류, 감지 및 분할 모델을 학습할 수 있습니다.

물론 R-CNN과 YOLO 외에도 많은 모델 아키텍처가 있습니다. SSD 및 Retinanet은 YOLO와 유사한 간소화된 아키텍처를 사용하는 두 가지 추가 모델입니다.14 DETR은 Facebook(현재 Meta)에서 개발한 또 다른 아키텍처로, CNN과 트랜스포머 모델을 결합하고 Faster R-CNN에 필적하는 성능을 보여줍니다.15