Ada sejumlah pendekatan machine learning untuk tugas deteksi objek. Contohnya meliputi kerangka kerja Viola-Jones8 dan histogram gradien berorientasi.9 Namun, riset dan pengembangan deteksi objek baru-baru ini sebagian besar berfokus pada neural networks konvolusional (CNN). Dengan demikian, halaman ini berfokus pada dua jenis CNN yang paling banyak dibahas dalam riset deteksi objek. Perhatikan bahwa semua model ini diuji dan dibandingkan menggunakan kumpulan data tolok ukur, seperti kumpulan data Microsoft COCO atau ImageNet.
R-CNN (neural networks konvolusional berbasis wilayah) adalah detektor dua tahap yang menggunakan metode yang disebut proposal wilayah untuk menghasilkan 2.000 prediksi wilayah per gambar. R-CNN kemudian mengubah wilayah yang diekstrak menjadi ukuran yang seragam dan menjalankan wilayah tersebut melalui jaringan yang terpisah untuk ekstraksi dan klasifikasi fitur. Setiap wilayah diberi peringkat sesuai dengan keyakinan akan klasifikasinya. R-CNN kemudian menolak wilayah dengan IoU tertentu tumpang tindih dengan wilayah yang dipilih dengan skor lebih tinggi. Wilayah yang tidak tumpang tindih dan wilayah yang diklasifikasikan dengan peringkat teratas merupakan output model.10 Sesuai perkiraan, arsitektur ini mahal dari segi komputasi dan lambat. Fast R-CNN dan Faster R-CNN merupakan modifikasi selanjutnya yang mengurangi ukuran arsitektur R-CNN dan dengan demikian mengurangi waktu pemrosesan sekaligus meningkatkan akurasi.11
YOLO (You Only Look Once) adalah sebuah rangkaian arsitektur pendeteksian satu tahap yang berbasis di Darknet, sebuah kerangka kerja CNN sumber terbuka. Pertama kali dikembangkan pada tahun 2016, arsitektur YOLO memprioritaskan kecepatan. Memang, kecepatan YOLO membuatnya lebih disukai untuk deteksi objek secara real-time dan membuatnya menjadi deskriptor umum pendeteksi objek yang canggih. YOLO berbeda dari R-CNN dalam beberapa hal. Sementara R-CNN melewatkan wilayah gambar yang diekstrak melalui beberapa jaringan yang secara terpisah mengekstrak fitur dan mengklasifikasikan gambar, YOLO memadatkan tindakan ini ke dalam satu jaringan. Kedua, dibandingkan dengan proposal wilayah ~2000 R-CNN, YOLO membuat kurang dari 100 prediksi kotak pembatas per gambar. Selain lebih cepat daripada R-CNN, YOLO juga menghasilkan lebih sedikit latar belakang positif palsu, meskipun memiliki kesalahan lokalisasi yang lebih tinggi.12 Ada banyak pembaruan pada YOLO sejak awal penemuannya, yang umumnya berfokus pada kecepatan dan akurasi.13
Meskipun awalnya dikembangkan untuk deteksi objek, versi R-CNN dan YOLO yang lebih baru juga dapat melatih model klasifikasi dan segmentasi. Secara khusus, Mask R-CNN menggabungkan deteksi objek dan segmentasi, sementara YOLOv5 dapat melatih model klasifikasi, deteksi, dan segmentasi yang terpisah.
Tentu saja, ada banyak arsitektur model lain di luar R-CNN dan YOLO. SSD dan Retinanet adalah dua model lain yang menggunakan arsitektur sederhana yang mirip dengan YOLO.14 DETR adalah arsitektur lain yang dikembangkan oleh Facebook (sekarang Meta) yang menggabungkan CNN dengan model transformator dan menunjukkan kinerja yang sebanding dengan Faster R-CNN.15