Ada sejumlah pendekatan machine learning untuk tugas deteksi objek. Contohnya termasuk kerangka kerja Viola-Jones8 dan histogram gradien berorientasi.9 Penelitian dan pengembangan deteksi objek baru-baru ini, bagaimanapun, sebagian besar berfokus pada convolutional neural networks (CNN). Dengan demikian, halaman ini berfokus pada dua jenis CNN yang paling banyak dibahas dalam penelitian deteksi objek. Perhatikan bahwa model-model ini diuji dan dibandingkan menggunakan kumpulan data benchmark, seperti kumpulan data Microsoft COCO atau ImageNet.
R-CNN (jaringan saraf konvolusi Neural Networks berbasis wilayah) adalah detektor dua tahap yang menggunakan metode yang disebut proposal wilayah untuk menghasilkan 2.000 prediksi wilayah per gambar. R-CNN kemudian mengubah wilayah yang diekstraksi menjadi ukuran yang seragam dan menjalankan wilayah tersebut melalui jaringan yang terpisah untuk ekstraksi fitur dan klasifikasi. Setiap wilayah diberi peringkat sesuai dengan kepercayaan klasifikasinya. R-CNN kemudian menolak wilayah yang memiliki IoU tertentu tumpang tindih dengan wilayah yang dipilih dengan skor lebih tinggi. Wilayah yang tidak tumpang tindih dan wilayah yang diklasifikasikan dengan peringkat teratas merupakan hasil model.10 Seperti yang diharapkan, arsitektur ini mahal secara komputasi dan lambat. Fast R-CNN dan Faster R-CNN merupakan modifikasi selanjutnya yang mengurangi ukuran arsitektur R-CNN dan dengan demikian mengurangi waktu pemrosesan sekaligus meningkatkan akurasi.11
YOLO (You Only Look Once) adalah sebuah rangkaian arsitektur pendeteksian satu tahap yang berbasis di Darknet, sebuah kerangka kerja CNN sumber terbuka. Pertama kali dikembangkan pada tahun 2016, arsitektur YOLO memprioritaskan kecepatan. Memang, kecepatan YOLO membuatnya lebih disukai untuk pendeteksian objek secara real-time dan membuatnya menjadi deskriptor umum pendeteksi objek yang canggih. YOLO berbeda dari R-CNN dalam beberapa hal. Sementara R-CNN melewatkan wilayah gambar yang diekstraksi melalui beberapa jaringan yang secara terpisah mengekstrak fitur dan mengklasifikasikan gambar, YOLO memadatkan tindakan ini ke dalam satu jaringan. Kedua, dibandingkan dengan proposal wilayah ~2000 R-CNN, YOLO membuat kurang dari 100 prediksi kotak pembatas per gambar. Selain lebih cepat daripada R-CNN, YOLO juga menghasilkan lebih sedikit latar belakang positif palsu, meskipun memiliki kesalahan lokalisasi yang lebih tinggi.12 Ada banyak pembaruan pada YOLO sejak awal, yang umumnya berfokus pada kecepatan dan akurasi13
Meskipun awalnya dikembangkan untuk deteksi objek, versi R-CNN dan YOLO yang lebih baru juga dapat melatih model klasifikasi dan segmentasi. Secara khusus, Mask R-CNN menggabungkan deteksi objek dan segmentasi, sementara YOLOv5 dapat melatih model klasifikasi, deteksi, dan segmentasi yang terpisah.
Tentu saja, ada banyak arsitektur model lain di luar R-CNN dan YOLO. SSD dan Retinanet adalah dua model tambahan yang menggunakan arsitektur sederhana yang mirip dengan YOLO.14 DETR adalah arsitektur lain yang dikembangkan oleh Facebook (sekarang Meta) yang menggabungkan CNN dengan model transformator dan menunjukkan kinerja yang sebanding dengan Faster R-CNN.15