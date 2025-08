Ada sejumlah pendekatan machine learning untuk tugas deteksi objek. Contohnya adalah kerangka kerja Viola-Jones8 dan histogram gradien berorientasi.9 Namun, penelitian dan pengembangan deteksi objek baru-baru ini sebagian besar berfokus pada convolutional neural networks (CNN). Oleh karena itu, halaman ini berfokus pada dua jenis CNN yang paling banyak dibahas dalam penelitian deteksi objek. Perhatikan bahwa model-model ini diuji dan dibandingkan dengan menggunakan kumpulan data tolak ukur, seperti kumpulan data Microsoft COCO atau ImageNet.

R-CNN (region-based convolutional neural network) adalah detektor dua tahap yang menggunakan metode yang disebut proposal wilayah untuk menghasilkan 2.000 prediksi wilayah per gambar. R-CNN kemudian membelokkan wilayah yang diekstraksi ke ukuran yang seragam dan menjalankan wilayah tersebut melalui jaringan terpisah untuk ekstraksi dan klasifikasi fitur. Setiap wilayah diberi peringkat sesuai dengan kepercayaan klasifikasinya. R-CNN kemudian menolak wilayah yang memiliki IoU tertentu tumpang tindih dengan wilayah yang dipilih dengan skor lebih tinggi. Wilayah terklasifikasi yang tidak tumpang tindih dan teratas yang tersisa adalah hasil model.10 Seperti yang diharapkan, arsitektur ini komputasi mahal dan lambat. Fast R-CNN dan Faster R-CNN adalah modifikasi selanjutnya yang mengurangi ukuran arsitektur R-CNN dan dengan demikian mengurangi waktu pemrosesan sekaligus meningkatkan akurasi.11

YOLO (You Only Look Once) adalah keluarga arsitektur deteksi tahap tunggal yang berbasis di Darknet, kerangka kerja CNN sumber terbuka. Pertama kali dikembangkan pada tahun 2016, arsitektur YOLO mengutamakan kecepatan. Memang, kecepatan YOLO membuatnya lebih disukai untuk deteksi objek waktu nyata dan telah membuatnya mendapatkan deskriptor umum detektor objek canggih. YOLO berbeda dari R-CNN dalam beberapa hal. Sementara R-CNN melewati wilayah gambar yang diekstraksi melalui beberapa jaringan yang mengekstraksi fitur dan mengklasifikasikan gambar secara terpisah, YOLO memadatkan tindakan ini menjadi satu jaringan. Kedua, dibandingkan dengan proposal wilayah R-CNN yang berjumlah ~2000, YOLO membuat kurang dari 100 prediksi kotak pembatas per gambar. Selain lebih cepat dari R-CNN, YOLO juga menghasilkan lebih sedikit positif palsu latar belakang, meskipun memiliki kesalahan lokalisasi yang lebih tinggi.12 Ada banyak pembaruan pada YOLO sejak awal, yang umumnya berfokus pada kecepatan dan akurasi.13

Meskipun awalnya dikembangkan untuk deteksi objek, versi R-CNN dan YOLO yang lebih baru juga dapat melatih model klasifikasi dan segmentasi. Secara khusus, Mask R-CNN menggabungkan deteksi objek dan segmentasi, sementara YOLOv5 dapat melatih model klasifikasi, deteksi, dan segmentasi yang terpisah.

Tentu saja, ada banyak arsitektur model lain di luar R-CNN dan YOLO. SSD dan Retinanet adalah dua model tambahan yang menggunakan arsitektur sederhana yang mirip dengan YOLO.14 DETR adalah arsitektur lain yang dikembangkan oleh Facebook (sekarang Meta) yang menggabungkan CNN dengan model transformator dan menunjukkan kinerja yang sebanding dengan Faster R-CNN.15