Apa itu Deteksi Objek?

Penyusun

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

Deteksi objek adalah teknik yang menggunakan jaringan neural untuk melokalisasi dan mengklasifikasikan objek dalam gambar. Tugas visi komputer ini memiliki beragam aplikasi, mulai dari pencitraan medis hingga mobil tanpa pengemudi.

Deteksi objek adalah tugas visi komputer yang bertujuan untuk menemukan objek dalam gambar digital. Dengan demikian, ini adalah contoh kecerdasan buatan yang terdiri dari melatih komputer untuk melihat seperti yang dilakukan manusia, khususnya dengan mengenali dan mengklasifikasikan objek sesuai dengan kategori semantik.¹ Lokalisasi objek adalah teknik untuk menentukan lokasi objek tertentu dalam sebuah gambar dengan membatasi objek tersebut melalui kotak pembatas. Klasifikasi objek adalah teknik lain yang menentukan di kategori mana objek yang terdeteksi berada. Tugas deteksi objek menggabungkan subtugas lokalisasi dan klasifikasi objek untuk secara bersamaan memperkirakan lokasi dan jenis contoh objek dalam satu atau beberapa gambar.²

Tugas visi komputer

Deteksi objek tumpang tindih dengan teknik visi komputer lainnya, tetapi para pengembang tetap memperlakukannya sebagai upaya terpisah.

Klasifikasi gambar (atau pengenalan gambar) bertujuan untuk mengklasifikasikan gambar menurut kategori. Contoh dasar dari hal ini adalah pengujian gambar CAPTCHA, di mana sekelompok gambar dapat diatur sebagai gambar dengan rambu berhenti dan gambar tanpa rambu berhenti. Klasifikasi gambar menetapkan satu label pada keseluruhan gambar.

Deteksi objek, sebagai perbandingan, menggambarkan objek individual dalam gambar sesuai dengan kategori tertentu. Sementara klasifikasi gambar membagi gambar di antara gambar yang memiliki rambu berhenti dan yang tidak, deteksi objek menemukan dan mengkategorikan semua rambu jalan dalam gambar, serta objek lain seperti mobil dan orang.

Segmentasi gambar (atau segmentasi semantik) mirip dengan deteksi objek, meskipun lebih tepat. Seperti deteksi objek, segmentasi menggambarkan objek dalam gambar sesuai dengan kategori semantik. Tetapi alih-alih menandai objek menggunakan kotak, segmentasi membatasi objek pada tingkat piksel.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Cara kerja deteksi objek

Memahami bagian dalam mekanisme pendeteksian objek membutuhkan dasar dalam visi komputer dan pemrosesan gambar digital secara lebih luas. Bagian ini memberikan gambaran umum.

Pemrosesan gambar

Dalam visi komputer, gambar dinyatakan sebagai fungsi berlanjut pada bidang koordinat 2D yang ditunjukkan sebagai f(x,y). Apabila didigitalkan, gambar mengalami dua proses utama yang disebut pengambilan sampel dan kuantisasi, yang singkatnya secara bersama-sama mengubah fungsi gambar berkelanjutan menjadi struktur grid elemen piksel yang terpisah. Komputer kemudian dapat menyegmentasikan gambar ke dalam berbagai wilayah terpisah menurut kesamaan visual dan kedekatan piksel.³

Dengan melabeli gambar menggunakan antarmuka anotasi, pengguna menetapkan objek tertentu sebagai wilayah dengan fitur tingkat piksel tertentu (misalnya, area, nilai abu-abu, dan seterusnya). Ketika diberi gambar input, model pendeteksian objek mengenali wilayah dengan fitur yang mirip dengan yang didefinisikan dalam kumpulan data pelatihan sebagai objek yang sama. Dengan cara ini, deteksi objek adalah bentuk pengenalan pola. Model pendeteksian objek tidak mengenali objek itu sendiri, melainkan kumpulan properti seperti ukuran, bentuk, warna, dan seterusnya, dan mengklasifikasikan wilayah berdasarkan pola visual yang disimpulkan dari data pelatihan yang dianotasi secara manual.⁴

Model deteksi objek untuk mobil tanpa pengemudi, misalnya, tidak mengenali pejalan kaki, melainkan sekumpulan fitur yang membentuk pola umum yang mencirikan objek pejalan kaki (seperti yang didefinisikan dalam data pelatihan).

Arsitektur model

Sementara rangkaian model yang berbeda menggunakan arsitektur yang berbeda, model pembelajaran mendalam untuk deteksi objek mengikuti struktur umum. Mereka terdiri dari tulang punggung, leher, dan kepala.

Tulang punggung mengekstrak fitur dari gambar input. Seringkali, tulang punggung berasal dari bagian dari model klasifikasi yang telah dilatih sebelumnya. Ekstraksi fitur menghasilkan segudang peta fitur dengan berbagai resolusi yang dilewatkan tulang punggung ke leher. Bagian terakhir dari struktur ini menggabungkan peta fitur untuk setiap gambar. Arsitektur ini kemudian meneruskan peta fitur berlapis ke head, yang memprediksi kotak pembatas dan skor klasifikasi untuk setiap kumpulan fitur.

Detektor dua tahap memisahkan lokalisasi dan klasifikasi objek di dalam kepala, sedangkan detektor satu tahap menggabungkan semua tugas ini. Detektor dua tahap umumnya mengembalikan akurasi lokalisasi yang lebih tinggi sementara detektor satu tahap bekerja lebih cepat.⁵

Metrik evaluasi

Intersection over Union (IoU) adalah metrik evaluasi umum yang digunakan dalam model deteksi objek. Kotak pembatas adalah hasil kuadrat yang membatasi objek yang terdeteksi seperti yang diprediksi oleh model. IoU menghitung rasio area perpotongan dua kotak yang berbatasan (yaitu, area bagian kotak yang tumpang tindih) dengan area penyatuannya (yaitu, total area kedua kotak digabungkan):⁶

Kita dapat memvisualisasikan persamaan ini sebagai:

Model menggunakan IoU untuk mengukur akurasi prediksi dengan menghitung IoU antara kotak prediksi dan kotak kebenaran dasar. Arsitektur model juga menggunakan IoU untuk menghasilkan prediksi kotak pembatas akhir. Karena model pada awalnya sering menghasilkan beberapa ratus prediksi bounding box untuk satu objek yang terdeteksi, model menggunakan IoU untuk menimbang dan mengkonsolidasikan prediksi bounding box ke dalam satu kotak per objek yang terdeteksi.

Metrik lain dapat digunakan untuk evaluasi yang berbeda pada model deteksi objek. Generalized Intersection over Union (GIoU) adalah versi modifikasi dari IoU yang menyumbangkan peningkatan dalam lokalisasi objek di mana IoU dasar masih dapat menunjukkan nilai nol.⁷ Riset deteksi objek juga menggunakan metrik pengambilan informasi umum, seperti rata-rata presisi dan recall.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Algoritma dan arsitektur deteksi objek

Ada sejumlah pendekatan machine learning untuk tugas deteksi objek. Contohnya meliputi kerangka kerja Viola-Jones⁸ dan histogram gradien berorientasi.⁹ Namun, riset dan pengembangan deteksi objek baru-baru ini sebagian besar berfokus pada neural networks konvolusional (CNN). Dengan demikian, halaman ini berfokus pada dua jenis CNN yang paling banyak dibahas dalam riset deteksi objek. Perhatikan bahwa semua model ini diuji dan dibandingkan menggunakan kumpulan data tolok ukur, seperti kumpulan data Microsoft COCO atau ImageNet.

R-CNN (neural networks konvolusional berbasis wilayah) adalah detektor dua tahap yang menggunakan metode yang disebut proposal wilayah untuk menghasilkan 2.000 prediksi wilayah per gambar. R-CNN kemudian mengubah wilayah yang diekstrak menjadi ukuran yang seragam dan menjalankan wilayah tersebut melalui jaringan yang terpisah untuk ekstraksi dan klasifikasi fitur. Setiap wilayah diberi peringkat sesuai dengan keyakinan akan klasifikasinya. R-CNN kemudian menolak wilayah dengan IoU tertentu tumpang tindih dengan wilayah yang dipilih dengan skor lebih tinggi. Wilayah yang tidak tumpang tindih dan wilayah yang diklasifikasikan dengan peringkat teratas merupakan output model.¹⁰ Sesuai perkiraan, arsitektur ini mahal dari segi komputasi dan lambat. Fast R-CNN dan Faster R-CNN merupakan modifikasi selanjutnya yang mengurangi ukuran arsitektur R-CNN dan dengan demikian mengurangi waktu pemrosesan sekaligus meningkatkan akurasi.¹¹

YOLO (You Only Look Once) adalah sebuah rangkaian arsitektur pendeteksian satu tahap yang berbasis di Darknet, sebuah kerangka kerja CNN sumber terbuka. Pertama kali dikembangkan pada tahun 2016, arsitektur YOLO memprioritaskan kecepatan. Memang, kecepatan YOLO membuatnya lebih disukai untuk deteksi objek secara real-time dan membuatnya menjadi deskriptor umum pendeteksi objek yang canggih. YOLO berbeda dari R-CNN dalam beberapa hal. Sementara R-CNN melewatkan wilayah gambar yang diekstrak melalui beberapa jaringan yang secara terpisah mengekstrak fitur dan mengklasifikasikan gambar, YOLO memadatkan tindakan ini ke dalam satu jaringan. Kedua, dibandingkan dengan proposal wilayah ~2000 R-CNN, YOLO membuat kurang dari 100 prediksi kotak pembatas per gambar. Selain lebih cepat daripada R-CNN, YOLO juga menghasilkan lebih sedikit latar belakang positif palsu, meskipun memiliki kesalahan lokalisasi yang lebih tinggi.¹² Ada banyak pembaruan pada YOLO sejak awal penemuannya, yang umumnya berfokus pada kecepatan dan akurasi.¹³

Meskipun awalnya dikembangkan untuk deteksi objek, versi R-CNN dan YOLO yang lebih baru juga dapat melatih model klasifikasi dan segmentasi. Secara khusus, Mask R-CNN menggabungkan deteksi objek dan segmentasi, sementara YOLOv5 dapat melatih model klasifikasi, deteksi, dan segmentasi yang terpisah.

Tentu saja, ada banyak arsitektur model lain di luar R-CNN dan YOLO. SSD dan Retinanet adalah dua model lain yang menggunakan arsitektur sederhana yang mirip dengan YOLO.¹⁴ DETR adalah arsitektur lain yang dikembangkan oleh Facebook (sekarang Meta) yang menggabungkan CNN dengan model transformator dan menunjukkan kinerja yang sebanding dengan Faster R-CNN.¹⁵

Contoh kasus penggunaan

Dalam banyak contoh penggunaan, deteksi objek bukanlah tujuan itu sendiri tetapi satu tahap dalam tugas visi komputer yang lebih besar.

Kemudi otonom

Mobil otonom secara luas mengadopsi deteksi objek untuk mengenali objek seperti mobil dan pejalan kaki. Salah satu contohnya adalah AI Autopilot dari Tesla. Karena kecepatannya yang meningkat, arsitektur sederhana seperti YOLO dan SimpleNet jelas lebih ideal untuk pengemudian otonom.¹⁶

Pencitraan medis

Deteksi objek dapat membantu dalam tugas inspeksi visual. Sebagai contoh, sebuah badan substantif penelitian deteksi objek menyelidiki metrik dan model untuk mengidentifikasi indikator fisiologis penyakit dalam gambar medis seperti sinar-X dan pemindaian MRI. Di bidang ini, banyak penelitian yang berfokus pada perbaikan ketidakseimbangan kumpulan data karena langkanya gambar medis penyakit tersebut.¹⁷

Keamanan

Pengawasan video dapat menggunakan deteksi objek real-time untuk melacak objek terkait kejahatan, seperti senjata api atau pisau dalam rekaman kamera keamanan. Dengan mendeteksi objek tersebut, sistem keamanan dapat lebih memprediksi dan mencegah kejahatan. Para peneliti telah mengembangkan algoritma deteksi senjata menggunakan R-CNN dan YOLO.¹⁸

Penelitian terbaru

Kumpulan data yang tidak seimbang adalah salah satu masalah yang mengganggu tugas deteksi objek, karena sampel negatif (yaitu gambar tanpa objek yang diinginkan) jauh lebih banyak daripada sampel positif dalam banyak kumpulan data khusus domain. Ini adalah masalah khusus dengan gambar medis, di mana sampel positif penyakit sulit diperoleh. Penelitian terbaru menggunakan augmentasi data untuk memperluas dan mendiversifikasi kumpulan data yang terbatas untuk meningkatkan kinerja model.¹⁹

Perkembangan sebelumnya dalam deteksi objek sebagian besar berfokus pada gambar 2D. Baru-baru ini, para peneliti telah beralih ke aplikasi deteksi objek untuk gambar dan video 3D. Objek bergerak yang tampak buram dan pergeseran fokus kamera menyebabkan masalah dalam mengidentifikasi objek di seluruh bingkai video. Para peneliti telah menjelajahi berbagai metode dan arsitektur untuk membantu melacak objek di seluruh bingkai terlepas dari kondisi itu, seperti memori jangka pendek (LSTM) arsitektur recurrent neural networks ²⁰ dan model berbasis transformator.²¹ Transformator telah digunakan untuk mempercepat model deteksi objek untuk tugas deteksi real-time. Teknik pemrosesan paralel adalah salah satu bidang studi penting lainnya dalam upaya ini.²²

Ilmu data dan MLOP untuk pemimpin data

Bergabunglah dengan para pemimpin lain untuk mendorong tiga pilar penting MLOP dan AI yang dapat dipercaya: kepercayaan pada data, kepercayaan pada model, dan kepercayaan pada proses.

Apa itu deteksi objek?