Apa itu segmentasi semantik?

Apa itu segmentasi semantik?

Segmentasi semantik adalah tugas visi komputer yang menetapkan label kelas ke piksel menggunakan algoritma pembelajaran mendalam (DL) . Ini adalah salah satu dari tiga sub-kategori dalam keseluruhan proses segmentasi gambar yang membantu komputer memahami informasi visual.

Segmentasi semantik mengidentifikasi kumpulan piksel dan mengklasifikasikannya menurut berbagai karakteristik. Dua sub-kategori segmentasi gambar lainnya adalah segmentasi instance dan segmentasi panoptik.

Segmentasi gambar

Segmentasi gambar adalah proses analisis gambar menyeluruh yang membagi gambar digital menjadi beberapa segmen dan mengklasifikasikan informasi yang terkandung dalam setiap wilayah.

Tiga jenis tugas segmentasi gambar, yaitu segmentasi semantik, instans, dan panoptik, menetapkan label ke masing-masing piksel dalam gambar untuk menandai batas-batas spesifik dan bentuk objek dan wilayah yang berbeda dalam gambar, mengklasifikasikannya dengan menggunakan informasi seperti warna, kontras, penempatan di dalam gambar, dan atribut lainnya.

Sedangkan segmentasi semantik memberi label pada setiap piksel yang terdapat dalam gambar berdasarkan kelas semantiknya, segmentasi instans dan segmentasi panoptik digunakan untuk tugas klasifikasi yang berbeda.

Model segmentasi instans hanya berfokus pada kelas semantik yang terkandung dalam gambar yang dapat dihitung: entitas dan objek seperti orang, hewan, pohon, mobil, atau hidran. Alat ini mendeteksi setiap objek, atau instans, dan kemudian mengeluarkan penutup segmentasi dan tag pengenal spesifik untuk masing-masing objek.

Model segmentasi panoptik memerlukan kedua jenis informasi: model ini melakukan segmentasi semantik dan mendeteksi serta menyegmentasikan instans objek individual, memberikan analisis gambar yang lebih lengkap dengan memberikan setiap piksel label semantik dan (jika sesuai) pengenal instans yang unik.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Mengapa segmentasi gambar semantik penting?

Tugas segmentasi semantik membantu mesin membedakan berbagai kelas objek dan wilayah latar belakang dalam sebuah gambar. Dengan munculnya AI dan machine learning, segmentasi gambar dan pembuatan peta segmentasi memainkan peran penting dalam melatih komputer untuk mengenali konteks penting dalam gambar digital seperti lingkungan, foto orang, gambar medis, dan banyak lagi.

Model pembelajaran segmentasi gambar memungkinkan mesin untuk menafsirkan informasi visual yang mirip dengan otak manusia. Sementara model segmentasi gambar sama-sama menggunakan model deteksi objek, mereka berbeda dalam aspek kritis: Mereka mengidentifikasi entitas yang berbeda yang terkandung dalam gambar pada tingkat piksel, daripada memperkirakan informasi itu dengan kotak pembatas. Pada dasarnya, sementara model klasifikasi gambar dapat menentukan apa yang terkandung dalam gambar (tetapi tidak melakukan lokalisasi apa pun), dan model deteksi objek dapat menentukan di mana dalam gambar objek berada, untuk menentukan bentuk dan batas spesifik entitas dalam gambar memerlukan model segmentasi gambar.1

Dengan meningkatnya keberhasilan algoritme pembelajaran mendalam dalam membantu mesin menginterpretasikan gambar sebagai data, mesin menjadi semakin baik dalam mengidentifikasi objek. Sementara tugas klasifikasi gambar membantu mesin memahami informasi apa yang terkandung dalam sebuah gambar, segmentasi semantik memungkinkan mesin mengidentifikasi lokasi yang tepat dari berbagai jenis informasi visual, serta di mana masing-masing dimulai dan diakhiri.

Mixture of Experts | 25 April, episode 52

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Bagaimana cara kerja segmentasi semantik? 

Model segmentasi semantik membuat peta segmentasi gambar input. Peta segmentasi pada dasarnya adalah rekonstruksi gambar asli di mana setiap piksel diberi kode warna berdasarkan kelas semantiknya untuk membuat penutup segmentasi. Penutup segmentasi hanyalah bagian gambar yang sudah dibedakan dari bagian gambar lainnya. Sebagai contoh, peta segmentasi pohon di bidang kosong kemungkinan akan berisi tiga penutup segmentasi: satu untuk pohon, satu untuk tanah, dan satu untuk langit di latar belakang.

Untuk melakukannya, model segmentasi semantik menggunakan neural network untuk mengelompokkan piksel terkait secara akurat ke dalam masking segmentasi dan mengenali kelas semantik nyata dengan benar untuk setiap kelompok piksel (atau segmen). Metode pembelajaran mendalam (DL) ini membutuhkan model untuk dilatih pada kumpulan data berlabel besar yang telah dianotasi oleh pakar manusia, menyesuaikan bobot dan biasnya melalui teknik machine learning seperti propagasi mundur dan penurunan gradien.

Metode DL telah menggantikan algoritma machine learning “tradisional” lainnya, seperti Support Vector Machines (SVM) dan Random Forest. Meskipun neural network mendalam membutuhkan lebih banyak waktu, data, dan sumber daya komputasi untuk dilatih, metode ini mengungguli metode lain dan dengan cepat menjadi pendekatan yang dipilih setelah inovasi awal terbukti berhasil.

Kumpulan data untuk pelatihan

Tugas mengklasifikasikan data gambar secara akurat memerlukan kumpulan data yang terdiri dari nilai piksel yang merepresentasikan penutup untuk objek atau label kelas yang berbeda yang terdapat dalam gambar. Biasanya, karena kompleksitas data pelatihan yang terlibat dalam segmentasi gambar, kumpulan data semacam ini lebih besar dan lebih kompleks daripada kumpulan data pembelajaran mesin lainnya.

Banyak koleksi data segmentasi gambar open source tersedia, meliputi berbagai kelas semantik dengan ratusan contoh dan anotasi yang detail untuk setiap contoh. Misalnya, bayangkan masalah segmentasi di mana visi komputer dalam mobil tanpa pengemudi diajarkan untuk mengenali semua objek yang berbeda untuk memicu rem, seperti pejalan kaki, sepeda, dan mobil lain. Visi komputer mobil harus dilatih untuk secara konsisten mengenali semua objek tersebut, atau itu mungkin tidak akan selalu memerintahkan mobil untuk mengerem. Pelatihan ini juga harus sangat akurat dan tepat, atau itu mungkin akan  terus-menerus mengerem setelah secara keliru mengklasifikasikan visual yang tidak berbahaya sebagai objek berbahaya.

Berikut ini adalah beberapa kumpulan data sumber terbuka yang lebih populer yang digunakan dalam segmentasi gambar dan semantik:

Pascal Visual Object Classes (Pascal VOC): Kumpulan data Pascal VOC terdiri dari berbagai kelas objek, kotak pembatas, dan peta segmentasi yang kuat.

MS COCO: MS COCO berisi sekitar 330.000 gambar dan anotasi untuk berbagai tugas, termasuk deteksi, segmentasi, dan keterangan gambar.

Cityscapes: Data kota populer ini menginterpretasikan data dari lingkungan perkotaan dan terdiri dari 5.000 gambar dengan 20.000 anotasi dan 30 label kelas.

Model segmentasi semantik

Model yang terlatih menuntut arsitektur yang kuat agar dapat berfungsi dengan baik. Berikut beberapa model segmentasi semantik yang banyak digunakan.

Jaringan konvolusional penuh (FCN)

Jaringan konvolusi penuh (FCN) adalah arsitektur neural network mutakhir yang digunakan untuk segmentasi semantik yang bergantung pada beberapa lapisan konvolusional yang terhubung. Sementara arsitektur neural network konvolusional (CNN) tradisional terdiri dari lapisan konvolusional dan lapisan datar yang menghasilkan label tunggal, model FCN mengganti beberapa lapisan datar tersebut dengan blok konvolusional 1:1 yang dapat mengekstrak lebih banyak informasi tentang gambar. Menghindari penggunaan lapisan datar dan lebih padat untuk mendukung lapisan konvolusi, pooling, atau upsampling membuat jaringan FCN lebih mudah dilatih.

  • Upsampling dan downsampling: Saat jaringan mengumpulkan lebih banyak lapisan konvolusi, ukuran gambar akan berkurang, sehingga menghasilkan lebih sedikit informasi spasial serta informasi tingkat piksel, suatu proses yang diperlukan yang dikenal sebagai downsampling. Pada akhir proses ini, teknisi data melakukan pengoptimalan gambar dengan memperluas, atau upsampling, peta fitur yang telah dibuat kembali ke bentuk gambar input.

  • Max-pooling: Max-pooling adalah alat bantu penting lainnya dalam proses mengambil informasi dari daerah gambar dan menganalisisnya. Max-pooling memilih elemen terbesar di wilayah yang sedang dianalisis sehingga outputnya dapat menghasilkan peta fitur yang berisi fitur yang paling menonjol dari peta fitur sebelumnya.

U-Nets

Arsitektur U-Net adalah modifikasi dari arsitektur FCN asli yang diperkenalkan pada tahun 2015 dan secara konsisten mencapai hasil yang lebih baik. Arsitektur ini terdiri dari dua bagian, enkoder, dan dekoder. Sementara encoder menumpuk lapisan konvolusional yang secara konsisten downsampling gambar untuk mengekstrak informasi darinya, decoder membangun kembali fitur gambar menggunakan proses dekonvolusi. Arsitektur U-net terutama digunakan dalam bidang medis untuk mengidentifikasi tumor kanker dan non-kanker di paru-paru dan otak.

  • Skip-connections (koneksi loncat): Inovasi penting yang diperkenalkan pada FCN oleh U-Net dikenal sebagai skip-connections, yang digunakan untuk menghubungkan output dari satu lapisan konvolusional ke lapisan lain yang tidak berdekatan. Proses koneksi loncat ini mengurangi kehilangan data selama downsampling, sehingga memungkinkan output dengan resolusi yang lebih tinggi. Setiap lapisan konvolusional secara independen di-upsampling dan digabungkan dengan fitur dari lapisan lain hingga hasil akhir secara akurat mewakili gambar yang sedang dianalisis.

DeepLab

Model segmentasi semantik DeepLab dikembangkan oleh Google pada tahun 2015 untuk lebih meningkatkan arsitektur FCN asli dan memberikan hasil yang lebih tepat. Meskipun tumpukan lapisan dalam model FCN mengurangi resolusi gambar secara signifikan, arsitektur DeepLab menggunakan proses yang disebut konvolusi atrofi untuk meningkatkan sampel data. Dengan proses konvolusi atrofi, kernel konvolusi dapat menghapus informasi dari suatu gambar dan meninggalkan celah di antara parameter kernel.

Pendekatan DeepLab untuk konvolusi dilatasi menarik data dari bidang pandang yang lebih besar sambil tetap mempertahankan resolusi yang sama. Ruang fitur kemudian ditarik melalui algoritme medan acak bersyarat (CRF) yang terhubung sepenuhnya, sehingga lebih banyak detail dapat ditangkap dan dimanfaatkan untuk fungsi kehilangan piksel, menghasilkan penutup segmentasi yang lebih jernih dan akurat.

Jaringan Parsing Pemandangan Piramida (PSPNet)

Pada tahun 2017, algoritme segmentasi baru untuk segmentasi gambar diperkenalkan. PSPNet menerapkan modul parsing piramida yang mengumpulkan kumpulan data gambar kontekstual pada tingkat akurasi yang lebih tinggi daripada pendahulunya. Seperti pendahulunya, arsitektur PSPNet menggunakan pendekatan encoder-decoder, tetapi di mana DeepLab menerapkan upscaling untuk membuat perhitungan tingkat pikselnya, PSPNet menambahkan lapisan penyatuan piramida baru untuk mencapai hasilnya. Penyatuan multi-skala PSPNet memungkinkannya untuk menganalisis jendela informasi gambar yang lebih luas daripada model lainnya.

Kasus penggunaan segmentasi semantik

Kendaraan otonom

Mobil yang mengemudi sendiri menggunakan segmentasi semantik untuk melihat dunia di sekitar mereka dan bereaksi terhadapnya secara real-time. Segmentasi semantik memisahkan apa yang dilihat mobil ke dalam wilayah visual yang dikategorikan seperti jalur di jalan, mobil lain dan persimpangan. Pengetahuan yang diberikan kepada mobil melalui segmentasi semantik memungkinkannya untuk menavigasi dengan aman dan mencapai tujuannya serta mengambil tindakan penting dalam menanggapi peristiwa tak terduga seperti pejalan kaki yang menyeberang jalan atau pengereman mobil lain secara tiba-tiba.

Diagnostik medis

Banyak prosedur medis yang umum dilakukan seperti CT scan, sinar-X, dan MRI yang mengandalkan analisis gambar. Meskipun tugas ini biasanya menjadi tanggung jawab seorang profesional medis di masa lalu, namun saat ini, model segmentasi gambar medis mencapai hasil yang serupa. Dengan menganalisis gambar dan menggambar batas-batas yang tepat di sekitar berbagai objek di dalamnya, AI yang dilengkapi dengan segmentasi semantik dapat membantu mendeteksi anomali dan bahkan menyarankan diagnosis potensial.

Pertanian

Para petani menggunakan AI, otomatisasi, dan segmentasi semantik untuk membantu mendeteksi hama pada tanaman mereka dan bahkan mengotomatiskan penyemprotan pestisida. Penglihatan komputer dapat memberi tahu petani bagian mana dari ladang yang berpotensi terinfeksi atau berisiko, dan sistem otomatis dapat mengambil tindakan untuk membasmi hama.

Fotografi

Segmentasi semantik sering digunakan untuk memungkinkan kamera beralih antara mode potret dan lanskap, menambah atau menghapus filter, atau membuat efek. Semua filter dan fitur populer di aplikasi seperti Instagram dan TikTok menggunakan segmentasi semantik untuk mengidentifikasi mobil, bangunan, hewan dan objek lainnya sehingga filter atau efek yang dipilih dapat diterapkan.

Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung
Catatan kaki

1“Practical Machine Learning for Computer Vision”, Lakshmanan, Valliappa, Gorner, Martin dan Gillard, Ryan, O’Reilly Media, Juli, 2021